Data Mining Competition Practices
Methods and Cases
- 2026
- Buch
- Verfasst von
- Kele Xu
- Verlag
- Springer Nature Singapore
Über dieses Buch
Über dieses Buch
This book aims to provide readers with a clear implementation process for data mining competition solutions and explains the key details involved. In addition to offering the necessary theoretical knowledge, it also provides plug-and-play code. By reading this book, readers will learn how to design a solution for a data mining competition, understand the various details and specific implementation methods of the solution, and learn how to continually refine and optimize it. The book also includes practical case studies to help readers grasp and reinforce these concepts. Data mining competitions offer datasets that closely resemble real-world scenarios, making this book an excellent choice for those who want to learn data mining techniques through hands-on practice.
At the same time, this book can also serve as a reference guide, providing various methods and techniques for the entire process from data input to obtaining final results in different scenarios, including structured data, natural language processing, computer vision, video understanding, and reinforcement learning. These practical methods and techniques can help readers significantly improve their performance on datasets and are applicable not only in data mining competitions but also in research and real-world business applications.
The translation was done with the help of artificial intelligence. A subsequent human revision was done primarily in terms of content.
Inhaltsverzeichnis
-
Frontmatter
-
Chapter 1. Introduction to Data Mining Competitions
Kele XuDieses Kapitel vertieft sich in die reiche Geschichte des Data-Mining-Wettbewerbs und zeichnet dessen Entwicklung von den 1990er Jahren bis heute nach. Es beleuchtet wichtige Meilensteine wie die Einführung des KDD-Cups, den Netflix-Preis und die Gründung von Plattformen wie Kaggle. Die Bedeutung dieser Wettbewerbe sowohl für die Organisatoren als auch für die Teilnehmer wird gründlich untersucht, wobei ihre Rolle bei der Förderung der Technologie, der Gewinnung von Talenten und der Lösung realer Probleme hervorgehoben wird. Das Kapitel bietet auch einen detaillierten Einblick in verschiedene Wettbewerbsplattformen wie Kaggle, CodaLab, Tianchi und DataFountain und beschreibt deren einzigartige Merkmale und Angebote. Er untersucht die Merkmale verschiedener Arten von Wettbewerben, wie strukturierte Daten, Verarbeitung natürlicher Sprache, Computervision und Verstärkungslernen, und diskutiert die häufig verwendeten Werkzeuge und Bibliotheken bei diesen Wettbewerben. Mit einem Schwerpunkt auf praktischen Erkenntnissen und historischen Zusammenhängen bietet dieses Kapitel einen umfassenden Leitfaden für alle, die sich für die Welt des Data Mining-Wettbewerbs interessieren.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis chapter will introduce the development history of data mining competitions, their significance in practice, competition platforms including Kaggle, CodaLab, Tianchi, DataFountain and some other platforms, characteristics of various competitions such as differences in evaluation metrics, data types and problem domains, and commonly used tools for competitions like programming languages Python and R, and libraries such as Scikit-learn, TensorFlow and PyTorch. Through the study of this chapter, readers will gain an in-depth understanding of the basic concepts and core elements of data mining competitions and learn how to effectively participate in competitions. -
Chapter 2. Structured Data: Theoretical Part
Kele XuDieses Kapitel befasst sich mit dem Prozess der strukturierten Datenmodellierung und deckt Schlüsselphasen wie explorative Datenanalyse (EDA), Datenvorverarbeitung, Feature Engineering und Modelloptimierung ab. Es beginnt mit der EDA und betont die Bedeutung von Visualisierungstechniken, um Muster aufzudecken und Hypothesen zu bestätigen. Das Kapitel untersucht dann die Datenvorverarbeitung, einschließlich der Behandlung fehlender Werte, Ausreißer und Speicheroptimierung. Feature Engineering wird detailliert diskutiert, mit Techniken zur Konstruktion von Zeitmerkmalen, univariablen Merkmalen, kombinierten Merkmalen und mehr. Das Kapitel behandelt auch Methoden der Featureselektion, wie redundante Feature-Filter und Overfitting-Feature-Filter. Die Modelloptimierung wird durch Hyperparametertuning mittels Gittersuche, zufälliger Suche und bayesianischer Optimierung angegangen. Zusätzlich werden in diesem Kapitel Ensemblelerntechniken eingeführt, um die Leistung von Modellen zu verbessern. Praxisbeispiele und Code-Schnipsel werden durchweg bereitgestellt, was dies zu einer wertvollen Ressource für Fachleute macht, die ihre Fähigkeiten im Bereich der strukturierten Datenmodellierung verbessern möchten.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis chapter primarily introduces the regular process of structured data competitions, including exploratory data analysis (EDA), data preprocessing (including Missing Values, Outliers and Memory Optimization), feature engineering (including feature construction and feature selection), modeling (including model selection and model hyperparameter optimization), and ensemble learning (including Voting Method, Average Method, Weighted Average Method, Stacking and Blending). -
Chapter 3. Structured Data: Practical Part
Kele XuDieses Kapitel vertieft die praktischen Aspekte strukturierter Datenwettbewerbe, wobei die Herausforderung des Home Credit Default Risk als Paradebeispiel dient. Zu den Schwerpunkten zählen Datenexploration, Feature Engineering, Modellbildung und Ensemblelernen. Durch diesen Wettbewerb zeigt das Kapitel, wie verschiedene Datenquellen wie Telekommunikation und Transaktionsinformationen integriert werden können, um die Fähigkeit zur Rückzahlung von Krediten vorherzusagen. Zu den behandelten Schlüsselthemen gehören der Umgang mit Klassenungleichgewichten durch Downsampling, die Konstruktion aussagekräftiger Geschäftsfunktionen und der Einsatz von Metafunktionen zur Verbesserung der Modellleistung. Das Kapitel unterstreicht auch die Bedeutung der Analyse der Bedeutung von Merkmalen und die Verwendung der bayesianischen Gewichtssuche im Ensemblelernen. Die Endergebnisse zeigen die Effektivität der vorgeschlagenen Methoden, erreichen eine hohe AUC-Punktzahl und zählen zu den besten Wettbewerbern. Indem die Leser den detaillierten Schritten und Strategien folgen, die skizziert werden, gewinnen sie wertvolle Einsichten in die Verbesserung ihrer eigenen strukturierten Datenprojekte.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis chapter uses the Home Credit Default Risk competition as an example to introduce practical solutions for structured data competitions. First, an overview of the competition problem is presented. This is followed by an introduction to data exploration, which is an open-ended process designed to help identify trends, anomalies, patterns, and relationships within the data. These discoveries serve as guidance for subsequent modeling processes, including how to perform data preprocessing, which features to construct, and which appropriate models to select. The data for the competition problem is examined from four aspects: label distribution, missing values, outliers, and correlation. Finally, an interpretation of excellent competition solutions is provided. -
Chapter 4. Natural Language Processing: Theoretical Part
Kele XuDieses Kapitel vertieft sich in die theoretischen Aspekte der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), einem Bereich, der sich der effektiven Kommunikation zwischen Mensch und Computer mittels natürlicher Sprache widmet. Es behandelt verschiedene Theorien und Methoden, die es Computern ermöglichen, menschliche Sprache zu verstehen und zu erzeugen, wodurch die Nutzung des Computers bequemer wird, ohne komplexe Programmierkenntnisse zu erfordern. In diesem Kapitel wird das Teilgerüst der NLP-Technologie diskutiert und ihre vielfältigen Anwendungsmöglichkeiten in den Bereichen Texterzeugung, Klassifizierung, intelligenter Kundenservice und Schlüsselextraktion hervorgehoben. Sie untersucht auch aktuelle NLP-Wettbewerbe, wobei sie sich auf klassische Aufgaben wie Klassifizierung und Regression konzentriert, und bietet Einblicke in beliebte NLP-Modelle wie BERT, RoBERTa und DeBERTa. Darüber hinaus bietet das Kapitel praktische Anleitungen zur Datenvorverarbeitung, -erweiterung und Modellschulung, was es zu einer wertvollen Ressource für Fachleute macht, die ihr Verständnis von NLP und seinen praktischen Anwendungen verbessern wollen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis chapter offers a practical guide to NLP competitions, focusing on PLM-based workflows, data preprocessing, and training strategies for real-world text tasks. It begins by introducing NLP competition fundamentals. NLP enables human-computer communication using natural language and has broad applications, from text generation to traditional tasks. Most NLP competitions still concentrate on classic classification and regression problems, as demonstrated by Kaggle’s 2018–2022 industrial competitions. Key steps for NLP competitions are then outlined. Exploratory data analysis for text uses tools like Matplotlib and WordCloud. Data preprocessing covers spelling correction, text cleaning, and encoding standardization. Data augmentation techniques, including synonym replacement, back-translation, and meta pseudo-labeling, expand labeled data. For modeling, pre-trained language models (PLMs) like BERT are dominant, with Hugging Face’s library crucial. Details of BERT’s architecture and variants such as RoBERTa, DeBERTa, and ALBERT are provided. Model selection tips consider text length, task type, and domain data. Input design for different text tasks uses special tokens, and model heads adapt to output needs. Finally, ensemble learning methods like weighted averaging and stacking boost performance. Training techniques, including dynamic validation and adversarial training, enhance convergence and robustness. Special token usage and in-task masked language modeling are important for complex tasks. Inference optimizations like dynamic padding improve efficiency. -
Chapter 5. Natural Language Processing: Practical Part
Kele XuDieses Kapitel vertieft sich in die EMNLP 2022 Semi-Supervised and Reinforcement Learning Dialogue System Challenge und betont ihre Bedeutung für die Förderung aufgabenorientierter Dialogsysteme. Der Wettbewerb, der gemeinsam von der Tsinghua University und China Mobile ausgerichtet wird, konzentriert sich auf zwei Schlüsselbereiche: Informationsextraktion und Aufbau von Dialogsystemen. Die Aufgabe der Informationsextraktion, die im Mittelpunkt dieses Artikels steht, besteht darin, Einheiten zu extrahieren und Slot-Werte aus Kundendialogen zu füllen. Das Kapitel bietet einen detaillierten Einblick in den Hintergrund des Wettbewerbs, die Dateneinführung, Bewertungskennzahlen und das Designkonzept der Champions-Lösung. Die Champion-Lösung verwendet eine Pipeline, die aus Entitätsextraktion, Entitätskoreferenzauflösung, Schlitzextraktion und Entitätsschlitzausrichtung besteht. Der Text diskutiert auch den Einsatz fortgeschrittener Techniken wie GlobalPointer, Modellensemble und verschiedener Trainingstechniken, um die Leistung des Modells zu verbessern. Die Ergebnisse des Wettbewerbs zeigen die Effektivität dieser Techniken bei der Verbesserung der Genauigkeit der Informationsextraktion aus Dialogdaten. Dieses Kapitel bietet wertvolle Einsichten für Fachleute, die bei der Verarbeitung natürlicher Sprache und der Entwicklung von Dialogsystemen an vorderster Front bleiben möchten.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis chapter will focus on the 2022 EMNLP Semi-supervised and Reinforcement Learning Dialogue System Challenge, co-hosted by Tsinghua University and China Mobile, as an example, to explain a practical case of information extraction competition based on dialogue data. It will introduce the background of the competition, data introduction, evaluation metrics and champion solution. EMNLP is a prestigious international conference in the field of natural language processing, organized by the SIGDAT group of the Association for Computational Linguistics (ACL). The conference is held annually and is ranked second globally for its significant influence in the field of computational linguistics. -
Chapter 6. Computer Vision (Image): Theoretical Part
Kele XuDieses Kapitel vertieft die theoretischen Aspekte der Computervisualisierung und konzentriert sich auf statische Bildaufgaben wie Klassifizierung, semantische Segmentierung, Objekterkennung und Instanzsegmentierung. Es skizziert den allgemeinen Prozess von Bildaufgaben, die auf tiefem Lernen beruhen, einschließlich Datenvorverarbeitungstechniken wie Größenänderung, Normalisierung und Segmentierung sowie Methoden zur Datenvergrößerung wie Spiegeln, Drehen und Zuschneiden. Das Kapitel behandelt auch Vorschulungen auf großen Datensätzen wie ImageNet, um die Leistung des Modells zu verbessern. Er stellt verschiedene Modelle vor, darunter ResNet, VGG, DenseNet, Vision Transformer und Swin Transformer, und erklärt die in tiefen Modellen übliche Backbone-Hals-Kopf-Struktur. Darüber hinaus werden verschiedene Verlustfunktionen wie Kreuzentropie, Fokalverlust, L1-Verlust, IOU-Verlust, Würfelverlust und BCE-Verlust behandelt und Ensemblelerntechniken erforscht, um die Modellgenauigkeit zu verbessern. Das Kapitel schließt mit praktischen Techniken wie der Vergrößerung von Testzeitdaten, stochastischer Gewichtsmittelung, Wissensdestillation und Pseudo-Etiketten, die einen umfassenden Leitfaden zur Verbesserung von Computervisionsmodellen darstellen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis chapter mainly focuses on static image tasks. The input form of such tasks is three-dimensional image data (image height, image width, number of channels). Firstly it introduces each part of this process, then introduces some general techniques, and finally expands on different tasks, introducing commonly used models, loss functions, and various techniques. -
Chapter 7. Computer Vision (Image): Practical Part
Kele XuDieses Kapitel konzentriert sich auf die Lösung von Instanzsegmentierungsaufgaben mittels Computervision, mit besonderem Schwerpunkt auf die Kaggle-Konkurrenz Sartorius-Cell Instance Segmentation. Der Text umfasst die Erforschung von Daten, einschließlich statistischer Analysen und Datenvisualisierung, um den Datensatz besser zu verstehen. Anschließend wird die Implementierung einer Lösung auf Grundlage des Ansatzes des Champions vertieft, wobei YOLOX für die Erkennung und UperNet für die Segmentierung verwendet werden. Das Kapitel untersucht auch Strategien zum Erlernen von Ensembles, um die Endergebnisse zu verbessern. Darüber hinaus werden alternative Lösungen der Zweit- und Drittplatzierten präsentiert, die einen umfassenden Überblick über die verschiedenen Ansätze zu diesem Problem bieten. Das Kapitel schließt mit einer Diskussion über die Effektivität dieser Methoden und ihre mögliche Anwendung in realen Szenarien.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis chapter uses the Kaggle competition Sartorius-Cell Instance Segmentation as an example to explain how to solve instance segmentation tasks. Firstly it introduces Competition Introduction, then introduces Data Exploration, Interpretation of Excellent Solutions, and finally introduces More Solutions. -
Chapter 8. Computer Vision (Video): Theoretical Part
Kele XuDieses Kapitel vertieft sich in die Feinheiten von Videodaten und hebt deren dynamischen Charakter sowie die Bedeutung von Bewegung und zeitlichen Korrelationen hervor. Es stellt Videodaten statischen Bilddaten gegenüber und betont die Notwendigkeit, sowohl Aussehen als auch Bewegungsinformationen zu berücksichtigen. Der Text untersucht verschiedene Modelle, die zum Verständnis von Videos verwendet werden, darunter CNN + RNN, Two-Stream Networks, 3D Convolutional Networks und 3D Transformers. Die Vor- und Nachteile jedes Modells werden ebenso diskutiert wie praktische Beispiele und Code-Snippets. Das Kapitel behandelt auch verschiedene Aufgaben des Videoverständnisses, wie Aktionserkennung, zeitliche Aktionslokalisierung, räumlich-zeitliche Aktionserkennung und Videoobjekterkennung. Es bietet einen umfassenden Überblick über öffentliche Videodatensätze und ihre grundlegenden Informationen und hilft Profis, geeignete Datensätze für ihre Aufgaben auszuwählen. Die Schlussfolgerung unterstreicht die breite Anwendung des Videoverständnisses sowohl in der akademischen Forschung als auch in der Industrie.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis chapter mainly introduces Differences Between Video Data and Image Data, Common Models (such as CNN + RNN, Two-Stream Network, 3D Convolutional Network, 3D Transformer), Pre-training Datasets (such as some public video datasets, such as HMDB51, UCF101, ActivityNet1.3, Charades, Kinetics400 and so on) and Task Introduction. -
Chapter 9. Computer Vision (Video): Practical Part
Kele XuDieses Kapitel vertieft die praktischen Aspekte von Videoverständniswettbewerben, wobei die ACM Multimedia 2022 Challenge als Fallstudie dient. Es behandelt den Hintergrund des Wettbewerbs, die Einführung von Daten, Bewertungsmetriken und die Architektur der Champions-Lösung. Das Kapitel bietet eine detaillierte Vorgehensweise in den Bereichen Datenvorverarbeitung, Augmentation, Vorschulung, Modellschulung und Integration. Es unterstreicht die Verwendung verschiedener Backbones wie TSN, TimeSformer, BEiT, Swin Transformer und Video Swin Transformer, wobei der Schwerpunkt auf der Leistung der Champions-Lösung liegt. Das Kapitel behandelt auch die Implementierung des NCE-Verlustes und die Vorteile des Ensemblelernens. Am Ende erhalten die Leser ein umfassendes Verständnis der Techniken und Strategien, die bei Videoverständniswettbewerben eingesetzt werden, sowie praktische Einblicke in die Ausbildung und Integration von Modellen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis chapter uses the competition “PRE-TRAINING FOR VIDEO UNDERSTANDING CHALLENGE” held by ACM Multimedia 2022 (see Fig. 9.1, image source: competition homepage) as an example to explain practical cases of video understanding competitions. Firstly it introduces the Background of the Competition, then it introduces the Data Introduction and Evaluation Metrics, Finally it introduces the Champion Solution of the competition “PRE-TRAINING FOR VIDEO UNDERSTANDING CHALLENGE”. -
Chapter 10. Reinforcement Learning: Theoretical Part
Kele XuDieses Kapitel untersucht die theoretischen Grundlagen des Verstärkungslernens, eines Paradigmas, das menschliches Lernen durch kontinuierliches Ausprobieren und Irrtum eng imitiert. Es untersucht die Interaktion zwischen einem Agenten und seiner Umgebung, in der der Agent darauf abzielt, den kumulativen Nutzen zu maximieren. Der Text behandelt Schlüsselaspekte wie die Gestaltung von Beobachtungseingaben, Belohnungsdesign und Aktionsdesign und bietet einen umfassenden Überblick darüber, wie diese Komponenten strukturiert und optimiert werden können, um effektives Lernen zu ermöglichen. Darüber hinaus werden verschiedene Verstärkungslernalgorithmen diskutiert, darunter wertorientierte und politikbasierte Methoden, und die Bedeutung von Hyperparametertuning und Schulungstechniken zur Steigerung der Effizienz und Stabilität des Lernprozesses hervorgehoben. Das Kapitel berührt auch die Bewertung der Leistung von Algorithmen und betont die Notwendigkeit von Messgrößen, die über einfache Belohnungswerte hinausgehen, um die wahren Fähigkeiten eines Agenten zu beurteilen. Am Ende des Kapitels werden die Leser ein tieferes Verständnis des Verstärkerlernens und seiner praktischen Anwendungen in Bereichen wie Game AI, autonomes Fahren und industrielle Optimierung gewinnen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractReinforcement learning plays an important role in fields such as game AI, nuclear fusion control, chip design, industrial scheduling, recommendation systems, quantitative trading, matrix multiplication acceleration, and robot control. Since the process of reinforcement learning does not require pre-collected labeled data and can train agents that exceed human performance through continuous interaction with the environment, reinforcement learning is also considered the learning paradigm closest to artificial general intelligence (AGI). The design of reinforcement learning algorithms requires mastering the theoretical knowledge of reinforcement learning and combining it with extensive practical experience to formulate efficient solutions for different decision-making tasks. Next, we will introduce the design ideas for solving reinforcement learning tasks from three aspects: agent design, model design, and algorithm design. -
Chapter 11. Reinforcement Learning: Practical Part
Kele XuDieses Kapitel vertieft sich in die praktische Anwendung des Verstärkungslernens anhand der von Google entwickelten Wettbewerbsumgebung für Fußballspiele. Es stellt den TiZero-Agent vor, einen speziell für diese Aufgabe konzipierten Verstärkungslernagenten. Das Kapitel behandelt die Gestaltung von Beobachtungsinputs, Netzwerkstrukturen, Belohnungsmechanismen und Handlungsstrategien und bietet einen umfassenden Leitfaden für den Aufbau und die Ausbildung eines erfolgreichen Verstärkungslernagenten. Darüber hinaus werden die Bewertungsmetriken und Leistungsindikatoren untersucht, die verwendet werden, um den Erfolg des Mittels zu bewerten, und wertvolle Einblicke in das Verhalten und die Fähigkeiten des Mittels gegeben. Das Kapitel schließt mit einem Vergleich verschiedener Wirkstoffe und ihrer Leistung, wobei die Vorteile des TiZero-Wirkstoffs hervorgehoben werden. Die Leser werden ein tiefgreifendes Verständnis davon gewinnen, wie man Verstärkungsunterricht in komplexen, realen Szenarien anwendet, und von den praktischen Erfahrungen lernen, die in dieser Fallstudie geteilt werden.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis chapter, along with the competitive football game (The Google Football Game) on the platform as a case study, introduces the specific application of reinforcement learning in practice. Firstly it introduces the Competition Task, then introduces Environment Introduction, Evaluation Metrics, and finally introduces the Champion Solution (the reinforcement learning agent TiZero designed for the Google Football Game. Through the design of the TiZero agent, readers can understand how to solve a reinforcement learning task from scratch).
- Titel
- Data Mining Competition Practices
- Verfasst von
-
Kele Xu
- Copyright-Jahr
- 2026
- Verlag
- Springer Nature Singapore
- Electronic ISBN
- 978-981-9534-46-3
- Print ISBN
- 978-981-9534-45-6
- DOI
- https://doi.org/10.1007/978-981-95-3446-3
Die PDF-Dateien dieses Buches wurden gemäß dem PDF/UA-1-Standard erstellt, um die Barrierefreiheit zu verbessern. Dazu gehören Bildschirmlesegeräte, beschriebene nicht-textuelle Inhalte (Bilder, Grafiken), Lesezeichen für eine einfache Navigation, tastaturfreundliche Links und Formulare sowie durchsuchbarer und auswählbarer Text. Wir sind uns der Bedeutung von Barrierefreiheit bewusst und freuen uns über Anfragen zur Barrierefreiheit unserer Produkte. Bei Fragen oder Bedarf an Barrierefreiheit kontaktieren Sie uns bitte unter accessibilitysupport@springernature.com.