Zum Inhalt

Data Mining Competition Practices

Methods and Cases

  • 2026
  • Buch

Über dieses Buch

Dieses Buch zielt darauf ab, den Lesern einen klaren Implementierungsprozess für Data-Mining-Wettbewerbslösungen zu bieten und erklärt die wichtigsten Details. Neben dem notwendigen theoretischen Wissen bietet es auch Plug-and-Play-Code. Durch die Lektüre dieses Buches lernen die Leser, wie man eine Lösung für einen Data-Mining-Wettbewerb konzipiert, die verschiedenen Details und spezifischen Umsetzungsmethoden der Lösung versteht und wie man sie kontinuierlich weiterentwickelt und optimiert. Das Buch enthält auch praktische Fallstudien, die den Lesern helfen, diese Konzepte zu verstehen und zu stärken. Data-Mining-Wettbewerbe bieten Datensätze, die realitätsnahen Szenarien sehr ähnlich sind, was dieses Buch zu einer hervorragenden Wahl für diejenigen macht, die Data-Mining-Techniken durch praktische Übungen erlernen möchten. Gleichzeitig kann dieses Buch auch als Nachschlagewerk dienen und verschiedene Methoden und Techniken für den gesamten Prozess von der Dateneingabe bis hin zur Erzielung endgültiger Ergebnisse in verschiedenen Szenarien bereitstellen, einschließlich strukturierter Daten, Verarbeitung natürlicher Sprache, Computervision, Videoverständnis und Verstärkungslernen. Diese praktischen Methoden und Techniken können den Lesern helfen, ihre Leistung auf Datensätzen deutlich zu verbessern und sind nicht nur bei Data-Mining-Wettbewerben, sondern auch in der Forschung und in realen Geschäftsanwendungen anwendbar. Die Übersetzung erfolgte mithilfe künstlicher Intelligenz. Eine anschließende menschliche Überarbeitung erfolgte in erster Linie inhaltlich.

Inhaltsverzeichnis

  1. Frontmatter

  2. Chapter 1. Introduction to Data Mining Competitions

    Kele Xu
    Dieses Kapitel vertieft sich in die reiche Geschichte des Data-Mining-Wettbewerbs und zeichnet dessen Entwicklung von den 1990er Jahren bis heute nach. Es beleuchtet wichtige Meilensteine wie die Einführung des KDD-Cups, den Netflix-Preis und die Gründung von Plattformen wie Kaggle. Die Bedeutung dieser Wettbewerbe sowohl für die Organisatoren als auch für die Teilnehmer wird gründlich untersucht, wobei ihre Rolle bei der Förderung der Technologie, der Gewinnung von Talenten und der Lösung realer Probleme hervorgehoben wird. Das Kapitel bietet auch einen detaillierten Einblick in verschiedene Wettbewerbsplattformen wie Kaggle, CodaLab, Tianchi und DataFountain und beschreibt deren einzigartige Merkmale und Angebote. Er untersucht die Merkmale verschiedener Arten von Wettbewerben, wie strukturierte Daten, Verarbeitung natürlicher Sprache, Computervision und Verstärkungslernen, und diskutiert die häufig verwendeten Werkzeuge und Bibliotheken bei diesen Wettbewerben. Mit einem Schwerpunkt auf praktischen Erkenntnissen und historischen Zusammenhängen bietet dieses Kapitel einen umfassenden Leitfaden für alle, die sich für die Welt des Data Mining-Wettbewerbs interessieren.
  3. Chapter 2. Structured Data: Theoretical Part

    Kele Xu
    Dieses Kapitel befasst sich mit dem Prozess der strukturierten Datenmodellierung und deckt Schlüsselphasen wie explorative Datenanalyse (EDA), Datenvorverarbeitung, Feature Engineering und Modelloptimierung ab. Es beginnt mit der EDA und betont die Bedeutung von Visualisierungstechniken, um Muster aufzudecken und Hypothesen zu bestätigen. Das Kapitel untersucht dann die Datenvorverarbeitung, einschließlich der Behandlung fehlender Werte, Ausreißer und Speicheroptimierung. Feature Engineering wird detailliert diskutiert, mit Techniken zur Konstruktion von Zeitmerkmalen, univariablen Merkmalen, kombinierten Merkmalen und mehr. Das Kapitel behandelt auch Methoden der Featureselektion, wie redundante Feature-Filter und Overfitting-Feature-Filter. Die Modelloptimierung wird durch Hyperparametertuning mittels Gittersuche, zufälliger Suche und bayesianischer Optimierung angegangen. Zusätzlich werden in diesem Kapitel Ensemblelerntechniken eingeführt, um die Leistung von Modellen zu verbessern. Praxisbeispiele und Code-Schnipsel werden durchweg bereitgestellt, was dies zu einer wertvollen Ressource für Fachleute macht, die ihre Fähigkeiten im Bereich der strukturierten Datenmodellierung verbessern möchten.
  4. Chapter 3. Structured Data: Practical Part

    Kele Xu
    Dieses Kapitel vertieft die praktischen Aspekte strukturierter Datenwettbewerbe, wobei die Herausforderung des Home Credit Default Risk als Paradebeispiel dient. Zu den Schwerpunkten zählen Datenexploration, Feature Engineering, Modellbildung und Ensemblelernen. Durch diesen Wettbewerb zeigt das Kapitel, wie verschiedene Datenquellen wie Telekommunikation und Transaktionsinformationen integriert werden können, um die Fähigkeit zur Rückzahlung von Krediten vorherzusagen. Zu den behandelten Schlüsselthemen gehören der Umgang mit Klassenungleichgewichten durch Downsampling, die Konstruktion aussagekräftiger Geschäftsfunktionen und der Einsatz von Metafunktionen zur Verbesserung der Modellleistung. Das Kapitel unterstreicht auch die Bedeutung der Analyse der Bedeutung von Merkmalen und die Verwendung der bayesianischen Gewichtssuche im Ensemblelernen. Die Endergebnisse zeigen die Effektivität der vorgeschlagenen Methoden, erreichen eine hohe AUC-Punktzahl und zählen zu den besten Wettbewerbern. Indem die Leser den detaillierten Schritten und Strategien folgen, die skizziert werden, gewinnen sie wertvolle Einsichten in die Verbesserung ihrer eigenen strukturierten Datenprojekte.
  5. Chapter 4. Natural Language Processing: Theoretical Part

    Kele Xu
    Dieses Kapitel vertieft sich in die theoretischen Aspekte der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), einem Bereich, der sich der effektiven Kommunikation zwischen Mensch und Computer mittels natürlicher Sprache widmet. Es behandelt verschiedene Theorien und Methoden, die es Computern ermöglichen, menschliche Sprache zu verstehen und zu erzeugen, wodurch die Nutzung des Computers bequemer wird, ohne komplexe Programmierkenntnisse zu erfordern. In diesem Kapitel wird das Teilgerüst der NLP-Technologie diskutiert und ihre vielfältigen Anwendungsmöglichkeiten in den Bereichen Texterzeugung, Klassifizierung, intelligenter Kundenservice und Schlüsselextraktion hervorgehoben. Sie untersucht auch aktuelle NLP-Wettbewerbe, wobei sie sich auf klassische Aufgaben wie Klassifizierung und Regression konzentriert, und bietet Einblicke in beliebte NLP-Modelle wie BERT, RoBERTa und DeBERTa. Darüber hinaus bietet das Kapitel praktische Anleitungen zur Datenvorverarbeitung, -erweiterung und Modellschulung, was es zu einer wertvollen Ressource für Fachleute macht, die ihr Verständnis von NLP und seinen praktischen Anwendungen verbessern wollen.
  6. Chapter 5. Natural Language Processing: Practical Part

    Kele Xu
    Dieses Kapitel vertieft sich in die EMNLP 2022 Semi-Supervised and Reinforcement Learning Dialogue System Challenge und betont ihre Bedeutung für die Förderung aufgabenorientierter Dialogsysteme. Der Wettbewerb, der gemeinsam von der Tsinghua University und China Mobile ausgerichtet wird, konzentriert sich auf zwei Schlüsselbereiche: Informationsextraktion und Aufbau von Dialogsystemen. Die Aufgabe der Informationsextraktion, die im Mittelpunkt dieses Artikels steht, besteht darin, Einheiten zu extrahieren und Slot-Werte aus Kundendialogen zu füllen. Das Kapitel bietet einen detaillierten Einblick in den Hintergrund des Wettbewerbs, die Dateneinführung, Bewertungskennzahlen und das Designkonzept der Champions-Lösung. Die Champion-Lösung verwendet eine Pipeline, die aus Entitätsextraktion, Entitätskoreferenzauflösung, Schlitzextraktion und Entitätsschlitzausrichtung besteht. Der Text diskutiert auch den Einsatz fortgeschrittener Techniken wie GlobalPointer, Modellensemble und verschiedener Trainingstechniken, um die Leistung des Modells zu verbessern. Die Ergebnisse des Wettbewerbs zeigen die Effektivität dieser Techniken bei der Verbesserung der Genauigkeit der Informationsextraktion aus Dialogdaten. Dieses Kapitel bietet wertvolle Einsichten für Fachleute, die bei der Verarbeitung natürlicher Sprache und der Entwicklung von Dialogsystemen an vorderster Front bleiben möchten.
  7. Chapter 6. Computer Vision (Image): Theoretical Part

    Kele Xu
    Dieses Kapitel vertieft die theoretischen Aspekte der Computervisualisierung und konzentriert sich auf statische Bildaufgaben wie Klassifizierung, semantische Segmentierung, Objekterkennung und Instanzsegmentierung. Es skizziert den allgemeinen Prozess von Bildaufgaben, die auf tiefem Lernen beruhen, einschließlich Datenvorverarbeitungstechniken wie Größenänderung, Normalisierung und Segmentierung sowie Methoden zur Datenvergrößerung wie Spiegeln, Drehen und Zuschneiden. Das Kapitel behandelt auch Vorschulungen auf großen Datensätzen wie ImageNet, um die Leistung des Modells zu verbessern. Er stellt verschiedene Modelle vor, darunter ResNet, VGG, DenseNet, Vision Transformer und Swin Transformer, und erklärt die in tiefen Modellen übliche Backbone-Hals-Kopf-Struktur. Darüber hinaus werden verschiedene Verlustfunktionen wie Kreuzentropie, Fokalverlust, L1-Verlust, IOU-Verlust, Würfelverlust und BCE-Verlust behandelt und Ensemblelerntechniken erforscht, um die Modellgenauigkeit zu verbessern. Das Kapitel schließt mit praktischen Techniken wie der Vergrößerung von Testzeitdaten, stochastischer Gewichtsmittelung, Wissensdestillation und Pseudo-Etiketten, die einen umfassenden Leitfaden zur Verbesserung von Computervisionsmodellen darstellen.
  8. Chapter 7. Computer Vision (Image): Practical Part

    Kele Xu
    Dieses Kapitel konzentriert sich auf die Lösung von Instanzsegmentierungsaufgaben mittels Computervision, mit besonderem Schwerpunkt auf die Kaggle-Konkurrenz Sartorius-Cell Instance Segmentation. Der Text umfasst die Erforschung von Daten, einschließlich statistischer Analysen und Datenvisualisierung, um den Datensatz besser zu verstehen. Anschließend wird die Implementierung einer Lösung auf Grundlage des Ansatzes des Champions vertieft, wobei YOLOX für die Erkennung und UperNet für die Segmentierung verwendet werden. Das Kapitel untersucht auch Strategien zum Erlernen von Ensembles, um die Endergebnisse zu verbessern. Darüber hinaus werden alternative Lösungen der Zweit- und Drittplatzierten präsentiert, die einen umfassenden Überblick über die verschiedenen Ansätze zu diesem Problem bieten. Das Kapitel schließt mit einer Diskussion über die Effektivität dieser Methoden und ihre mögliche Anwendung in realen Szenarien.
  9. Chapter 8. Computer Vision (Video): Theoretical Part

    Kele Xu
    Dieses Kapitel vertieft sich in die Feinheiten von Videodaten und hebt deren dynamischen Charakter sowie die Bedeutung von Bewegung und zeitlichen Korrelationen hervor. Es stellt Videodaten statischen Bilddaten gegenüber und betont die Notwendigkeit, sowohl Aussehen als auch Bewegungsinformationen zu berücksichtigen. Der Text untersucht verschiedene Modelle, die zum Verständnis von Videos verwendet werden, darunter CNN + RNN, Two-Stream Networks, 3D Convolutional Networks und 3D Transformers. Die Vor- und Nachteile jedes Modells werden ebenso diskutiert wie praktische Beispiele und Code-Snippets. Das Kapitel behandelt auch verschiedene Aufgaben des Videoverständnisses, wie Aktionserkennung, zeitliche Aktionslokalisierung, räumlich-zeitliche Aktionserkennung und Videoobjekterkennung. Es bietet einen umfassenden Überblick über öffentliche Videodatensätze und ihre grundlegenden Informationen und hilft Profis, geeignete Datensätze für ihre Aufgaben auszuwählen. Die Schlussfolgerung unterstreicht die breite Anwendung des Videoverständnisses sowohl in der akademischen Forschung als auch in der Industrie.
  10. Chapter 9. Computer Vision (Video): Practical Part

    Kele Xu
    Dieses Kapitel vertieft die praktischen Aspekte von Videoverständniswettbewerben, wobei die ACM Multimedia 2022 Challenge als Fallstudie dient. Es behandelt den Hintergrund des Wettbewerbs, die Einführung von Daten, Bewertungsmetriken und die Architektur der Champions-Lösung. Das Kapitel bietet eine detaillierte Vorgehensweise in den Bereichen Datenvorverarbeitung, Augmentation, Vorschulung, Modellschulung und Integration. Es unterstreicht die Verwendung verschiedener Backbones wie TSN, TimeSformer, BEiT, Swin Transformer und Video Swin Transformer, wobei der Schwerpunkt auf der Leistung der Champions-Lösung liegt. Das Kapitel behandelt auch die Implementierung des NCE-Verlustes und die Vorteile des Ensemblelernens. Am Ende erhalten die Leser ein umfassendes Verständnis der Techniken und Strategien, die bei Videoverständniswettbewerben eingesetzt werden, sowie praktische Einblicke in die Ausbildung und Integration von Modellen.
  11. Chapter 10. Reinforcement Learning: Theoretical Part

    Kele Xu
    Dieses Kapitel untersucht die theoretischen Grundlagen des Verstärkungslernens, eines Paradigmas, das menschliches Lernen durch kontinuierliches Ausprobieren und Irrtum eng imitiert. Es untersucht die Interaktion zwischen einem Agenten und seiner Umgebung, in der der Agent darauf abzielt, den kumulativen Nutzen zu maximieren. Der Text behandelt Schlüsselaspekte wie die Gestaltung von Beobachtungseingaben, Belohnungsdesign und Aktionsdesign und bietet einen umfassenden Überblick darüber, wie diese Komponenten strukturiert und optimiert werden können, um effektives Lernen zu ermöglichen. Darüber hinaus werden verschiedene Verstärkungslernalgorithmen diskutiert, darunter wertorientierte und politikbasierte Methoden, und die Bedeutung von Hyperparametertuning und Schulungstechniken zur Steigerung der Effizienz und Stabilität des Lernprozesses hervorgehoben. Das Kapitel berührt auch die Bewertung der Leistung von Algorithmen und betont die Notwendigkeit von Messgrößen, die über einfache Belohnungswerte hinausgehen, um die wahren Fähigkeiten eines Agenten zu beurteilen. Am Ende des Kapitels werden die Leser ein tieferes Verständnis des Verstärkerlernens und seiner praktischen Anwendungen in Bereichen wie Game AI, autonomes Fahren und industrielle Optimierung gewinnen.
  12. Chapter 11. Reinforcement Learning: Practical Part

    Kele Xu
    Dieses Kapitel vertieft sich in die praktische Anwendung des Verstärkungslernens anhand der von Google entwickelten Wettbewerbsumgebung für Fußballspiele. Es stellt den TiZero-Agent vor, einen speziell für diese Aufgabe konzipierten Verstärkungslernagenten. Das Kapitel behandelt die Gestaltung von Beobachtungsinputs, Netzwerkstrukturen, Belohnungsmechanismen und Handlungsstrategien und bietet einen umfassenden Leitfaden für den Aufbau und die Ausbildung eines erfolgreichen Verstärkungslernagenten. Darüber hinaus werden die Bewertungsmetriken und Leistungsindikatoren untersucht, die verwendet werden, um den Erfolg des Mittels zu bewerten, und wertvolle Einblicke in das Verhalten und die Fähigkeiten des Mittels gegeben. Das Kapitel schließt mit einem Vergleich verschiedener Wirkstoffe und ihrer Leistung, wobei die Vorteile des TiZero-Wirkstoffs hervorgehoben werden. Die Leser werden ein tiefgreifendes Verständnis davon gewinnen, wie man Verstärkungsunterricht in komplexen, realen Szenarien anwendet, und von den praktischen Erfahrungen lernen, die in dieser Fallstudie geteilt werden.
Titel
Data Mining Competition Practices
Verfasst von
Kele Xu
Copyright-Jahr
2026
Verlag
Springer Nature Singapore
Electronic ISBN
978-981-9534-46-3
Print ISBN
978-981-9534-45-6
DOI
https://doi.org/10.1007/978-981-95-3446-3

Die PDF-Dateien dieses Buches wurden gemäß dem PDF/UA-1-Standard erstellt, um die Barrierefreiheit zu verbessern. Dazu gehören Bildschirmlesegeräte, beschriebene nicht-textuelle Inhalte (Bilder, Grafiken), Lesezeichen für eine einfache Navigation, tastaturfreundliche Links und Formulare sowie durchsuchbarer und auswählbarer Text. Wir sind uns der Bedeutung von Barrierefreiheit bewusst und freuen uns über Anfragen zur Barrierefreiheit unserer Produkte. Bei Fragen oder Bedarf an Barrierefreiheit kontaktieren Sie uns bitte unter accessibilitysupport@springernature.com.

    Bildnachweise
    AvePoint Deutschland GmbH/© AvePoint Deutschland GmbH, ams.solutions GmbH/© ams.solutions GmbH, Wildix/© Wildix, arvato Systems GmbH/© arvato Systems GmbH, Ninox Software GmbH/© Ninox Software GmbH, Nagarro GmbH/© Nagarro GmbH, GWS mbH/© GWS mbH, CELONIS Labs GmbH, USU GmbH/© USU GmbH, G Data CyberDefense/© G Data CyberDefense, Vendosoft/© Vendosoft, Kumavision/© Kumavision, Noriis Network AG/© Noriis Network AG, tts GmbH/© tts GmbH, Asseco Solutions AG/© Asseco Solutions AG, AFB Gemeinnützige GmbH/© AFB Gemeinnützige GmbH, Ferrari electronic AG/© Ferrari electronic AG, Doxee AT GmbH/© Doxee AT GmbH , Haufe Group SE/© Haufe Group SE, NTT Data/© NTT Data, Bild 1 Verspätete Verkaufsaufträge (Sage-Advertorial 3/2026)/© Sage, IT-Director und IT-Mittelstand: Ihre Webinar-Matineen in 2025 und 2026/© amgun | Getty Images