Skip to main content

2022 | Buch

Data Science

Best Practices mit Python

insite
SUCHEN

Über dieses Buch

Dieses Buch entstand aus der Motivation heraus, eines der ersten deutschsprachigen Nachschlagewerke zu entwickeln, in welchem relativ simple Quellcode-Beispiele enthalten sind, um so Lösungsansätze für die (wiederkehrenden) Programmierprobleme in der Datenanalyse weiterzugeben. Dabei ist dieses Werk nicht uneigennützig verfasst worden. Es enthält Lösungswege für immer wiederkehrende Problemstellungen die ich über meinen täglichen Umgang entwickelt habe Zweifellos gehört das Nachschlagen von Lösungsansätzen in Büchern oder im Internet zur normalen Arbeit eines Programmierers. Allerdings ist diese Suche in der Regel ein unstrukturierter und damit, zumindest teilweise, ein zeitaufwendiger Prozess.

Unabhängig davon, ob Sie das Buch als Student, Mitarbeiter oder Gründer lesen, hoffe ich, dass Ihnen dieses Nachschlagewerk ein wertvoller Helfer für die ersten Anfänge sein wird. Ich gehe davon aus, dass jede Person die Grundlagen der Datenanalyse mit Hilfe moderner Programmiersprachen erlernen kann.

Inhaltsverzeichnis

Frontmatter

Grundlagen der Programmierung

Frontmatter
Kapitel 1. Einleitung
Zusammenfassung
Dieses Kapitel gibt einen Überblick über den Inhalt, den Aufbau und die Zielsetzung des Buchs. Mit dem wachsenden Angebot an Datenquellen wächst das Interesse, diese entsprechend zu monetarisieren. Dies gilt nicht nur für digitale Geschäftsprozesse, sondern auch für die Forschung und Entwicklung. Damit sind das Verständnis und die Fähigkeit zur Datenanalyse gewinnbringende Vermögenswerte, um die gemeinschaftliche Wohlfahrt des Staats voranzubringen. Im ersten Teil des Kapitels wird der Gegenstand dieses Buchs beschrieben. Daran knüpft der Aufbau des Buchs an und es wird eine Erklärung geboten, weshalb sich Python besonders für Einsteiger eignet.
Benjamin M. Abdel-Karim
Kapitel 2. Python: Installation und Einstieg
Zusammenfassung
Dieses Kapitel bildet den Grundstein für die Verwendung von Python, um im späteren Verlauf des Buchs mit der Datenanalyse zu beginnen. Zuerst wird Python als Programmiersprache vorgestellt. Anschließend wird die Installation in einzelnen Schritten beschrieben. Darauf aufbauend wird eine passende Entwicklungsumgebung vorgestellt und das Bedienkonzept dargestellt, um die ersten Programme schreiben zu können.
Benjamin M. Abdel-Karim
Kapitel 3. Primitive Datentypen
Zusammenfassung
Primitive Datentypen sind in der Informatik elementare Bausteine, um Daten effizient zu speichern und zu verarbeiten. Im Wesentlichen lassen sich die folgenden Grundformen unterscheiden: Zahlendatentypen, Zeichendatentypen und Wahrheitswerte. In diesem Kapitel wird das nötige Grundlagenwissen der Programmierung vermittelt, das für die Anwendung von Python erforderlich ist. Der Fokus dieses Kapitels liegt auf den Variablen und den dazugehörigen primitiven Datentypen. Hierbei werden die relevanten und die Python-spezifischen Datentypen betrachtet. Ziel dieses Kapitels ist es demnach, ein Grundverständnis der Programmierung zu vermitteln und dabei Variablen und Datentypen kurz zu erläutern.
Benjamin M. Abdel-Karim
Kapitel 4. Datenstruktur
Zusammenfassung
Ausgehend von primitiven Datentypen in Kap. 3, gibt dieses Kapitel einen Überblick über die Datenstrukturen. Die Datenstrukturen dienen in der Regel dazu, die primitiven Datentypen in Strukturen zu organisieren. Dieses Kapitel stellt dabei die wesentlichen Datenstrukturen der Programmiersprache Python vor. Den Anfang machen die Listen. Daran schließen die sogenannten Dictionaries an. Abschließend geht dieses Kapitel auf die Mengen ein.
Benjamin M. Abdel-Karim
Kapitel 5. Kontrollstrukturen
Zusammenfassung
Dieses Buch hat bisher die zentralen Grundlagen für die ersten Programmiererfahrungen mit primitiven Datentypen und Datenstrukturen gelegt. Der nächste logische Schritt besteht in der Einführung in die Kontrollstrukturen. Für das Schreiben geeigneter Skripte spielen Kontrollstrukturen eine entscheidende Rolle, um Quellcodes zu implementieren, die imstande sind, auf unterschiedliche Ereignisse zu reagieren und Fehlerfälle zu verhindern.
Benjamin M. Abdel-Karim
Kapitel 6. Funktionen
Zusammenfassung
Python-Funktionen realisieren die Möglichkeit, Codesegmente, die häufiger benötigt werden, zu modularisieren und über den gesamten Code hinweg zugänglich zu machen. Diese modularen Codesegmente können dabei als Eingaben verwendet werden, um gegebenenfalls anschließend eine Rückgabe zu liefern, die durch das modularisierte Codesegment generiert worden ist. In diesem Kapitel sollen zwei grundlegende Arten von Funktionen vorgestellt werden. Zum einen die sogenannten Built-in-Funktionen, also Funktionen, die Python bereits für den Nutzer bereitstellt, und Funktionen, die von dem Nutzer definiert werden. Zum anderen wird das Konzept der Bibliothek als Funktionssammlung in Python vorgestellt.
Benjamin M. Abdel-Karim

Data Science

Frontmatter
Kapitel 7. Data Science
Zusammenfassung
In diesem Kapitel wird auf den Begriff Data Science und die dahinterstehenden Forschungsdisziplinen eingegangen. Hierbei werden zentrale Aspekte beleuchtet und eine Abgrenzung zu anderen Bereichen getroffen. Vor diesem Hintergrund wird der Data-Science-Prozess vorgestellt, um ein systematisches Vorgehen für die eigenen Projekte darzustellen. Damit dieses Buch seinem übergeordneten Ziel, ein kleines und nützliches Handbuch zu sein, um alltägliche Aufgaben der Datenanalyse zu meistern, gerecht werden kann, wird zum Abschluss dieses Kapitels auf die konzeptionelle Gestaltung dieses Teils eingegangen.
Benjamin M. Abdel-Karim
Kapitel 8. Data Science und Maschinelles Lernen
Zusammenfassung
Ausgehend von den Grundlagen von Data Science im Kap. 7 fokussiert sich dieses Kapitel auf einen Teil des Data-Science-Prozesses (Abschn. 7.​2). Das maschinelle Lernen wird Hand in Hand mit Data Science erwähnt, weil es eine zentrale Komponente des Data-Science-Prozesses ist. Vor diesem Hintergrund bildet dieses Kapitel eine Kurzeinführung in das Themenfeld des maschinellen Lernens.
Benjamin M. Abdel-Karim

Produktanalyse

Frontmatter
Kapitel 9. Anwendungsbeispiel: Meine besten Videospiele
Zusammenfassung
Der Erfolg des Verkaufs von Videospielen zeigt, dass Videospiele keine Randprodukte mehr sind. Durch den Einzug moderner Spieletechnologien, wie beispielsweise Googles neuer Cloud-Gaming-Plattform „Google Stadia“, Apples „Apple Arcade“ oder „Steam“ werden Videospiele für die unterschiedlichen Zielgruppen interessant. Dieser Umstand wird durch den Erfolg der Aktienkurse der größten, an der Börse notierten Spieleproduzenten, wie beispielsweise Activision Blizzard, Nintendo oder Ubisoft belegt. Zudem profitieren Firmen wie Nvidia und AMD durch die Produktion von entsprechender Hardware ebenfalls von dem Trend.
Benjamin M. Abdel-Karim
Kapitel 10. Anwendungsbeispiel: Conjoint-Analyse – Mehr als die Summe seiner Teile
Zusammenfassung
Die Entwicklung von neuen Produkten ist wichtig für Unternehmen, da die erfolgreiche Etablierung von Innovationen zum finanziellen Erfolg und zur Stärkung gegen den Wettbewerb beitragen. Innovative Produkte und Technologien haben es aber meist besonders zu Beginn recht schwer. Für gewöhnlich durchlaufen sie nach Markteinführung einen langen Diffusionsprozess, bis sie die breite Masse erreichen.
Katharina Keller

Kunden- und soziale Medienanalyse

Frontmatter
Kapitel 11. Anwendungsbeispiel: Game of Social Networks
Zusammenfassung
Die Soziale-Netzwerk-Analyse ist heute ein Teil der zentralen Geschäftsfelder von Facebook, Instagram und Twitter. Der Ursprung dieser Analysetechnik hat seinen Ursprung in verschiedenen Forschungsrichtungen und ist damit ein interdisziplinäres Forschungsfeld, das sich im Kern auf die Bereiche Informatik und Sozial- und Geisteswissenschaften stützt.
Benjamin M. Abdel-Karim
Kapitel 12. Erhebung und Auswertung von Social-Media-Daten
Zusammenfassung
Social-Media-Plattformen, wie beispielsweise Twitter, sind mittlerweile ein essenzieller Bestandteil unserer Gesellschaft. Auf diesen Plattformen entstehen tagtäglich riesige Datenmengen aus Texten, Bildern und Videos und daher können sie für die Erhebung von Daten gut genutzt werden. Um dies zu zeigen, werden exemplarisch Tweets, die während des Reveals der Playstation 5 verfasst wurden, untersucht. Anhand der erhobenen Daten wird anschließend überprüft, welche Spiele besonders positiv oder besonders negativ auf Twitter diskutiert wurden.
Hendrik Jöntgen
Kapitel 13. Anwendungsbeispiel: Cloud Web Services
Zusammenfassung
Cloud Computing und speziell Cloud-basierte Webservices sind für Unternehmen und Privatpersonen eine wartungsfreundliche und kostensparende Alternative zu komplexen und teuren Server-Hosting-Projekten. Praktisch alle großen Technologiekonzerne wie Microsoft, Google oder Amazon haben in den letzten Jahren solche Cloud-Computing-Dienste gegründet, wobei die Amazon Web Services (AWS) aktuell den Marktführer darstellen. AWS umfasst (Stand September 2020) mehr als 175 Dienste, die von Endkunden im Pay-as-you-go-Verfahren genutzt werden können. Am bekanntesten sind hierbei die Amazon-Elastic-Compute-Cloud (EC2)-Instanzen. Hierbei handelt es sich um skalierbare und von Amazon gewartete Server. Zudem gibt es noch den Simple Storage Service (S3) von Amazon. Dabei handelt es sich um eine Cloud-basierte Lösung zur Datenspeicherung. Das folgende Kapitel demonstriert, wie mit einfachen Mitteln und für Neukunden völlig kostenlos, eine EC2-Instanz gestartet wird, um einen in Python geschriebenen Web Crawler zum täglichen Extrahieren vonYouTube-Kommentaren zu nutzen. Hierbei werden z. B. die Kommentare von YouTube-Videos mit Bezug auf den SARS-CoV2-Virus extrahiert und selbige in einem zweiten Schritt mit Natural Language Processing ausgewertet und die Ergebnisse durch Graphen und Word Clouds visualisiert.
Daniel Franzmann

Mitarbeiteranalyse

Frontmatter
Kapitel 14. Anwendungsbeispiel: Mitarbeiterabwanderung
Zusammenfassung
Verfahren des maschinellen Lernens (ML) können genaue Vorhersagen über unbekannte Zustände liefern. Diese Vorhersagen wiederum informieren spezifische Entscheidungen, welche unter Unsicherheit getroffen werden müssen. Akkurate Vorhersagen sind oft der Schlüssel zu optimalen Entscheidungen. Nehmen wir zum Beispiel Anstellungsentscheidungen: Die Einstellung des besten Kandidaten für eine bestimmte Stelle unter einer Reihe von Bewerbern erfordert eine möglichst präzise Vorhersage über die zu erwartende Leistung der Kandidaten nach der Einstellung. In ähnlicher Weise erfordern Beförderungsentscheidungen eine möglichst akkurate Einschätzung darüber, wer ein effektiver Vorgesetzter auf der zu besetzenden Führungsposition sein wird.
Kevin Bauer
Kapitel 15. Anwendungsbeispiel: Get Your Things Done – Modernes Zeitmanagement
Zusammenfassung
Für die Berufsgruppen im Dienstleistungssektor, wie beispielsweise Unternehmensberater, Juristen oder Programmierer, ist es von zentraler Bedeutung, ihre Leistungen minutengenau zu erfassen und transparent für sich und ihre Partner zu dokumentieren. Allerdings kann die genau Erfassung der genutzten Zeit für spezifische Aufgaben aufwendig sein. Zudem reichen simple Lösungen wie Notizen oder Stempelkartensysteme für eine effiziente und kundenorientierte Lösung nicht aus, um tiefere Einblicke in die genutzte Zeit zu erhalten und Synergieeffekte zu identifizieren.
Benjamin M. Abdel-Karim

Finanzanalyse

Frontmatter
Kapitel 16. Anwendungsbeispiel: Portfolioanalyse
Zusammenfassung
Obgleich der bewusst allgemein gehaltenen Kapitelüberschrift soll dieses vorliegende Kapitel dazu dienen, einen Einblick in die Portfolioanalyse von Wertpapieren bereitzustellen. Sowohl historische als auch aktuelle Krisen zeigen, wie volatil und instabil der Finanzmarkt sein kann. Für Anleger und Investoren bieten diese Kursbewegungen Chancen und bringen gleichzeitig viele Risiken. Eine stetige Portfolioanalyse, auch in Zeiten positiver Kursbewegungen, ist demnach essenziell, um eine anhaltend positive Renditeentwicklung zu gewährleisten und den Überblick über das eigene Depot zu behalten. Diesen Prozess zu automatisieren und eine fundamentale grafische Auswertung bereitzustellen, ist Ziel dieses Kapitels. Dabei bedient sich dieses Buch der kostenfrei zugänglichen Programmierschnittstelle des Datenanbieters Alpha Vantage. Die grafische Umsetzung in Python wird mit der Bibliothek dash realisiert.
Marcel Zeuch
Backmatter
Metadaten
Titel
Data Science
herausgegeben von
Benjamin M. Abdel-Karim
Copyright-Jahr
2022
Electronic ISBN
978-3-658-33460-4
Print ISBN
978-3-658-33459-8
DOI
https://doi.org/10.1007/978-3-658-33460-4