Skip to main content

2017 | Buch

Angewandte Datenanalyse

Der Bayes'sche Weg

insite
SUCHEN

Über dieses Buch

Dieses Buch bietet einen systematisch aufgebauten Einstieg in angewandte Datenanalyse, Bayes´sche Statistik und moderne Simulationsmethoden mit dem Computer. Ausgehend von der Zielsetzung, nicht direkt messbare Größen zu bestimmen und Prognosen zu zukünftigen Werten von unsicheren Größen zu berechnen, beschreibt und erläutert es die Vorgehensweisen – von der systematischen Sammlung von Daten über die Quantifizierung von Unsicherheit anhand von Wahrscheinlichkeiten bis hin zur Anwendung von Regressionsmodellen.Mit zahlreichen Reflexionsaufgaben und Beispielen aus der Praxis sowie seiner in vielen Kursen erprobten Didaktik ist das Buch ideal für Studierende in den angewandten Wissenschaften wie Ingenieur-, Natur- und Wirtschaftswissenschaften geeignet.Für die Neuauflage wurden einige Kapitel überarbeitet. Zudem wurde ein Abschnitt zu hierarchischen Modellen eingefügt und das Buch mit einem Kapitel zur Plausibilität von Modellen und von Hypothesen ergänzt. Sowohl die verwendeten Datensätze und Programmcodes als auch die Lösungen zu den Reflexionsaufgaben sind als Zusatzmaterial online verfügbar.

Inhaltsverzeichnis

Frontmatter
1. Eine Einführung und ein Überblick
Zusammenfassung
Das Kapitel zeigt Werkzeuge, die in diesem Buch benutzt werden, um Daten zu analysieren. So erhält die Leserin oder der Leser einen ersten Eindruck, wie solcheWerkzeuge funktionieren, ohne zu erwarten, dass die Details zu diesem Zeitpunkt verstanden werden. Insbesondere messen dieWerkzeuge, wie plausibel Aussagen sind. Vorgestellt werden dabei die zwei wichtigsten Rechenregeln, um Plausibilitäten zu bestimmen. Einerseits ist dies die Regel von Bayes, die es erlaubt, Aussagen zu nicht direkt messbaren Grössen zu quantifizieren. Andererseits ist dies das Gesetz der Marginalisierung, mit dem man versuchen kann, zukünftige Beobachtungen einer unsicheren Grösse zu prognostizieren. Auch erfährt der Leser oder die Leserin, wie man die Statistik im Bereich der Qualitätssicherung einsetzen kann.
Daniel Bättig
2. Wie man Versuche planen kann
Zusammenfassung
In Gebieten der angewandten Wissenschaften, in der Medizin und in der Welt der Technik können Auswirkungen von Ereignissen, von Medikamenten oder von produzierten Gütern auf die Umwelt und den Menschen kaum allein durch theoretische Überlegungen modelliert und analysiert werden. So muss eine Versicherung Daten sammeln, um verlässliche Prognosen machen zu können, wie viele zukünftige, grosse Schadensummen sie pro Jahr bezahlen muss. Auch in Produktionsprozessen können Verbesserungen und Effizienzsteigerungen nur erzielt werden, wenn Daten vorhanden sind. Dass Daten die Grundlage bilden, um Wissen zu generieren, zeigt ein bekannter Slogan aus dem Qualitätsmanagement:
In God we trust, all others bring data.
Daten erlauben, Wissen zu einer nicht direkt messbaren Grösse oder zu zukünftigen Werten einer unsicheren Grösse aufzubauen. Wie Versuche oder Experimente geplant werden, um hochstehendes Datenmaterial zu erhalten, wird in diesem Kapitel vorgestellt.
Daniel Bättig
3. Messen und Kontrollieren
Zusammenfassung
Im vorigen Kapitel wird erklärt, wie man Versuche planen kann. Ursache-Wirkungs-Diagramme helfen zu überlegen, welche Faktoren auf eine Grösse wirken. Dies erlaubt es, Versuche kontrolliert ablaufen zu lassen und dabei Werte von wichtigen Kovariablen zu sammeln. Geeichte Instrumente und Kontrollgruppen bei Versuchen, bei denen Menschen beteiligt sind, helfen weiter systematische Fehler zu minimieren. Nach solchen Vorbereitungen ist es möglich gezielt, Daten zu sammeln. Wie soll man aber Probanden oder bei Qualitätskontrollen Objekte auswählen? Weiter ist es wichtig, möglichst effizient und kostengünstig Daten zu sammeln. Dazu gehört, dass nicht unnötig viele Messwerte aufgenommen werden. Wie geht man vor, wenn man Grössen misst? Wie stellt man fest, ob die erhaltenen Messwerte wirklich unter statistischer Kontrolle waren? Randomisierung (engl. randomization), Wiederholung (engl. replication) und Kontrolle (engl. controlling) sind Methoden, die eine Antwort auf diese Fragen geben. (Der Genetiker und Statistiker R. A. Fisher ist der Urheber der wissenschaftlichen Versuchsplanung (engl. Design of Experiments). Zur Versuchsplanung gehören Prinzipien wie Wiederholung, Randomisierung und Kontrolle.)
Daniel Bättig
4. Das Fundament: Wahrscheinlichkeiten
Zusammenfassung
In Kap. 1 wird erklärt, dass Rechnungen aus Daten erst vertrauenswürdig werden, wenn angegeben wird, wie genau und wie plausibel die Resultate sind. Dabei wird Plausibilität wie folgt mit einer Wahrscheinlichkeit beschrieben: „Die mittlere Zeit zwischen zukünftigen, aufeinanderfolgenden starken Erdbeben liegt mit einer Wahrscheinlichkeit von 90 % zwischen 450 und 500 Tagen.“ Was Wahrscheinlichkeiten sind und wie man Aussagen mit Wahrscheinlichkeiten ausdrückt, wird in diesem Kapitel gezeigt. Zudem wird vorgestellt, wie man mit Wahrscheinlichkeiten rechnet. Anschliessend werden Modelle erwähnt, mit denen man beschreiben kann, wie Messwerte streuen. Solche Modelle werden auch mit Wahrscheinlichkeiten formuliert. Zum Schluss des Kapitels wird diskutiert, wie man dank Simulationen, Wahrscheinlichkeiten bei komplizierten Modellen bestimmen kann.
Daniel Bättig
5. Nicht direkt messbare Grössen bestimmen
Zusammenfassung
Ein Ziel dieses Kapitels ist es zu zeigen, wie eine nicht direkt messbare Grösse aus Daten berechnet werden kann. Dazu braucht man, wie schon in Kap. 1 erklärt, ein Datenmodell, das beschreibt, wie die Daten streuen, und Vorinformation. Mit der Regel von Bayes kann daraus der Parameter bestimmt werden. Thomas Bayes, ein englischer Priester, hat sie um 1746 hergeleitet. Sie wurde im Jahr 1763 von Richard Price in [1] nach dem Tod Bayes veröffentlicht. Pierre-Simon Laplace entdeckte sie im Jahr 1812 in [4] neu und bemerkte, dass er mit Wahrscheinlichkeiten und der erwähnten Regel Plausibilitäten zu nicht direkt messbaren Grössen aus Astronomie, Natur- und Sozialwissenschaften berechnen konnte. Er benutzte sie unter anderem, um das Verhältnis zwischen Jungen- und Mädchengeburten mit einer Genauigkeitsangabe und einer Plausibilität zu bestimmen. (S. B. McGrayne schildert im Buch [5] detailliert, wie die Regel von Bayes entstanden ist und wie die Gültigkeit und Anwendbarkeit der Regel während 150 Jahren oft in Frage gestellt wurden. In der heutigen Wissenschaft spielt sie aber eine nicht mehr wegzudenkende Rolle.)
Daniel Bättig
6. Mehrere Grössen und Korrelation
Zusammenfassung
In Untersuchungen müssen oft mehrere Grössen berechnet werden. So interessieren bei der medizinischen Studie in Beispiel 2.​15 die Heilraten von Aspirin bei Herzinfarkten und Schlaganfällen. In Beispiel 2.​1 zur Biodiversität interessieren die durchschnittlichen Artenzahlen von verschiedenen Pflanzenarten. Um die Plausibilität zu solchen Grössen zu beschreiben, braucht man ein gemeinsames Wahrscheinlichkeitsmodell. Wie damit gerechnet wird, wird in diesem Kapitel erklärt. Dabei wird das Gesetz der Marginalisierung vorgestellt. Es wird später verwendet, um zukünftige Werte von unsicheren Grössen zu prognostizieren.
Oft wird optimistisch angenommen, dass die Messwerte oder Beobachtungen unabhängig sind. Dies hat zur Folge, dass nicht direkt messbare Grössen mit zunehmender Anzahl Messungen n immer präziser berechnet werden können. Solchen Rechnungen sollte man mit der nötigen Skepsis begegnen. In diesem Kapitel wird ein Werkzeug vorgestellt, das zu beurteilen hilft, ob in einer zeitabhängige Folge von Messwerten oder Beobachtungen Trends oder Abhängigkeiten vorhanden sind.
Daniel Bättig
7. Messwerte prognostizieren
Zusammenfassung
Mit statistischen Werkzeugen lassen sich nicht direkt messbare Grössen bestimmen. Dies ist exemplarisch in Kap. 5 gezeigt. Mit den Gesetzen zur Wahrscheinlichkeitsrechnung lassen sich auch zukünftige gemessene oder beobachtete Werte einer Grösse prognostizieren. Ein solcher Blick in die Zukunft ist wegen fehlender Information meist mit Unsicherheit verbunden. Daher wird angegeben, wo solche Messwerte mit welcher Wahrscheinlichkeit liegen werden. Für diese Aufgabe braucht man einerseits ein Datenmodell für mögliche Messwerte und andererseits die Plausibilität zu den Parametern des Datenmodells. Zukünftige Messwerte oder Beobachtungen kann man daraus mit dem Gesetz der Marginalisierung, das im vorigen Kapitel erklärt ist, prognostizieren. Dazu muss man Integrale ausrechnen. Sie sind kaum explizit berechenbar. Daher wird ein Verfahren vorgestellt, das auf einer Computersimulation aufbaut.
Daniel Bättig
8. Modellwahl: Information und Entropie
Zusammenfassung
Nicht direkt messbare Grössen, wie der Anteil von Objekten in einer Grundgesamtheit, die in einer gewissen Kategorie sind, kann man aus Daten und zusätzlichen Informationen berechnen. In Kap. 5 ist gezeigt, dass die Regel von Bayes die Vorinformation (den Prior) zur nicht direkt messbaren Grösse aktualisiert. Man erhält eine Genauigkeit und eine Plausibilität zur gesuchten Grösse. Für die Regel von Bayes braucht man ein Datenmodell, das besagt, wie Messwerte streuen. Damit glaubwürdig wird, was gerechnet wird, müssen das Datenmodell und der Prior erklärt werden. Die in diesem Kapitel vorgestellten Argumente, um Modelle zu wählen, sind Skalierungs- und Informationsregeln. Am Schluss des Kapitels wird eine wichtige Kennzahl eines Wahrscheinlichkeitsmodells definiert. Es ist der Erwartungswert oder der durchschnittlich erwartbare Wert. Hat man Information dazu, kann dies helfen, ein Wahrscheinlichkeitsmodell auszuwählen.
Daniel Bättig
9. Zwei Modelle zu positiven Grössen
Zusammenfassung
In vielen Untersuchungen werden nicht negative, kontinuierliche Grössen, wie Wartezeiten vor Flugschaltern, Lebensdauern von Geräten, Zerfallszeiten von radioaktiven Elementen oder Schadensummen bei Unwettern, betrachtet. Ausserdem werden auch positive diskrete Grössen studiert, wie die Anzahl Unfälle während eines Jahres, wie die monatlichen Schadensfälle bei einer Versicherung, oder die Anzahl Zerfälle von α-Teilchen während einer Stunde oder die Anzahl Löcher in produzierten porösen Membranen. Wie Parameter von solchen Grössen berechnet werden können, wird in diesem Kapitel gezeigt. Die Resultate hängen dabei vom Datenmodell ab, das besagt, wie Messwerte der Grössen streuen. Es ist daher sinnvoll, das Datenmodell zu beurteilen. Wie dies gemacht werden kann, wird in diesem Kapitel ebenfalls diskutiert.
Daniel Bättig
10. Streuung und Normalverteilung
Zusammenfassung
In der Produktionstechnik und in technischen Wissenschaften wird oft angenommen, dass mit einer Normalverteilung beschrieben werden kann, wie Messwerte streuen. Die Normalverteilung wird in diesem Kapitel vorgestellt. Zudem wird illustriert, warum es sinnvoll ist, diese Verteilung zu benutzen: Sie hat, gegeben der Erwartungswert und die Standardabweichung, eine maximale Entropie. Die Normalverteilung hat zwei Parameter: den Modus und die Standardabweichung. In vielen Anwendungen interessiert allerdings nur der Modus. Die Standardabweichung ist dann ein Störparameter (engl. nuisance parameter), der mit dem Gesetz der Marginalisierung eliminiert werden kann.
Daniel Bättig
11. Explorative Datenanalyse
Zusammenfassung
In den vorigen Kapiteln wird erklärt, wie Resultate zu nicht direkt messbaren Grössen dargestellt werden können. Man kann den Graphen der A posteriori-Dichtefunktion darstellen, den plausibelsten Wert angeben oder Wahrscheinlichkeitsintervalle nennen. Die Resultate hängen von den Daten und von Vorinformation ab. Neben den Rechnungen ist es sinnvoll, die verwendeten Daten zu visualisieren. In diesem Kapitel werden einfache und prägnante grafischen Darstellungen von univariaten Datenwerten vorgestellt. Dies kann auch nützlich sein, um Fragen wie: „War das Experiment unter statistischer Kontrolle?“, „Sind extreme Werte vorhanden?“, oder „Ist das gewählte Modell gut?“ zu beantworten. Die in den Daten steckende Information kann auch helfen, ein gutes Datenmodell zu wählen.
Daniel Bättig
12. Regressionsmodelle
Zusammenfassung
Der Wert einer Grösse kann von vielen verschiedenen Faktoren und Kovariablen abhängen. Oft geht es darum, den Wert der Grösse aus wenigen dieser Faktoren zu prognostizieren. So möchte jemand den Preis eines Gebrauchtwagens aus dem Kilometerstand des Wagens berechnen. Oder ein Arzt will das Lungenvolumen aus dem Alter und der Körpergrösse eines Patienten bestimmen. Man spricht in solchen Fällen auch von statistischem Lernen (engl. statistical learning). Häufig will man nur den durchschnittlich erwartbaren Wert der Zielgrösse in Funktion der wenigen Faktoren, den sogenannten abhängigen Grössen, berechnen. Dies tun Regressionsmodelle. Solche Modelle werden in diesem Kapitel vorgestellt.
Daniel Bättig
13. Regressionsmodelle: Parameter und Prognosen
Zusammenfassung
Im vorigen Kapitel ist erklärt, was ein Regressionsmodell ist. In diesem Kapitel wird gezeigt, wie die Parameter eines Regressionsmodells berechnet werden können. Um anzugeben, wie präzis und wie plausibel Resultate sind, braucht man ein Datenmodell für die Messwerte oder Beobachtungen. Auch zukünftige Messwerte oder Beobachtungen lassen sich prognostizieren. Dies geschieht mit dem Gesetz der Marginalisierung.
Daniel Bättig
14. Standardfehler, Ranglisten und Modelle
Zusammenfassung
Nicht direkt messbare Grössen werden oft aus verschiedenen Gruppen berechnet. So will man aus einer Stichprobe die durchschnittlichen Raten der Neuerkrankungen an Lungenkrebs in verschiedenen Regionen kennen. Eine Ingenieurin will die Haftkraft von Klebeetiketten (eine Grösse, die wegen Messunsicherheiten und variierender Kovariablen nicht direkt bestimmbar ist) aus drei Produktionsorten oder -arten vergleichen. Es ist verbreitet und praktisch, solche Vergleiche mit der Laplace-Approximation und dem Standardfehler durchzuführen. Was dies ist und worauf man hierbei achten sollte, wird in diesem Kapitel beschrieben. Oft sind Gruppen ähnlich oder gleich strukturiert. Diese Information lässt sich in die statistischen Modelle einbauen. Damit lassen sich nicht direkt messbare Grössen der verschiedenen Gruppen sehr effizient vergleichen. Dies zeigt der letzte Abschnitt in diesem Kapitel.
Daniel Bättig
15. Plausibilität von Modellen und von Hypothesen
Zusammenfassung
Verschiedene Regressionsmodelle können den durchschnittlichen Wert einer Zielgrösse in Funktion von erklärenden Variablen A, B, C, … oder in Funktion der erklärenden Variablen X, Y, … bestimmen. Es stellt sich dann die Frage: „Welches Modell ist plausibler?“ Mit statistischen Methoden lässt sich diese Frage beantworten und Regressionsmodelle können quantitativ gegeneinander beurteilt werden. Im ersten Teil des Kapitels findet man dazu eine Einführung.
In der medizinischen Forschung und in den Sozialwissenschaften ist es üblich, Hypothesen zu nicht direkt messbaren Grössen zu formulieren: „Tabakkonsum bewirkt ein durchschnittlich höheres Risiko an Lungenkrebs zu erkranken.“ oder „Personen zwischen 20 und 30 Jahren haben beim Autofahren höhere Schadensfrequenzen als andere Personen.“ Mit der A posteriori-Verteilung der nicht direkt messbaren Grössen kann ausgerechnet werden, wie plausibel solche Hypothesen sind. Eine einführende und kritische Diskussion dazu führt der zweite Abschnitt des Kapitels.
Daniel Bättig
Backmatter
Metadaten
Titel
Angewandte Datenanalyse
verfasst von
Daniel Bättig
Copyright-Jahr
2017
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-662-54220-0
Print ISBN
978-3-662-54219-4
DOI
https://doi.org/10.1007/978-3-662-54220-0