Skip to main content
main-content

Über dieses Buch

Dieses Buch liefert eine Einführung in die Analyse multivariater Daten, indem es eine Vielzahl klassischer und neuerer quantitativer Verfahren behandelt. Das Buch wendet sich sowohl an Studierende im Bereich Statistik als auch an Personen aus Wissenschaft und Praxis, die Datenanalyse betreiben und dabei multivariate Verfahren anwenden wollen.

Jedes Verfahren wird zunächst anhand eines realen Problems motiviert und mit kleinen Datensätzen veranschaulicht. Darauf aufbauend wird ausführlich die Zielsetzung des Verfahrens herausgearbeitet, gefolgt von einer detaillierten Entwicklung der Theorie. Praktische Aspekte runden die Darstellung des Verfahrens ab. An allen Stellen wird mit kleinen Datensätzen die Vorgehensweise veranschaulicht. Die notwendigen Berechnungen werden sowohl manuell als auch computergestützt dargestellt. Der weiteren Vertiefung des Stoffes dienen zahlreiche Übungsaufgaben.

Ein geeignetes Werkzeug für die computergestützte Datenanalyse ist die Software R. Sie stellt zum einen eine Vielzahl von Funktionen zur Verfügung, zum anderen lässt sie sich leicht um weitere Funktionen ergänzen. Die Durchführung wird für jedes behandelte Verfahren ausführlich beschrieben. Vorkenntnisse in R sind nicht erforderlich.

Inhaltsverzeichnis

Frontmatter

Grundlagen

Frontmatter

1. Beispiele multivariater Datensätze

Zusammenfassung
Worum geht es in Statistik, und was kann Statistik? Wie Utts (2014) sehr treffend beschreibt, geht es in der Statistik um zwei zentrale Anliegen: zum einen um Finding Data in Life und zum anderen um Finding Life in Data. Dabei ist der Ausgangspunkt zunächst ein Problem, das mithilfe von statistischer Analyse gelöst werden soll. Um dieses Problem zu lösen, werden entweder zu Beginn Daten erhoben (Finding Data in Life), oder es wird auf vorhandene Datenbestände zurückgegriffen. Danach sollen die Daten zum Lösen des Problems mit geeigneten Methoden verwendet werden: Finding Life in Data. Darum geht es in Statistik, und das kann Statistik.
Torben Kuhlenkasper, Andreas Handl

2. Elementare Behandlung der Daten

Zusammenfassung
Vor einer multivariaten Analyse sollte man sich die Eigenschaften der Verteilungen der einzelnen Merkmale ansehen. Wir beschäftigen uns zunächst mit der univariaten Analyse. Bei der Beschreibung und Darstellung der Merkmale werden wir in Abhängigkeit vom Merkmal unterschiedlich vorgehen. Man unterscheidet qualitative und quantitative Merkmale. Im Anschluss werden wir mehrere Merkmale gemeinsam betrachten, um zum Beispiel Abhängigkeitsstrukturen zwischen den Merkmalen aufzudecken. Wir wollen dabei zeigen, wie man Informationen in Datenmatrizen einfach darstellen kann. Dabei wollen wir erneut wieder zwischen qualitativen und quantitativen Merkmalen unterscheiden.
Torben Kuhlenkasper, Andreas Handl

3. Mehrdimensionale Zufallsvariablen

Zusammenfassung
In Kap. 2 haben wir einfache Verfahren zur Darstellung hochdimensionaler Datensätze kennengelernt. Bei diesen Datensätzen handelt es sich in der Regel um Stichproben aus Populationen. Um Schlüsse von einer Stichprobe über die zugrunde liegenden Populationen ziehen zu können, muss man Annahmen über die Merkmale machen. Hierzu benötigen wir das Konzept der Zufallsvariablen. Wir werden in diesem Kapitel 3 zunächst univariate Zufallsvariablen betrachten. Anschließend werden wir die wesentlichen Eigenschaften von mehrdimensionalen Zufallsvariablen herleiten, die wir im weiteren Verlauf des Buches immer wieder benötigen werden.
Torben Kuhlenkasper, Andreas Handl

4. Ähnlichkeits- und Distanzmaße

Zusammenfassung
Wir gehen in der multivariaten Statistik von n Objekten aus, an denen p verschiedene Merkmale erhoben wurden. In Kapitel 4 wollen wir bestimmen, wie ähnlich sich die Objekte mit den Merkmalen sind. Wir suchen eine Zahl, die die Ähnlichkeit bzw. die Unähnlichkeit zwischen Objekten misst. Wir bestimmen Distanzen sowohl für metrische als auch für binäre Merkmale anhand verschiedener Ansätze. Die Distanzmaße bilden die Grundlage für viele der im weiteren Verlauf des Buches diskutierten multivariaten Methoden.
Torben Kuhlenkasper, Andreas Handl

Darstellung hochdimensionaler Daten in niedrigdimensionalen Räumen

Frontmatter

5. Hauptkomponentenanalyse

Zusammenfassung
Ausgangspunkt vieler Anwendungen ist eine Datenmatrix, die mehr als zwei quantitative Merkmale enthält. In einer solchen Situation ist man oft daran interessiert, die Objekte der Größe nach zu ordnen, wobei alle Merkmale zusammen in Betracht gezogen werden sollen. Außerdem will man die Objekte in einem Streudiagramm grafisch darstellen. Auch hier sollen alle Merkmale bei der Darstellung berücksichtigt werden. In Kapitel 5 lernen wir mit der Hauptkomponentenanalyse ein Verfahren kennenlernen, mit dessen Hilfe man ein Streudiagramm für alle p Merkmale zeichnen kann. Dabei können wir mit nur zwei Achsen alle Merkmale gleichzeitig berücksichtigen.
Torben Kuhlenkasper, Andreas Handl

6. Mehrdimensionale Skalierung

Zusammenfassung
Sind alle Merkmale quantitativ, so ist mithilfe der Hauptkomponentenanalyse aus Kapitel 5 eine approximative grafische Darstellung der Objekte möglich. In der Praxis sind häufig jedoch nicht alle Merkmale in einer Datenmatrix quantitativ. Mithilfe der mehrdimensionalen Skalierung in Kapitel 6 ist es aber auch hier möglich, eine zweidimensionale Darstellung von Objekten unter Berücksichtigung aller Merkmale zu erhalten. Wir werden uns sowohl mit der metrischen als auch mit der nichtmetrischen mehrdimensionale Skalierung beschäftigen.
Torben Kuhlenkasper, Andreas Handl

7. Procrustes-Analyse

Zusammenfassung
Da das Ergebnis einer mehrdimensionalen Skalierung aus Kapitel 6 nicht eindeutig ist, sind die gewonnenen unterschiedlichen Konfigurationen nicht leicht zu vergleichen. Da die Konfigurationen beliebig verschoben, gedreht und gestreckt oder gestaucht werden können, sollte man vor dem Vergleich eine von zwei Konfigurationen so verschieben, drehen und strecken oder stauchen, dass sie der anderen ähnelt. Das Ergebnis der Procrustes-Analyse in Kapitel 7 ermöglicht dann einen solchen Vergleich.
Torben Kuhlenkasper, Andreas Handl

Abhängigkeitsstrukturen

Frontmatter

8. Lineare Regression

Zusammenfassung
Oft ist man daran interessiert, die Abhängigkeit einer Variablen von einer oder mehreren anderen Variablen zu modellieren. Wir wollen also eine beobachtete abhängige Variable durch eine oder mehrere unabhängige Variablen erklären und den vermuteten Zusammenhang durch eine lineare Funktion beschreiben. Kapitel 8 gibt eine Einführung in die Schätzung und Auswertung einfacher und multipler linearer Regressionsmodelle sowie der dazugehörenden statistischen Tests.
Torben Kuhlenkasper, Andreas Handl

9. Explorative Faktorenanalyse

Zusammenfassung
In multivariaten Datensätzen liegen häufig viele Merkmale vor, die miteinander korreliert sein können. Solche hohen Korrelationen können an einer Variablen liegen, die mit den im Datensatz enthaltenen Merkmalen korreliert ist und die Korrelation zwischen diesen bewirkt. Dies ist häufig eine Variable, die wir nicht messen können oder für die zumindest keine Daten vorliegen. Wir wollen in Kapitel 9 ein Modell entwickeln, bei dem die Korrelationen zwischen Variablen durch einen unbeobachteten Faktor erklärt werden. Neben der Theorie werden wir uns in diesem Kapitel auch mit praktischen Aspekten der explorativen Faktorenanalyse beschäftigen.
Torben Kuhlenkasper, Andreas Handl

10. Hierarchische loglineare Modelle

Zusammenfassung
In Kapitel 10 beschäftigen wir uns mit Modellen, die auf Kontingenztabellen basieren und die Abhängigkeitsstruktur zwischen qualitativen Merkmalen erfassen. Wir zeigen, wie man ein geeignetes Modell mit Hilfe des Likelihood- Quotienten-Teststatistik auswählen und interpretieren kann. Zur Berechnung von hierarchischen loglinearen Modellen in Kapitel 10 wird der IPF-Algorithmus auf zwei- und dreidimensionale Kontingenztabellen angewendet.
Torben Kuhlenkasper, Andreas Handl

Gruppenstrukturen

Frontmatter

11. Einfaktorielle Varianzanalyse

Zusammenfassung
In Kapitel 11 wollen wir die Grundgesamtheit hinsichtlich eines Merkmals in unterschiedliche Teilgesamtheiten zerlegen. Von Interesse ist, ob sich die Verteilung eines oder mehrerer Merkmale in diesen Teilgesamtheiten unterscheidet. Wir suchen also nach Unterschieden zwischen Gruppen von Merkmalsträgern. Neben der einfaktoriellen Varianzanalyse werden wir mit dem Kruskal-Wallis-Test auch die nichtparametrische Alternative kennenlernen. Der ebenfalls vorgestellte Jonckheere-Test erweitert die Analyse von Gruppenunterschieden und erlaubt die Untersuchung von Trends zwischen den betrachteten Gruppen.
Torben Kuhlenkasper, Andreas Handl

12. Diskriminanzanalyse

Zusammenfassung
In Kapitel 12 gehen wir, wie bei der Varianzanalyse in Kapitel 11, davon aus, dass die Gruppen von Merkmalsträgern bekannt sind. Im Gegensatz zur Varianzanalyse weiß man aber nicht, zu welcher Gruppe ein Objekt gehört. Gesucht ist eine Entscheidungsregel, die es erlaubt, ein Objekt einer der Gruppen zuzuordnen. Bei einer Diskriminanzanalyse untersuchen wir anhand quantitativer und qualitativer Merkmale, zu welcher Gruppe ein Merkmalsträger gehört. Wir wollen uns damit beschäftigen, wie man datengestützt eine Entscheidungsregel finden kann, die ein Objekt mit dem p-dimensionalen Merkmalsvektor x genau einer der Gruppen zuordnet. Dabei werden wir ausschließlich den Fall betrachten, dass ein Objekt einer von zwei Gruppen zugeordnet werden soll.
Torben Kuhlenkasper, Andreas Handl

13. Clusteranalyse

Zusammenfassung
In den Kapiteln 11 und 12 haben wir Gesamtheiten betrachtet, die aus Gruppen bestehen. Dabei war die Gruppenstruktur bekannt und sollte analysiert werden. In diesem Kapitel 13 werden wir uns mit Verfahren beschäftigen, bei denen die Gruppenstruktur zu Beginn der Analyse nicht bekannt ist und mit denen man in einem Datensatz Gruppen, auch Cluster genannt, von Beobachtungen finden kann. Dieses Verfahren gehört zu den explorativen Methoden. Wir werden uns mit hierarchischen und partitionierenden Verfahren der Clusteranalyse beschäftigen.
Torben Kuhlenkasper, Andreas Handl

Backmatter

Weitere Informationen

Premium Partner

    Bildnachweise