Skip to main content
main-content

Über dieses Buch

Dieses Buch liefert eine Einführung in die Analyse multivariater Daten, indem es eine Vielzahl klassischer und neuerer quantitativer Verfahren behandelt. Das Buch wendet sich sowohl an Studierende im Bereich Statistik als auch an Personen aus Wissenschaft und Praxis, die Datenanalyse betreiben und dabei multivariate Verfahren anwenden wollen.

Jedes Verfahren wird zunächst anhand eines realen Problems motiviert und mit kleinen Datensätzen veranschaulicht. Darauf aufbauend wird ausführlich die Zielsetzung des Verfahrens herausgearbeitet, gefolgt von einer detaillierten Entwicklung der Theorie. Praktische Aspekte runden die Darstellung des Verfahrens ab. An allen Stellen wird mit kleinen Datensätzen die Vorgehensweise veranschaulicht. Die notwendigen Berechnungen werden sowohl manuell als auch computergestützt dargestellt. Der weiteren Vertiefung des Stoffes dienen zahlreiche Übungsaufgaben.

Ein geeignetes Werkzeug für die computergestützte Datenanalyse ist die Software R. Sie stellt zum einen eine Vielzahl von Funktionen zur Verfügung, zum anderen lässt sie sich leicht um weitere Funktionen ergänzen. Die Durchführung wird für jedes behandelte Verfahren ausführlich beschrieben. Vorkenntnisse in R sind nicht erforderlich.

Inhaltsverzeichnis

Frontmatter

Grundlagen

Frontmatter

1. Beispiele multivariater Datensätze

Worum geht es in Statistik, und was kann Statistik? Wie Utts (2014) sehr treffend beschreibt, geht es in der Statistik um zwei zentrale Anliegen: zum einen um Finding Data in Life und zum anderen um Finding Life in Data. Dabei ist der Ausgangspunkt zunächst ein Problem, das mithilfe von statistischer Analyse gelöst werden soll. Um dieses Problem zu lösen, werden entweder zu Beginn Daten erhoben (Finding Data in Life), oder es wird auf vorhandene Datenbestände zurückgegriffen. Danach sollen die Daten zum Lösen des Problems mit geeigneten Methoden verwendet werden: Finding Life in Data. Darum geht es in Statistik, und das kann Statistik.

Torben Kuhlenkasper, Andreas Handl

2. Elementare Behandlung der Daten

Vor einer multivariaten Analyse sollte man sich die Eigenschaften der Verteilungen der einzelnen Merkmale ansehen. Wir beschäftigen uns zunächst mit der univariaten Analyse. Bei der Beschreibung und Darstellung der Merkmale werden wir in Abhängigkeit vom Merkmal unterschiedlich vorgehen. Man unterscheidet qualitative und quantitative Merkmale. Im Anschluss werden wir mehrere Merkmale gemeinsam betrachten, um zum Beispiel Abhängigkeitsstrukturen zwischen den Merkmalen aufzudecken. Wir wollen dabei zeigen, wie man Informationen in Datenmatrizen einfach darstellen kann. Dabei wollen wir erneut wieder zwischen qualitativen und quantitativen Merkmalen unterscheiden.

Torben Kuhlenkasper, Andreas Handl

3. Mehrdimensionale Zufallsvariablen

In Kap. 2 haben wir einfache Verfahren zur Darstellung hochdimensionaler Datensätze kennengelernt. Bei diesen Datensätzen handelt es sich in der Regel um Stichproben aus Populationen. Um Schlüsse von einer Stichprobe über die zugrunde liegenden Populationen ziehen zu können, muss man Annahmen über die Merkmale machen. Hierzu benötigen wir das Konzept der Zufallsvariablen. Wir werden in diesem Kapitel 3 zunächst univariate Zufallsvariablen betrachten. Anschließend werden wir die wesentlichen Eigenschaften von mehrdimensionalen Zufallsvariablen herleiten, die wir im weiteren Verlauf des Buches immer wieder benötigen werden.

Torben Kuhlenkasper, Andreas Handl

4. Ähnlichkeits- und Distanzmaße

Wir gehen in der multivariaten Statistik von n Objekten aus, an denen p verschiedene Merkmale erhoben wurden. In Kapitel 4 wollen wir bestimmen, wie ähnlich sich die Objekte mit den Merkmalen sind. Wir suchen eine Zahl, die die Ähnlichkeit bzw. die Unähnlichkeit zwischen Objekten misst. Wir bestimmen Distanzen sowohl für metrische als auch für binäre Merkmale anhand verschiedener Ansätze. Die Distanzmaße bilden die Grundlage für viele der im weiteren Verlauf des Buches diskutierten multivariaten Methoden.

Torben Kuhlenkasper, Andreas Handl

Darstellung hochdimensionaler Daten in niedrigdimensionalen Räumen

Frontmatter

5. Hauptkomponentenanalyse

Ausgangspunkt vieler Anwendungen ist eine Datenmatrix, die mehr als zwei quantitative Merkmale enthält. In einer solchen Situation ist man oft daran interessiert, die Objekte der Größe nach zu ordnen, wobei alle Merkmale zusammen in Betracht gezogen werden sollen. Außerdem will man die Objekte in einem Streudiagramm grafisch darstellen. Auch hier sollen alle Merkmale bei der Darstellung berücksichtigt werden. In Kapitel 5 lernen wir mit der Hauptkomponentenanalyse ein Verfahren kennenlernen, mit dessen Hilfe man ein Streudiagramm für alle p Merkmale zeichnen kann. Dabei können wir mit nur zwei Achsen alle Merkmale gleichzeitig berücksichtigen.

Torben Kuhlenkasper, Andreas Handl

6. Mehrdimensionale Skalierung

Sind alle Merkmale quantitativ, so ist mithilfe der Hauptkomponentenanalyse aus Kapitel 5 eine approximative grafische Darstellung der Objekte möglich. In der Praxis sind häufig jedoch nicht alle Merkmale in einer Datenmatrix quantitativ. Mithilfe der mehrdimensionalen Skalierung in Kapitel 6 ist es aber auch hier möglich, eine zweidimensionale Darstellung von Objekten unter Berücksichtigung aller Merkmale zu erhalten. Wir werden uns sowohl mit der metrischen als auch mit der nichtmetrischen mehrdimensionale Skalierung beschäftigen.

Torben Kuhlenkasper, Andreas Handl

7. Procrustes-Analyse

Da das Ergebnis einer mehrdimensionalen Skalierung aus Kapitel 6 nicht eindeutig ist, sind die gewonnenen unterschiedlichen Konfigurationen nicht leicht zu vergleichen. Da die Konfigurationen beliebig verschoben, gedreht und gestreckt oder gestaucht werden können, sollte man vor dem Vergleich eine von zwei Konfigurationen so verschieben, drehen und strecken oder stauchen, dass sie der anderen ähnelt. Das Ergebnis der Procrustes-Analyse in Kapitel 7 ermöglicht dann einen solchen Vergleich.

Torben Kuhlenkasper, Andreas Handl

Abhängigkeitsstrukturen

Frontmatter

8. Lineare Regression

Oft ist man daran interessiert, die Abhängigkeit einer Variablen von einer oder mehreren anderen Variablen zu modellieren. Wir wollen also eine beobachtete abhängige Variable durch eine oder mehrere unabhängige Variablen erklären und den vermuteten Zusammenhang durch eine lineare Funktion beschreiben. Kapitel 8 gibt eine Einführung in die Schätzung und Auswertung einfacher und multipler linearer Regressionsmodelle sowie der dazugehörenden statistischen Tests.

Torben Kuhlenkasper, Andreas Handl

9. Explorative Faktorenanalyse

In multivariaten Datensätzen liegen häufig viele Merkmale vor, die miteinander korreliert sein können. Solche hohen Korrelationen können an einer Variablen liegen, die mit den im Datensatz enthaltenen Merkmalen korreliert ist und die Korrelation zwischen diesen bewirkt. Dies ist häufig eine Variable, die wir nicht messen können oder für die zumindest keine Daten vorliegen. Wir wollen in Kapitel 9 ein Modell entwickeln, bei dem die Korrelationen zwischen Variablen durch einen unbeobachteten Faktor erklärt werden. Neben der Theorie werden wir uns in diesem Kapitel auch mit praktischen Aspekten der explorativen Faktorenanalyse beschäftigen.

Torben Kuhlenkasper, Andreas Handl

10. Hierarchische loglineare Modelle

In Kapitel 10 beschäftigen wir uns mit Modellen, die auf Kontingenztabellen basieren und die Abhängigkeitsstruktur zwischen qualitativen Merkmalen erfassen. Wir zeigen, wie man ein geeignetes Modell mit Hilfe des Likelihood- Quotienten-Teststatistik auswählen und interpretieren kann. Zur Berechnung von hierarchischen loglinearen Modellen in Kapitel 10 wird der IPF-Algorithmus auf zwei- und dreidimensionale Kontingenztabellen angewendet.

Torben Kuhlenkasper, Andreas Handl

Gruppenstrukturen

Frontmatter

11. Einfaktorielle Varianzanalyse

In Kapitel 11 wollen wir die Grundgesamtheit hinsichtlich eines Merkmals in unterschiedliche Teilgesamtheiten zerlegen. Von Interesse ist, ob sich die Verteilung eines oder mehrerer Merkmale in diesen Teilgesamtheiten unterscheidet. Wir suchen also nach Unterschieden zwischen Gruppen von Merkmalsträgern. Neben der einfaktoriellen Varianzanalyse werden wir mit dem Kruskal-Wallis-Test auch die nichtparametrische Alternative kennenlernen. Der ebenfalls vorgestellte Jonckheere-Test erweitert die Analyse von Gruppenunterschieden und erlaubt die Untersuchung von Trends zwischen den betrachteten Gruppen.

Torben Kuhlenkasper, Andreas Handl

12. Diskriminanzanalyse

In Kapitel 12 gehen wir, wie bei der Varianzanalyse in Kapitel 11, davon aus, dass die Gruppen von Merkmalsträgern bekannt sind. Im Gegensatz zur Varianzanalyse weiß man aber nicht, zu welcher Gruppe ein Objekt gehört. Gesucht ist eine Entscheidungsregel, die es erlaubt, ein Objekt einer der Gruppen zuzuordnen. Bei einer Diskriminanzanalyse untersuchen wir anhand quantitativer und qualitativer Merkmale, zu welcher Gruppe ein Merkmalsträger gehört. Wir wollen uns damit beschäftigen, wie man datengestützt eine Entscheidungsregel finden kann, die ein Objekt mit dem p-dimensionalen Merkmalsvektor x genau einer der Gruppen zuordnet. Dabei werden wir ausschließlich den Fall betrachten, dass ein Objekt einer von zwei Gruppen zugeordnet werden soll.

Torben Kuhlenkasper, Andreas Handl

13. Clusteranalyse

In den Kapiteln 11 und 12 haben wir Gesamtheiten betrachtet, die aus Gruppen bestehen. Dabei war die Gruppenstruktur bekannt und sollte analysiert werden. In diesem Kapitel 13 werden wir uns mit Verfahren beschäftigen, bei denen die Gruppenstruktur zu Beginn der Analyse nicht bekannt ist und mit denen man in einem Datensatz Gruppen, auch Cluster genannt, von Beobachtungen finden kann. Dieses Verfahren gehört zu den explorativen Methoden. Wir werden uns mit hierarchischen und partitionierenden Verfahren der Clusteranalyse beschäftigen.

Torben Kuhlenkasper, Andreas Handl

Backmatter

Weitere Informationen

Premium Partner

micromStellmach & BröckersBBL | Bernsau BrockdorffMaturus Finance GmbHPlutahww hermann wienberg wilhelmAvaloq Evolution AG

BranchenIndex Online

Die B2B-Firmensuche für Industrie und Wirtschaft: Kostenfrei in Firmenprofilen nach Lieferanten, Herstellern, Dienstleistern und Händlern recherchieren.

Whitepaper

- ANZEIGE -

Blockchain-Effekte im Banking und im Wealth Management

Es steht fest, dass Blockchain-Technologie die Welt verändern wird. Weit weniger klar ist, wie genau dies passiert. Ein englischsprachiges Whitepaper des Fintech-Unternehmens Avaloq untersucht, welche Einsatzszenarien es im Banking und in der Vermögensverwaltung geben könnte – „Blockchain: Plausibility within Banking and Wealth Management“. Einige dieser plausiblen Einsatzszenarien haben sogar das Potenzial für eine massive Disruption. Ein bereits existierendes Beispiel liefert der Initial Coin Offering-Markt: ICO statt IPO.
Jetzt gratis downloaden!

Bildnachweise