In diesem einleitenden Kapitel werden die in diesem Buch behandelten acht Methoden der multivariaten Datenanalyse vorgestellt, charakterisiert und klassifiziert. Bei der Anwendung von Methoden der multivariaten Analyse (MVA) werden mehrere Variablen gleichzeitig betrachtet und ihre Zusammenhänge quantitativ analysiert. Ziel der Methoden der multivariaten Analyse ist es, die Zusammenhänge zu beschreiben, zu erklären oder zukünftige Entwicklungen vorherzusagen. Ein Sonderfall der MVA sind bivariate Analysen, bei denen jeweils nur zwei Variablen gleichzeitig betrachtet werden. Methoden der multivariaten Analyse gehören heute zu den Grundlagen der empirischen Forschung in der Wissenschaft.
Weiterhin werden in diesem Kapitel auch Grundlagen der empirischen Datenanalyse vorgestellt, die für alle behandelten Analysemethoden relevant sind. Da die meisten Leser mit diesen Grundlagen vertraut sein werden, dienen diese Darstellungen primär der Wiederholung oder der Möglichkeit, wichtige Aspekte der quantitativen Datenanalyse nochmals nachzuschlagen: Zunächst werden statistische Basiskonzepte vorgestellt (z. B. Mittelwert, Standardabweichung, Kovarianz) und der Unterschied zwischen Korrelation und Kausalität aufgezeigt. Darüber hinaus werden die Grundlagen des statistischen Testens zusammenfassend am Beispiel des Mittelwerttests und des Anteilstests dargestellt. Schließlich wird auf den Umgang mit Ausreißern und Missing Values eingegangen, und das in diesem Buch verwendete Statistikpaket IBM SPSS Statistics wird kurz vorgestellt.
Anzeige
Bitte loggen Sie sich ein, um Zugang zu Ihrer Lizenz zu erhalten.
Sowohl SPSS als auch R verwenden die punktbiseriale Berechnung einer Korrelation, wenn eine der Variablen nur zwei berechnungsrelevante Ausprägungen besitzt.
Auf der Internetseite www.multivariate.de findet der Leser auch eine Exceltabelle, in der die Berechnung der verschiedenen statistischen Kenngrößen mit Excel hinterlegt ist. Zu einer Einführung in Excel vgl. z. B. Duller (2019).
In Excel kann der Mittelwert einer Variablen berechnet werden durch: = MITTELWERT(Matrix), wobei (Matrix) den Bereich der Zellen bezeichnet, der die Daten der Variable enthält. So berechnet z. B. = MITTELWERT(C6:C55) den Mittelwert der 50 Zellen C6 bis C55 in Spalte C.
In Excel kann die Standardabweichung in der Grundgesamtheit berechnet werden durch: \(\sigma_{x}^{{}}\) = STABW.P(matrix). Für die Standardabweichung in der Stichprobe gilt: \(s_{x}^{{}}\) = STABW.S(matrix).
Varianz und Standardabweichung können für die Variable „Geschlecht“ nicht sinnvoll interpretiert werden. Für die Berechnung von Kovarianz und Korrelationen sind jedoch die Spalten E und F erforderlich.
Der zentrale Grenzwertsatz besagt, dass die Summe oder der Mittelwert von n unabhängigen Zufallsvariablen zu einer Normalverteilung tendiert, wenn n ausreichend groß ist, auch wenn die ursprünglichen Variablen selbst nicht normalverteilt sind. Dies ist der Grund dafür, dass die Normalverteilung für viele Phänomene angenommen werden kann.
Mit Excel kann der kritische Wert für einen zweiseitigen t-Test durch die Funktion T.INV.2S(α;df) berechnet werden. Dabei ergibt sich T.INV.2S(0,05;99) = 1,984. Die Werte in der letzten Zeile der t-Tabelle sind identisch mit der Standardnormalverteilung. Bei df = 99 df kommt die t-Verteilung der Normalverteilung sehr nahe.
Mit Excel kann der p-Wert durch die Funktion T.VERT.2S(ABS(temp);df) berechnet werden. Für das hier verwendete Beispiel ergibt sich: T.VERT.2S(ABS(−1,90);99) = 0,0603 oder 6,03 %.
Mit Excel kann der kritische Wert für die linke Seite durch die Funktion T.INV(α;df) berechnet werden. Es ergibt sich: T.INV(0,05;99) = −1,66. Für die rechte Seite muss das Vorzeichen gewechselt werden oder es ist die Funktion T.INV(1 – α;df) zu verwenden.
Abb. 1.8
t-Verteilung und kritischer Wert für einen einseitigen Test (α = 5 %, df = 99)
Mit Excel kann der p-Wert für die linke Seite durch die Funktion T.VERT(temp;df;1) berechnet werden. Es ergibt sich: T.VERT(−1,90;99;1) = 0,0302 oder 3 %. Den p-Wert für die rechte Seite liefert die Funktion T.VERT.RS(temp;df).
Mit Excel können Histogramme durch die Menüabfolge „Daten/Datenanalyse/Histogramm“ erstellt werden. In SPSS können Histogramme durch die Menüabfolge „Analysieren/Deskriptive Statistiken/Häufigkeiten“ angefordert werden.
Mit SPSS können Boxplots und Histogramme wie folgt angefordert werden: „Analysieren/Deskriptive Statistiken/Explorative Datenanalyse“. Aber Achtung: Beobachtung 16 mit dem Wert 46 wird nicht als Ausreißer markiert. Die Regel von 1,5 Kastenlängen über dem Rand des Kastens ergibt hier den Cutoff-Wert 47. Aber auch diese Regel ist nicht ganz frei von Willkür. Hier wollen wir demonstrieren, wie ein Ausreißer im Boxplot dargestellt wird.