Skip to main content
main-content

Tipp

Weitere Kapitel dieses Buchs durch Wischen aufrufen

Erschienen in:
Buchtitelbild

2021 | OriginalPaper | Buchkapitel

1. Einführung in die empirische Datenanalyse

verfasst von : Klaus Backhaus, Bernd Erichson, Sonja Gensler, Rolf Weiber, Thomas Weiber

Erschienen in: Multivariate Analysemethoden

Verlag: Springer Fachmedien Wiesbaden

share
TEILEN

Zusammenfassung

In diesem einleitenden Kapitel werden die in diesem Buch behandelten acht Methoden der multivariaten Datenanalyse vorgestellt, charakterisiert und klassifiziert. Bei der Anwendung von Methoden der multivariaten Analyse (MVA) werden mehrere Variablen gleichzeitig betrachtet und ihre Zusammenhänge quantitativ analysiert. Ziel der Methoden der multivariaten Analyse ist es, die Zusammenhänge zu beschreiben, zu erklären oder zukünftige Entwicklungen vorherzusagen. Ein Sonderfall der MVA sind bivariate Analysen, bei denen jeweils nur zwei Variablen gleichzeitig betrachtet werden. Methoden der multivariaten Analyse gehören heute zu den Grundlagen der empirischen Forschung in der Wissenschaft.
Weiterhin werden in diesem Kapitel auch Grundlagen der empirischen Datenanalyse vorgestellt, die für alle behandelten Analysemethoden relevant sind. Da die meisten Leser mit diesen Grundlagen vertraut sein werden, dienen diese Darstellungen primär der Wiederholung oder der Möglichkeit, wichtige Aspekte der quantitativen Datenanalyse nochmals nachzuschlagen: Zunächst werden statistische Basiskonzepte vorgestellt (z. B. Mittelwert, Standardabweichung, Kovarianz) und der Unterschied zwischen Korrelation und Kausalität aufgezeigt. Darüber hinaus werden die Grundlagen des statistischen Testens zusammenfassend am Beispiel des Mittelwerttests und des Anteilstests dargestellt. Schließlich wird auf den Umgang mit Ausreißern und Missing Values eingegangen, und das in diesem Buch verwendete Statistikpaket IBM SPSS Statistics wird kurz vorgestellt.
Fußnoten
1
Sowohl SPSS als auch R verwenden die punktbiseriale Berechnung einer Korrelation, wenn eine der Variablen nur zwei berechnungsrelevante Ausprägungen besitzt.
 
2
Auf der Internetseite www.​multivariate.​de findet der Leser auch eine Exceltabelle, in der die Berechnung der verschiedenen statistischen Kenngrößen mit Excel hinterlegt ist. Zu einer Einführung in Excel vgl. z. B. Duller (2019).
 
3
In Excel kann der Mittelwert einer Variablen berechnet werden durch: = MITTELWERT(Matrix), wobei (Matrix) den Bereich der Zellen bezeichnet, der die Daten der Variable enthält. So berechnet z. B. = MITTELWERT(C6:C55) den Mittelwert der 50 Zellen C6 bis C55 in Spalte C.
 
4
In Excel kann die Varianz in der Grundgesamtheit berechnet werden durch: \(\sigma_{x}^{2}\) = VAR.P(matrix).
Für die Stichproben-Varianz gilt: \(s_{x}^{2}\) = VAR.S(matrix) bzw. = VARIANZA(matrix).
 
5
In Excel kann die Standardabweichung in der Grundgesamtheit berechnet werden durch: \(\sigma_{x}^{{}}\) = STABW.P(matrix). Für die Standardabweichung in der Stichprobe gilt: \(s_{x}^{{}}\) = STABW.S(matrix).
 
6
Varianz und Standardabweichung können für die Variable „Geschlecht“ nicht sinnvoll interpretiert werden. Für die Berechnung von Kovarianz und Korrelationen sind jedoch die Spalten E und F erforderlich.
 
7
In Excel kann die Kovarianz wie folgt berechnet werden: \(s_{xy}\) = KOVARIANZ.S(matrix1;matrix2).
 
8
In Excel kann die Korrelation zwischen Variablen wie folgt berechnet werden:
rxy = KORREL(matrix1;matrix2).
 
9
Vgl. zur Korrelation von Binärvariablen mit metrisch skalierten Variablen die Ausführungen in Abschn. 1.1.2.2.
 
10
Vgl. zum statistischen Testen Abschn. 1.3 dieses Kapitels. Im Einvariablen-Fall gilt F = t2 und t-Test sowie F-Test führen zum gleichen Ergebnis.
 
11
Der p-Wert kann auch mit Excel wie folgt berechnet werden: p = T.VERT(ABS(t);N−2;2) oder p = 1-F.VERT(F;1;N-2;1).
 
12
Der zentrale Grenzwertsatz besagt, dass die Summe oder der Mittelwert von n unabhängigen Zufallsvariablen zu einer Normalverteilung tendiert, wenn n ausreichend groß ist, auch wenn die ursprünglichen Variablen selbst nicht normalverteilt sind. Dies ist der Grund dafür, dass die Normalverteilung für viele Phänomene angenommen werden kann.
 
13
Mit Excel kann der kritische Wert für einen zweiseitigen t-Test durch die Funktion T.INV.2 S(α;df) berechnet werden. Dabei ergibt sich T.INV.2 S(0,05;99) = 1,984. Für df = 100 würde sich das Ergebnis nicht ändern. Die Werte in der letzten Zeile der t-Tabelle sind identisch mit der Normalverteilung. Bei 99 df kommt die t-Verteilung der Normalverteilung sehr nahe.
 
14
Mit Excel kann der p-Wert durch die Funktion T.VERT.2S(ABS(temp);df) berechnet werden. Für das hier verwendete Beispiel ergibt sich: T.VERT.2S(ABS(−1,90);99) = 0,0603 oder 6,03 %.
 
15
Mit Excel kann der kritische Wert für die linke Seite durch die Funktion T.INV(α;df) berechnet werden. Es ergibt sich: T.INV(0,05;99) = −1,66. Für die rechte Seite muss das Vorzeichen gewechselt werden oder es ist die Funktion T.INV(1 – α;df) zu verwenden.
 
16
Mit Excel kann der p-Wert für die linke Seite durch die Funktion T.VERT(temp;df;1) berechnet werden. Es ergibt sich: T.VERT(−1,90;99;1) = 0,0302 oder 3 %. Den p-Wert für die rechte Seite liefert die Funktion T.VERT.RS(temp;df).
 
17
Vgl. z. B. Hastie et al. (2011); Pearl und Mackenzie (2018); Gigerenzer (2002).
 
18
Mit Excel können Histogramme durch die Menüabfolge „Daten/Datenanalyse/Histogramm“ erstellt werden. In SPSS können Histogramme durch die Menüabfolge „Analysieren/Deskriptive Statistiken/Häufigkeiten“ angefordert werden.
 
19
Mit SPSS können Boxplots und Histogramme wie folgt angefordert werden:
„Analysieren/DeskriptiveStatistiken/Häufigkeiten“.
 
Literatur
Zurück zum Zitat Campbell, D. T., & Stanley, J. C. (1966). Experimental and Quasi-experimental designs for research. Chicago: Rand McNelly. Campbell, D. T., & Stanley, J. C. (1966). Experimental and Quasi-experimental designs for research. Chicago: Rand McNelly.
Zurück zum Zitat Duller, C. (2019). Einführung in die Statistik mit EXCEL und SPSS (4. Aufl.). Berlin: Springer. CrossRef Duller, C. (2019). Einführung in die Statistik mit EXCEL und SPSS (4. Aufl.). Berlin: Springer. CrossRef
Zurück zum Zitat Freedman, D. (2002). From association to causation: Some remarks on the history of statistics (S. 521). Berkeley, Technical Report No: University of California. Freedman, D. (2002). From association to causation: Some remarks on the history of statistics (S. 521). Berkeley, Technical Report No: University of California.
Zurück zum Zitat Gigerenzer, G. (2002). Calculated risks. New York: Simon & Schuster. Gigerenzer, G. (2002). Calculated risks. New York: Simon & Schuster.
Zurück zum Zitat Green, P. E., Tull, D. S., & Albaum, G. (1988). Research for marketing decisions (5. Aufl.). Englewood Cliffs (NJ): Prentice Hall. Green, P. E., Tull, D. S., & Albaum, G. (1988). Research for marketing decisions (5. Aufl.). Englewood Cliffs (NJ): Prentice Hall.
Zurück zum Zitat Hastie, T., Tibshirani, R., & Friedman, J. (2011). The elements of statistical learning. New York: Springer. Hastie, T., Tibshirani, R., & Friedman, J. (2011). The elements of statistical learning. New York: Springer.
Zurück zum Zitat Pearl, J., & Mackenzie, D. (2018). The book of why – The new science of cause and effect. New York: Basic Books. Pearl, J., & Mackenzie, D. (2018). The book of why – The new science of cause and effect. New York: Basic Books.
Zurück zum Zitat Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103(2684), 677–680. CrossRef Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103(2684), 677–680. CrossRef
Zurück zum Zitat du Toit, S. H. C., Steyn, A. G. W., & Stumpf, R. H. (1986). Graphical exploratory data analysis. New York: Springer. CrossRef du Toit, S. H. C., Steyn, A. G. W., & Stumpf, R. H. (1986). Graphical exploratory data analysis. New York: Springer. CrossRef
Zurück zum Zitat Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2007). Essentials of modern business statistics with microsoft excel. Mason (OH): Thomson. Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2007). Essentials of modern business statistics with microsoft excel. Mason (OH): Thomson.
Zurück zum Zitat Field, A., Miles, J., & Field, Z. (2012). Discovering satistics Using R. London: Sage. Field, A., Miles, J., & Field, Z. (2012). Discovering satistics Using R. London: Sage.
Zurück zum Zitat Fisher, R. A. (1990). Statistical methods, experimental design, and scientific inference. Oxford: Oxford University Press. Fisher, R. A. (1990). Statistical methods, experimental design, and scientific inference. Oxford: Oxford University Press.
Zurück zum Zitat Freedman, D., Pisani, R., & Purves, R. (2007). Statistics (4. Aufl.). New York: Norton. Freedman, D., Pisani, R., & Purves, R. (2007). Statistics (4. Aufl.). New York: Norton.
Zurück zum Zitat Härdle, W. K., & Simar, L. (2015). Applied multivariate statistical analysis (4. Aufl.). Heidelberg: Springer. Härdle, W. K., & Simar, L. (2015). Applied multivariate statistical analysis (4. Aufl.). Heidelberg: Springer.
Zurück zum Zitat Sarstedt, M., & Mooi, E. (2019). A concise guide to market research: The process, data, and methods using IBM SPSS statistics (3. Aufl.). Berlin: Springer. CrossRef Sarstedt, M., & Mooi, E. (2019). A concise guide to market research: The process, data, and methods using IBM SPSS statistics (3. Aufl.). Berlin: Springer. CrossRef
Zurück zum Zitat Tukey, J. W. (1977). Exploratory data analysis. Massachusetts: Addison-Wesley. Tukey, J. W. (1977). Exploratory data analysis. Massachusetts: Addison-Wesley.
Metadaten
Titel
Einführung in die empirische Datenanalyse
verfasst von
Klaus Backhaus
Bernd Erichson
Sonja Gensler
Rolf Weiber
Thomas Weiber
Copyright-Jahr
2021
DOI
https://doi.org/10.1007/978-3-658-32425-4_1