Skip to main content

2020 | OriginalPaper | Buchkapitel

5. Fehlende Datenwerte/Missing Values

verfasst von : Matthias-W. Stoetzer

Erschienen in: Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 2

Verlag: Springer Berlin Heidelberg

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Zusammenfassung

Der Abschn. 5.2 erläutert einige grundlegende Abgrenzungen ebenso wie die Relevanz fehlender Datenwerte. Unterschiedliche Formen von Missing Values erfordern jeweils spezielle Verfahren des Umgangs und werden daher im Abschn. 5.3 behandelt. Abschn. 5.4 stellt die wichtigsten Verfahren der Behandlung fehlender Daten knapp dar und konzentriert sich dabei auf die modernen Methoden. Die zentralen Schlussfolgerungen und praktischen Handlungsempfehlungen sind Thema des Abschn. 5.5, und 5.6 zeigt die praktische Anwendung der verschiedenen Verfahren mittels SPSS und Stata.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Fußnoten
1
Einzelne Fragen in einer Erhebung werden als „Items“ bezeichnet. Deren Fehlen ist auch von sogenannten benutzerdefinierten fehlenden Werten (User Missing Values) zu unterscheiden. Bspw. existiert im Fragebogen die Antwortkategorie „weiß nicht“ oder „sonstige“. Solche Antworten sind inhaltlich etwas anderes als fehlende Daten im obigen Sinn. Weiterhin können fehlende Antworten inhaltlich notwendig sein. Wenn ein Unternehmen bei der Frage nach Auslandsaktivitäten „Keine“ geantwortet hat, sind anschließende Fragen zum Anteil der Exporte am eigenen Umsatz und der Zahl der ausländischen Tochtergesellschaften hinfällig. Sie werden in der Fragebogengestaltung nach dem „Keine“ mit dem Hinweis „weiter mit Frage xy“ übersprungen.
 
2
Ausnahmen sind Fox (2016, S. 605–646) und Hosmer et al. (2013, S. 395–400).
 
3
Siehe bspw. Peugh und Enders (2004) für die Sozialwissenschaften und Backhaus und Blechschmidt (2009) für die BWL. Eine Ausnahme ist Vroomen et al. (2016) für die Gesundheitsökonomie. Missing Values treten in dieser Publikation insbesondere hinsichtlich Kostendaten von Krankenhäusern auf.
 
4
Die Klassifikation stammt von Rubin (1976). Allison (2002, S. 3–5) enthält eine verständliche Beschreibung, die sich in der Literatur durchgesetzt hat.
 
5
Es handelt sich um einen realen Datensatz der Bachelor-Absolventen im Fach Betriebswirtschaft der EAH Jena.
 
6
Für die nicht beobachteten sonstigen Variablen gilt dies ebenfalls. Bei einer reinen Zufallsauswahl – einem RCT – sind die Variablen im Datensatz unabhängig von anderen möglichen Einflussfaktoren (siehe Kap. 1).
 
7
Weitere Verfahren sind bspw.: Paarweiser Ausschluss, Hot-Deck-Methode, einfache und stochastische Regressionsimputation, EM (Expectation Maximization)-Schätzung, Just-Another-Variable (Dummy-Variable-Adjustment)-Ansatz. Alle diese Methoden sind den drei oben genannten unterlegen.
 
8
Zur Konsistenz und Effizienz von Koeffizientenschätzungen siehe Stoetzer (2017, S. 135).
 
9
Gleiches betrifft die Imputation mittels einer Regression (linear, logistisch usw.). Diese Methoden setzen genau einen Wert ein und firmieren daher als „Simple Imputation Methods“ (im Unterschied zur multiplen Imputation).
 
10
Die konkrete Durchführung ist nur einfach, wenn lediglich bei einer einzigen Variable fehlende Werte vorliegen. Dies war oben unterstellt worden. In der Regel gibt es aber Missing Values bei mehreren oder sogar vielen Variablen und ggf. recht vielen Beobachtungen. Wenn bei verschiedenen Variablen Daten fehlen, und dies mit komplexen Strukturen über die Beobachtungen hinweg, stellt sich die Frage, wie man bei der Imputation vorgehen soll. Eine Antwort ist, dass die fehlenden Daten bei allen Variablen simultan geschätzt werden sollten. Darüber hinaus ist die Struktur des Modells ggf. komplizierter als eine einfache lineare Regression (bspw. hierarchische geschachtelte Modelle (Mehrebenenanalysen) und autokorrelierte Zeitreihen- oder Paneldaten). Schließlich muss die Zufallskomponente in die Schätzung integriert werden. Bisher gibt es dazu keine Regressionsverfahren, die sämtliche Informationen benutzen. Zur Lösung dieser Probleme existieren nur verschiedene iterative Algorithmen, vor allem die MCMC – Markov-Chain-Monte-Carlo-Technik – und die FCS – Fully Condition Specification –, auch als MICE – Multiple Imputation Chained Equations – bezeichnet. Deren Berechnungen müssen mittels iterativer Verfahren gelöst werden, was ggf. mit weiteren mathematischen Problemen verbunden ist. Unter Umständen führen die Iterationen nicht zu einer eindeutigen Lösung (der sogenannten Konvergenz). Ausführliche Darstellungen dazu geben Allison (2002); Enders (2010); Baltes-Götz (2013); SSCC (2017) und Stata 15 (2017a). Allison (2012) vermittelt einen kurzen verständlichen Überblick.
 
11
Die Erläuterungen basieren auf der Version SPSS 25 und der Version Stata 15.
 
12
In älteren Versionen von SPSS findet sich „T-Test“, d. h. das „t“ wird großgeschrieben. In der Darstellung der Resultate steht aber weiterhin bei manchen Prozeduren „T-Test“. Auch die Wiedergaben der Ergebnisse sehen in den älteren Versionen etwas anders aus.
 
13
Zur Durchführung siehe Stoetzer (2017, Kap. 2).
 
14
Der Mersenne Twister ist ein Verfahren um (Pseudo-)Zufallszahlen zu erzeugen.
 
15
Das Modul AMOS gehört in der Regel zum Softwarepaket IBM SPSS dazu, das an den Hochschulen eingesetzt wird.
 
16
Diesen kürzen wir hier mit e ab. Er ist bei der Spezifikation einer linearen Regression der ganz rechte Term.
 
17
Weitere nützliche Werkzeuge sind das Icon „Move objects“ https://static-content.springer.com/image/chp%3A10.1007%2F978-3-662-61438-9_5/MediaObjects/485091_1_De_5_Figc_HTML.gif zur Verschiebung von Elementen des Pfaddiagramms und „Erase objects“ https://static-content.springer.com/image/chp%3A10.1007%2F978-3-662-61438-9_5/MediaObjects/485091_1_De_5_Figd_HTML.gif , mit dem wir Fehler ausradieren können.
 
18
Die prinzipielle Logik des Maximum-Likelihood-Schätzverfahrens erläutert Anhang I verbal und grafisch, d. h. ohne großen mathematischen Aufwand.
 
19
So Rudolf und Müller (2004, S. 300) und Weiber und Mühlhaus (2014, S. 229). Dies gilt aber nur asymptotisch – also in großen Stichproben (genauer dazu Arbuckle 2016, S. 31).
 
20
Eine Einschätzung des Gesamtmodells (entsprechend dem F-Test und R2 in der linearen OLS-Regression) ist nicht möglich, da AMOS für unser ML-Modell mit Mittelwerten und Konstante diese Informationen nicht berechnet (AMOS Development 2019).
 
21
Bei Verwendung nur der metrisch skalierten vier Variablen führt der Test zu keinem Resultat (aufgrund zu geringer Freiheitsgerade). Allerdings wird der Test häufig auch mit metrischen und nominalskalierten Variablen durchgeführt und interpretiert (siehe dazu im Statalist-Forum die Beiträge unter dem Stichwort „mcar test“ (https://​www.​statalist.​org/​forums/​).
 
22
Der Likelihood-Ratio-Test entspricht dem uns bekannten F-Test für das Gesamtmodell einer linearen Regression. Er basiert auf ML-Schätzungen. Anhang I Abschn. 6.2 erläutert die Vorgehensweise.
 
23
Dabei ist zu beachten, dass alle Variablen kleingeschrieben werden, da in der Prozedur SEM alle beobachteten Variablen nur so akzeptiert werden. Großgeschriebene Variablen sind hier für die sogenannten „latenten Variablen“ reserviert.
 
Literatur
Zurück zum Zitat Acock, A. C. (2005). Working with missing values. Journal of Marriage and Family, 67, 1012–1028.CrossRef Acock, A. C. (2005). Working with missing values. Journal of Marriage and Family, 67, 1012–1028.CrossRef
Zurück zum Zitat Acock, A. C. (2018). A gentle introduction to Stata (6. Aufl.). College Station: Stata Press. Acock, A. C. (2018). A gentle introduction to Stata (6. Aufl.). College Station: Stata Press.
Zurück zum Zitat Aichholzer, J. (2017). Einführung in lineare Strukturgleichungsmodelle mit Stata. Wiesbaden/New York: Springer VS. Aichholzer, J. (2017). Einführung in lineare Strukturgleichungsmodelle mit Stata. Wiesbaden/New York: Springer VS.
Zurück zum Zitat Allison, P. D. (2002). Missing data. Thousand Oaks: SAGE Publications. Allison, P. D. (2002). Missing data. Thousand Oaks: SAGE Publications.
Zurück zum Zitat Allison, P. D. (2010). Missing data. In J. D. Wright & P. V. Marsden (Hrsg.), Handbook of survey research (S. 631–657). Bingley: Emerald Publishing. Allison, P. D. (2010). Missing data. In J. D. Wright & P. V. Marsden (Hrsg.), Handbook of survey research (S. 631–657). Bingley: Emerald Publishing.
Zurück zum Zitat Allison, P. D. (2012). Handling missing data by maximum likelihood, SAS Global Forum 2012, Paper: 312-2012. 20.09.2019. Allison, P. D. (2012). Handling missing data by maximum likelihood, SAS Global Forum 2012, Paper: 312-2012. 20.09.2019.
Zurück zum Zitat Backhaus, K., & Blechschmidt, B. (2009). Fehlende Werte und Datenqualität – Eine Simulationsstudie am Beispiel der Kausalanalyse. Die Betriebswirtschaft, 69(2), 265–287. Backhaus, K., & Blechschmidt, B. (2009). Fehlende Werte und Datenqualität – Eine Simulationsstudie am Beispiel der Kausalanalyse. Die Betriebswirtschaft, 69(2), 265–287.
Zurück zum Zitat van Buuren, S. (2018). Flexible imputation of missing data (2. Aufl.). Boca Raton: Chapman and Hall/CRC. van Buuren, S. (2018). Flexible imputation of missing data (2. Aufl.). Boca Raton: Chapman and Hall/CRC.
Zurück zum Zitat Carpenter, J. R., & Kenward, M. G. (2013). Multiple imputation and its application. Chichester: Wiley. Carpenter, J. R., & Kenward, M. G. (2013). Multiple imputation and its application. Chichester: Wiley.
Zurück zum Zitat Enders, C. K. (2010). Applied missing data analysis. New York: The Guilford Press. Enders, C. K. (2010). Applied missing data analysis. New York: The Guilford Press.
Zurück zum Zitat Fox, J. (2016). Applied regression analysis & generalized linear models (3. Aufl.). Thousand Oaks: SAGE Publications. Fox, J. (2016). Applied regression analysis & generalized linear models (3. Aufl.). Thousand Oaks: SAGE Publications.
Zurück zum Zitat Graham, J. W. (2012). Missing data: Analysis and design. Heidelberg/New York: Springer. Graham, J. W. (2012). Missing data: Analysis and design. Heidelberg/New York: Springer.
Zurück zum Zitat Graham, J. W., Cumsille, P. E., & Elek-Fisk, E. (2003). Methods for handling missing data. In J. A. Schinka & W. F. Velicer (Hrsg.), Handbook of psychology: Research methods in psychology (Bd. 2, S. 87–114). New York. Graham, J. W., Cumsille, P. E., & Elek-Fisk, E. (2003). Methods for handling missing data. In J. A. Schinka & W. F. Velicer (Hrsg.), Handbook of psychology: Research methods in psychology (Bd. 2, S. 87–114). New York.
Zurück zum Zitat Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (3. Aufl.). Hoboken: Wiley. Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (3. Aufl.). Hoboken: Wiley.
Zurück zum Zitat Laaksonen, S. (2018). Survey methodology and missing data: Tools and techniques for practitioners. Berlin: Springer. Laaksonen, S. (2018). Survey methodology and missing data: Tools and techniques for practitioners. Berlin: Springer.
Zurück zum Zitat Li, C. (2013). Little’s test of missing completely at random. The Stata Journal, 13(4), 795–809.CrossRef Li, C. (2013). Little’s test of missing completely at random. The Stata Journal, 13(4), 795–809.CrossRef
Zurück zum Zitat Little, R. J. A., & Rubin, D. B. (2014). Statistical analysis with missing data (2. Aufl.). Hoboken: Wiley. Little, R. J. A., & Rubin, D. B. (2014). Statistical analysis with missing data (2. Aufl.). Hoboken: Wiley.
Zurück zum Zitat Peugh, J. L., & Enders, C. K. (2004). Missing data in educational research: A review of reporting practices and suggestions for improvement. Review of Educational Research, 74, 525–556.CrossRef Peugh, J. L., & Enders, C. K. (2004). Missing data in educational research: A review of reporting practices and suggestions for improvement. Review of Educational Research, 74, 525–556.CrossRef
Zurück zum Zitat Rubin, D. B. (1996). Multiple imputation after 18+ years. Journal of the American Statistical Association, 91(434), 473–489.CrossRef Rubin, D. B. (1996). Multiple imputation after 18+ years. Journal of the American Statistical Association, 91(434), 473–489.CrossRef
Zurück zum Zitat Rudolf, M., & Müller, J. (2004). Multivariate Verfahren. Göttingen/Bern/Toronto: Hogrefe. Rudolf, M., & Müller, J. (2004). Multivariate Verfahren. Göttingen/Bern/Toronto: Hogrefe.
Zurück zum Zitat Spieß, M. (2008). Missing-Data-Techniken: Analyse von Daten mit fehlenden Werten. Münster: LIT. Spieß, M. (2008). Missing-Data-Techniken: Analyse von Daten mit fehlenden Werten. Münster: LIT.
Zurück zum Zitat Stoetzer, M. (2017). Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung (Bd. 1). Berlin: Springer. Stoetzer, M. (2017). Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung (Bd. 1). Berlin: Springer.
Zurück zum Zitat Urban, D., & Mayerl, J. (2018). Angewandte Regressionsanalyse: Theorie, Technik und Praxis (5. Aufl.). Wiesbaden: Springer VS. Urban, D., & Mayerl, J. (2018). Angewandte Regressionsanalyse: Theorie, Technik und Praxis (5. Aufl.). Wiesbaden: Springer VS.
Zurück zum Zitat Vroomen, M., Eekhout, J. I., Dijkgraaf, M. G., van Hout, H., de Rooij, S. E., Heymans, M. W., & Bosmans, J. E. (2016). Multiple imputation strategies for zero-inflated cost data in economic evaluations: Which method works best? The European Journal of Health Economics, 17(8), 939–950. https://doi.org/10.1007/s10198-015-0734-5, Zugegriffen am 17.07.2019.CrossRef Vroomen, M., Eekhout, J. I., Dijkgraaf, M. G., van Hout, H., de Rooij, S. E., Heymans, M. W., & Bosmans, J. E. (2016). Multiple imputation strategies for zero-inflated cost data in economic evaluations: Which method works best? The European Journal of Health Economics, 17(8), 939–950. https://​doi.​org/​10.​1007/​s10198-015-0734-5, Zugegriffen am 17.07.2019.CrossRef
Zurück zum Zitat Weiber, R., & Mühlhaus, D. (2014). Strukturgleichungsmodellierung (2. Aufl.). Berlin/Heidelberg: Springer. Weiber, R., & Mühlhaus, D. (2014). Strukturgleichungsmodellierung (2. Aufl.). Berlin/Heidelberg: Springer.
Metadaten
Titel
Fehlende Datenwerte/Missing Values
verfasst von
Matthias-W. Stoetzer
Copyright-Jahr
2020
Verlag
Springer Berlin Heidelberg
DOI
https://doi.org/10.1007/978-3-662-61438-9_5