Skip to main content
Top

2020 | OriginalPaper | Chapter

2. Abhängige Variablen mit begrenztem Wertebereich

Author : Matthias-W. Stoetzer

Published in: Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 2

Publisher: Springer Berlin Heidelberg

Activate our intelligent search to find suitable subject content or patents.

search-config
loading …

Zusammenfassung

In der Regressionsanalyse sind uns bisher nur metrisch skalierte abhängige Variablen begegnet. In vielen Anwendungsfällen besteht das Ergebnis (Outcome, Response) eines Daten generierenden Prozesses aber lediglich aus zwei oder mehr Zuständen (Kategorien). Begrenzte abhängige Variablen (Limited Dependent Variables) existieren immer dann, wenn die abhängige (endogene) Variable in einem Bereich liegt, der nur ganz bestimmte Werte annimmt. Abschn. 2.2 gibt eine Übersicht der verschiedenen Formen solcher Limited Dependent Variables. Die Untersuchung abhängiger Variablen mit lediglich zwei Ausprägungen ist in der empirischen Forschung häufig anzutreffen. Abschn. 2.3 erläutert daher diesen Fall ausführlicher anhand eines praktischen Beispiels. Anschließend geht Abschn. 2.4 kurz auf ordinale und multinomiale sowie Zählvariablen und spezielle Arten von beschränkten abhängigen Variablen ein. Abschn. 2.5 erläutert Schritt für Schritt die konkrete Durchführung einer binären logistischen Regression in SPSS und Stata.

Dont have a licence yet? Then find out more about our products and how to get one now:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Footnotes
1
Die Namen in der Literatur variieren. Gängige andere Bezeichnungen – neben Logit- oder Probit-Analyse – sind bspw. Discrete Response Models, Dose Response Models, Dosis-Wirkungs-Modelle.
 
2
Die Diskriminanzanalyse wird daher in der empirischen Sozialforschung von der logistischen Regression zunehmend verdrängt. Die Eingabe entsprechender Suchworte in Google Scholar erzielt im Oktober 2019 fast doppelt so viele Treffer für die „logistische Regression“ im Vergleich zur „Diskriminanzanalyse“.
 
3
Es wird vereinfachend darüber hinweggesehen, dass die Fehler u (bzw. Residuen) in den Gl. (2.1), (2.2) und (2.3) nicht identisch sind.
 
4
Der Wert e ist die Eulersche Zahl 2,718. Die Unterscheidung von einerseits den Schätzungen und andererseits den unbekannten wahren Werten bzw. Formen von P und Z werden dabei vernachlässigt.
 
5
Ein weiterer Begriff für das Chancenverhältnis ist (relatives) Risiko bzw. Risikoverhältnis (Risk Ratio oder auch Relative Risk Ratio) (so Long und Freese 2014, S. 391). Dagegen definieren andere Autoren – bspw. der medizinischen Statistik – Chancenverhältnis und Risikoverhältnis unterschiedlich (so Diaz-Quijano 2012).
 
6
Weitere hier nicht behandelte Methoden zur Überprüfung der Modellgüte sind der Pearson-Chi2-Test, die Devianz (Deviance) und die Receiver Operating Curve (ROC).
 
7
Die Logik des Likelihood-Tests erläutert Anhang I ausführlicher.
 
8
Weitere Bezeichnungs- und Abkürzungsvarianten dieses Tests sind: Modell Chi-Quadrat, Likelihood-Quotienten-Test, χ2, L2 und GM.
 
9
Dies gilt auch für das R2 der OLS-Regression. Zur begrenzten Aussagekraft des R2 siehe Stoetzer (2017, Abschn. 6.3.2).
 
10
Der Test von Nagelkerke wird auch Cragg-Uhler-Test genannt. Weitere Tests gehen bspw. auf Efron sowie McKelvey & Zavoina zurück. Außerdem sind besonders das AIC und das BIC für Modellvergleiche geeignet.
 
11
Dies, weil eine Normalverteilung statt der t-Verteilung angenommen wird.
 
12
Tatsächlich ist der z-Test in Stata der originale Wald-Test und beim Wald-Test von SPSS handelt es sich um den quadrierten z-Wert.
 
13
Ausführlicher zu diesen Effekten Cameron und Trivedi (2005, S. 467–471). Der MEM wird auch PEA (Partial Effect at the Average) genannt und der AME als APE (Average Partial Effect) bzw. „Population Averaged Effect“ bezeichnet (Greene 2018, S. 734–736). Wooldridge (2018, Kapitel 17) und Urban und Mayerl (2018, S. 405–414) sowie besonders verständlich Mood (2010) und Williams (2018) erläutern diese Verfahren.
 
14
Darüber hinaus empfehlen einige Autoren die Überprüfung der Normalverteilung der unbekannten Fehler anhand der Residuen. In der logistischen Regression sind die Fehler nicht normalverteilt sondern besitzen eine Binomialverteilung. Allerdings nähert sich diese bei genügend großen Stichproben nach dem zentralen Grenzwertsatz der Normalverteilung. Insgesamt kommt daher dieser Annahme eine Relevanz nur bei kleinen Sampeln zu (Menard 2002, S. 83; Urban Mayerl 2018, S. 426).
 
15
Bei einer sehr hohen Zahl von Beobachtungen werden auch minimale Unterschiede signifikant. Das heißt, die Signifikanz sagt noch nichts über die Relevanz (im Rahmen der OLS-Regression siehe dazu Stoetzer 2017, S. 47, 200–203). Der Pearson-Chi2-Test ist ähnlich aufgebaut und prüft ebenfalls die Nullhypothese, dass keine Differenz zwischen geschätzten und beobachteten Fällen vorliegt. Der Hosmer-Lemeshow-Test wird aber häufig als überlegenes Prüfverfahren angesehen. Hosmer et al. (1997) sowie Allison (2014) vergleichen verschiedene Testverfahren.
 
16
SPSS arbeitet in der Prozedur LOGISTIC mit allen Beobachtungen, d. h. mit Individualresiduen. Stata berücksichtigt, dass einige Beobachtungen identische Strukturen der Kovariaten aufweisen und aggregiert diese (Gruppenresiduen). Unter bestimmten Bedingungen ist die Berechnung auf aggregierter Basis vorzuziehen bzw. einige Tests setzen dies voraus, bspw. die hier nicht behandelte Devianz (Hosmer et al. 2013, S. 155). Verschiedene Warnungsmeldungen von SPSS im Output der logistischen Regressionsverfahren sind auf dieses Problem zurückzuführen. Die Prozedur NOMREG in SPSS verwendet ebenfalls Gruppenresiduen. Genauere Darstellungen finden sich bei Baltes-Götz (2012) und Hosmer et al. (2013, S. 186–202).
 
17
Die Ursache sind die erwähnten unterschiedlichen Berechnungsformeln in SPSS und Stata. Die dritte Beobachtung ist hinsichtlich der Ausprägungen der unabhängigen Variable singulär. Daher sind nur in diesem Fall die z-standardisierten Residuen von SPSS und Stata identisch.
 
18
Ausreißer mit einem großen Residuum sind nicht unbedingt einflussreiche Fälle, und umgekehrt liegen bei einflussreichen Beobachtungen nicht in jedem Fall große Residuen vor (Stoetzer 2017, Abschn. 5.6; Baltes-Götz 2012, S. 34).
 
19
Siehe Field (2018, S. 909). Halten wir uns beim Hebelwert alternativ an den von Menard (2002, S. 84) postulierten Grenzwert, lautet die Schwelle (k + 1)/N. Dies führt dann zu einem Grenzwert von 0,0048.
 
20
Die Punkte im Diagramm sind nicht einzelne Beobachtungen, sondern repräsentieren ggf. mehrere oder sogar viele Beobachtungen mit einer identischen Struktur der Kovariaten. Bspw. repräsentiert der höchste Punkt in Abb. 2.11 insgesamt 12 Passagiere.
 
21
Zum Teil wird der Begriff Overdispersion aber für die im Abschn. 2.4.1 kurz erläuterten logistischen Modelle mit ordinalen oder multinomialen abhängigen Variablen reserviert.
 
22
Eine weitere Konsequenz ist, dass die Koeffizientenschätzungen (Logits und Odds Ratios) zwischen verschiedenen Datensätzen (Stichproben) nur vergleichbar sind, wenn die unbeobachtete Heterogenität bzw. Heteroskedastie übereinstimmt. Mood (2010) und Williams (2010) sind genauere nachvollziehbare Darstellungen dieser Probleme. Wooldridge (2010, S. 599–604) erläutert die Zusammenhänge und Abwägung zwischen Normalverteilung, Heteroskedastie und Konsistenz der geschätzten Koeffizienten. Urban und Mayerl (2018, S. 430–435) enthalten eine kurze und Hosmer et al. (2013, S. 313–375) ausführliche Erläuterungen.
 
23
Die aus der linearen OLS-Regression bekannten (einfachen) robusten Standardfehler (Stoetzer 2017, Abschn. 5.2 und 5.3) helfen nach Cameron und Trivedi (2010, S. 462) nicht weiter, werden aber andererseits von Long und Freese (2014, S. 103–105) empfohlen, um Fehlspezifikationen zu identifizieren. Allerdings führt die Verwendung von clusterrobusten Standardfehlern bei zu wenigen Clustern (bspw. weniger als 15) zu fehlerhaften Resultaten (Angrist und Pischke 2009, S. 319). Nach Greene (2018, S. 744–745) ist im Einzelfall unklar, ob die Verwendung robuster Standardfehler vorteilhaft ist.
 
24
Das Problem tritt aber bei metrisch skalierten unabhängigen Variablen bezüglich der Prüfgrößen Pearson-Chi2-Test und Devianz auf, da diese auf dem Vergleich von beobachteten und erwarteten Häufigkeiten in den Zellen beruhen und bei metrisch skalierten Variablen extrem viele Zellen gebildet werden (Allison 2014, S. 5) Für die Variable Age des Titanic-Datensatzes existieren bspw. 97 verschiedene Altersstufen, da bei einer Reihe von Passagieren auch Monate erfasst sind. Bei dem oben erläuterten Hosmer-Lemeshow-Test wird das durch die Bildung von 10 Kategorien vermieden.
 
25
Die kürzeste und klarste Darstellung dazu gibt Greene (2018, S. 744–745).
 
26
Das dort beschriebene Probit-Verfahren ist (für den Sozialwissenschaftler) besonders in der deutschsprachigen Version unverständlich. Die deutschsprachige SPSS-Version verwendet bspw. den Begriff „Antwortvariable“ für den englischen Ausdruck „Response“ (im Sinne von Ergebnis, Outcome). Gemeint ist also die abhängige Variable. Der in den Sozialwissenschaften völlig missverständliche Begriff „Rücklaufquote“ ist die wörtliche Übersetzung von „Response Rate“. Der Ausdruck „Response Rate“ bezeichnet aber in der Medizin und Biostatistik die erfolgreichen Wirkungen eines Treatments (bspw. eines Krebsmedikaments). Das heißt den Anteil der Patienten, bei denen sich die Tumore nach Einnahme des Medikaments zurückgebildet haben. Mit der Rücklaufquote einer Umfrage hat dies nichts zu tun.
 
27
Es handelt sich um einen Bug der IBM SPSS Statistics Version 25.0.0. Zur Behebung des Problems existiert ein Makro. Dieser ist von der Universität Bonn downloadbar unter https://​uni-bonn.​sciebo.​de/​index.​php/​s/​yVKmXkHRUWp1eFX.
 
28
Sie entsprechen den robusten Standardfehlern der binären logistischen Regression in Stata.
 
29
Zur Prüfung restringierter (nested models) im Vergleich zu unrestringierten Modellen siehe Stoetzer (2017, Abschn. 6.3.2).
 
30
Der Pearson-Chi2-Test sollte nur verwendet werden, wenn die erwartete Anzahl von Ereignissen und die erwartete Anzahl von Beobachtungen für jede Kombination der Kovariaten mindestens 5 beträgt (Allison 2014, S. 5).
 
31
Der Box-Tidwell-Test ist auch als Makro downloadbar. Nach Eingabe von „findit boxtid“ im Feld „Command“ erhalten wir dazu eine Anleitung. Ein weiterer Test auf Fehlspezifikation ist der in Stata implementierte Linktest.
 
Literature
go back to reference Acock, A. C. (2016). A gentle introduction to Stata (5. Aufl.). College Station. Acock, A. C. (2016). A gentle introduction to Stata (5. Aufl.). College Station.
go back to reference Allison, P. D. (2014). Measures of fit for logistic regression, paper 1485-2014, SAS Global Forum. https://statisticalhorizons.com/wp-content/uploads/GOFForLogisticRegression-Paper.pdf. Zugegriffen am 23.10.2019. Allison, P. D. (2014). Measures of fit for logistic regression, paper 1485-2014, SAS Global Forum. https://​statisticalhoriz​ons.​com/​wp-content/​uploads/​GOFForLogisticRe​gression-Paper.​pdf.​ Zugegriffen am 23.10.2019.
go back to reference Angrist, J. D., & Pischke, J.-S. (2009). Mostly harmless econometrics. Princeton: Princeton University Press. Angrist, J. D., & Pischke, J.-S. (2009). Mostly harmless econometrics. Princeton: Princeton University Press.
go back to reference Backhaus, K., Erichson, B., Plinke, W., & Weiber, R. (2015). Multivariate Analysemethoden (14. Aufl.). Berlin/Heidelberg: Springer Backhaus, K., Erichson, B., Plinke, W., & Weiber, R. (2015). Multivariate Analysemethoden (14. Aufl.). Berlin/Heidelberg: Springer
go back to reference Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics – Methods and applications. Cambridge: Cambridge University Press Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics – Methods and applications. Cambridge: Cambridge University Press
go back to reference Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics using Stata, Revised Edition, College Station, Texas: Stata Press. Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics using Stata, Revised Edition, College Station, Texas: Stata Press.
go back to reference DeCarlo, L. T. (2003). Using the PLUM procedure of SPSS to fit unequal variance and generalized signal detection models. Behavior Research Methods, Instruments, & Computers, 35(1), 49–56.CrossRef DeCarlo, L. T. (2003). Using the PLUM procedure of SPSS to fit unequal variance and generalized signal detection models. Behavior Research Methods, Instruments, & Computers, 35(1), 49–56.CrossRef
go back to reference Eaton, J., & Haas, C. (1995). Titanic: Triumph and tragedy (2. Aufl.). New York/London: W. W. Norton & Company Eaton, J., & Haas, C. (1995). Titanic: Triumph and tragedy (2. Aufl.). New York/London: W. W. Norton & Company
go back to reference Field, A. (2018). Discovering statistics using SPSS (5. Aufl.). London: SAGE Publications Field, A. (2018). Discovering statistics using SPSS (5. Aufl.). London: SAGE Publications
go back to reference Fox, J. (2016). Applied regression analysis and generalized linear models. Thousand Oaks: SAGE Publications Fox, J. (2016). Applied regression analysis and generalized linear models. Thousand Oaks: SAGE Publications
go back to reference Greene, W. H. (2018). Econometric analysis (8. Aufl.). New York: Pearson Greene, W. H. (2018). Econometric analysis (8. Aufl.). New York: Pearson
go back to reference Hardin, J. W., & Hilbe, J. M. (2018). Generalized linear models and extensions (4. Aufl.). College Station: Strata Press Hardin, J. W., & Hilbe, J. M. (2018). Generalized linear models and extensions (4. Aufl.). College Station: Strata Press
go back to reference Hilbe, J. M. (2009). Logistic Regression Models. Boca Raton: CRC Press. Hilbe, J. M. (2009). Logistic Regression Models. Boca Raton: CRC Press.
go back to reference Hilbe, J. (2014). Modeling count data. Cambridge: Cambridge University Press Hilbe, J. (2014). Modeling count data. Cambridge: Cambridge University Press
go back to reference Hoetker, G. (2007). The use of logit and probit models in strategic management research: Critical issues. Strategic Management Journal, 28, 331–343.CrossRef Hoetker, G. (2007). The use of logit and probit models in strategic management research: Critical issues. Strategic Management Journal, 28, 331–343.CrossRef
go back to reference Hosmer, D. W., Hosmer, T., Le Cessie, S., & Lemeshow, S. (1997). A comparison of goodness-of-fit-tests for the logistic regression model. Statistics in Medicine, 16, 965–980.CrossRef Hosmer, D. W., Hosmer, T., Le Cessie, S., & Lemeshow, S. (1997). A comparison of goodness-of-fit-tests for the logistic regression model. Statistics in Medicine, 16, 965–980.CrossRef
go back to reference Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (3. Aufl.). Hoboken: Wiley Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (3. Aufl.). Hoboken: Wiley
go back to reference Long, J. S., & Freese, J. (2014). Regression models for categorical dependent variables using stata (3. Aufl.). College Station: Stata Press Long, J. S., & Freese, J. (2014). Regression models for categorical dependent variables using stata (3. Aufl.). College Station: Stata Press
go back to reference Menard, S. (2002). Applied logistic regression (2. Aufl.). Thousand Oaks: SAGE Publications Menard, S. (2002). Applied logistic regression (2. Aufl.). Thousand Oaks: SAGE Publications
go back to reference Mitchell, M.N. (2012). Interpreting and visualizing regression models using Stata. College Station: Stata Press. Mitchell, M.N. (2012). Interpreting and visualizing regression models using Stata. College Station: Stata Press.
go back to reference Mood, C. (2010). Logistic regression: Why we cannot do what we think we can do, and what we can do about it. European Sociological Review, 26(1), 67–82.CrossRef Mood, C. (2010). Logistic regression: Why we cannot do what we think we can do, and what we can do about it. European Sociological Review, 26(1), 67–82.CrossRef
go back to reference Norusis, M. (2011). IBM SPSS statistics 19 advanced statistical procedures companion. Upper Saddle River: Addison Wesley Norusis, M. (2011). IBM SPSS statistics 19 advanced statistical procedures companion. Upper Saddle River: Addison Wesley
go back to reference Olvera Astivia, O. L., & Zumbo, B. D. (2019). Heteroskedasticity in multiple regression analysis: What it is, how to detect it and how to solve it with applications in R and SPSS, practical assessment. Research & Evaluation, 24(1), 1–16. Olvera Astivia, O. L., & Zumbo, B. D. (2019). Heteroskedasticity in multiple regression analysis: What it is, how to detect it and how to solve it with applications in R and SPSS, practical assessment. Research & Evaluation, 24(1), 1–16.
go back to reference Stoetzer, M. (2017). Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung, Eine nichtmathematische Einführung mit SPSS und Stata. Berlin: Springer Stoetzer, M. (2017). Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung, Eine nichtmathematische Einführung mit SPSS und Stata. Berlin: Springer
go back to reference Tabachnick, B. G., & Fidell, L. S. (2019). Using multivariate statistics (7. Aufl.). Boston: Pearson Tabachnick, B. G., & Fidell, L. S. (2019). Using multivariate statistics (7. Aufl.). Boston: Pearson
go back to reference Urban, D., & Mayerl, J. (2018). Angewandte Regressionsanalyse: Theorie, Technik und Praxis (5. Aufl.). Wiesbaden: Springer VS Urban, D., & Mayerl, J. (2018). Angewandte Regressionsanalyse: Theorie, Technik und Praxis (5. Aufl.). Wiesbaden: Springer VS
go back to reference Williams, R. (2010). Fitting heterogenous choice models with oglm. The Stata Journal, 10(4), 540–567.CrossRef Williams, R. (2010). Fitting heterogenous choice models with oglm. The Stata Journal, 10(4), 540–567.CrossRef
go back to reference Williams, R. (2016). Understanding and interpreting generalized ordered logit models. The Journal of Mathematical Sociology, 40(1), 7–20.CrossRef Williams, R. (2016). Understanding and interpreting generalized ordered logit models. The Journal of Mathematical Sociology, 40(1), 7–20.CrossRef
go back to reference Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data (2. Aufl.). Cambridge: Cambridge University Press Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data (2. Aufl.). Cambridge: Cambridge University Press
go back to reference Wooldridge, J. M. (2018). Introductory econometrics – A modern approach (7. Aufl.). Boston: Cengage Learning Wooldridge, J. M. (2018). Introductory econometrics – A modern approach (7. Aufl.). Boston: Cengage Learning
Metadata
Title
Abhängige Variablen mit begrenztem Wertebereich
Author
Matthias-W. Stoetzer
Copyright Year
2020
Publisher
Springer Berlin Heidelberg
DOI
https://doi.org/10.1007/978-3-662-61438-9_2