Skip to main content
Top

2023 | OriginalPaper | Chapter

5. Logistische Regression

Authors : Klaus Backhaus, Bernd Erichson, Sonja Gensler, Rolf Weiber, Thomas Weiber

Published in: Multivariate Analysemethoden

Publisher: Springer Fachmedien Wiesbaden

Activate our intelligent search to find suitable subject content or patents.

search-config
loading …

Zusammenfassung

Bei vielen Problemstellungen in Wissenschaft und Praxis treten immer wieder die folgenden Fragen auf: Welcher von zwei oder mehreren alternativen Zuständen liegt vor oder welches Ereignis wird eintreffen? Welche Faktoren eignen sich für die Entscheidung oder Prognose und welchen Einfluss haben sie auf das Zustandekommen eines Zustandes oder Ereignisses?
Häufig geht es dabei nur um zwei alternative Zustände oder Ereignisse, z. B. hat ein Patient eine bestimmte Krankheit oder nicht? Zur Beantwortung derartiger Fragen kann die logistische Regression angewendet werden. Die logistische Regression ähnelt hinsichtlich der Problemstellung der Diskriminanzanalyse. Der für den Anwender wesentliche Unterschied zwischen den beiden Verfahren besteht darin, dass die logistische Regression direkt Wahrscheinlichkeiten für das Eintreffen der alternativen Zustände oder der Zugehörigkeiten zu den einzelnen Gruppen liefert.

Dont have a licence yet? Then find out more about our products and how to get one now:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Footnotes
1
Vgl. Hastie et al. (2011, S. 2, 300). Der Datensatz „Spambase“ enthält Informationen zu 4601 E-Mails und ist öffentlich zugänglich unter https://​archive.​ics.​uci.​edu.
 
2
Eine solche Variable wird als Bernoulli-Variable bezeichnet, und die Ereignisse können als Ergebnisse eines Bernoulli-Prozesses angesehen werden. Die sich daraus ergebende Wahrscheinlichkeitsverteilung wird als Bernoulli-Verteilung bezeichnet. Der Name geht auf Jacob Bernoulli (1656–1705) zurück. Das einfachste Beispiel für einen Bernoulli-Prozess ist der Münzwurf mit dem Erwartungswert E(Y) = π = 0,5 und der Varianz V(Y) = π(1 − π). Die Bernoulli-Verteilung ist ein Spezialfall der Binomialverteilung für N = 1 Versuche. Die Binomialverteilung resultiert aus einer Folge von N Bernoulli-Versuchen. Dementsprechend ist die Kauffrequenz (Summe der Käufe oder Käufer) binomial verteilt mit Stichprobengröße N. Mit zunehmendem N konvergiert die Binomialverteilung gegen die Normalverteilung.
 
3
Dies ist der Grund für die breite Anwendung und Bedeutung der logistischen Funktion, da sie viel einfacher zu handhaben ist als die Verteilungsfunktion der Normalverteilung, die nur als Integral ausgedrückt werden kann und daher schwer zu berechnen ist. Die logistische Funktion wurde von dem belgischen Mathematiker Pierre-Francois Verhulst (1804–1849) entwickelt, um das Bevölkerungswachstum zu beschreiben und vorherzusagen. Die Konstante e = 2,71828 ist die Euler’sche Zahl, die auch als Basis des natürlichen Logarithmus dient.
 
4
Kategoriale unabhängige Variablen müssen, wie bei der linearen Regressionsanalyse, in binäre Variablen zerlegt werden.
 
5
Im Rahmen der „Verallgemeinerten Linearen Modelle“ bildet logit(π) eine sogenannte Linkfunktion, mit deren Hilfe ein linearer Zusammenhang zwischen dem Erwartungswert einer abhängigen Variablen und der systematischen Komponente des Modells hergestellt wird. Die Logit-Verknüpfung wird insbesondere dann verwendet, wenn eine binomiale Verteilung für die abhängige Variable angenommen wird. Hierzu vgl. Agresti (2013, S. 112–122); Fox (2015, S. 418 ff.).
 
6
Auf der zu diesem Buch gehörigen Internetseite www.​multivariate.​de stellen wir ergänzendes Material zur Verfügung, um das Verstehen der Methode zu erleichtern und zu vertiefen.
 
7
Behandlungen des linearen Wahrscheinlichkeitsmodells finden sich in Agresti (2007, S. 68, 2013, S. 117); Hosmer und Lemeshow (2000, S. 5).
 
8
Diese Gruppen (Klassen) müssen von den Kategoriegruppen der abhängigen Variablen Y unterschieden werden.
 
9
Das Konzept der ROC-Kurve stammt aus der Nachrichtentechnik und wurde ursprünglich im 2. Weltkrieg zur Erkennung von Radar-Signalen bzw. feindlichen Objekten entwickelt und findet heute in vielen Wissenschaftsbereichen Anwendung. Vgl. dazu z. B. Agresti (2013, S. 224 ff.); Hastie et al. (2011, S. 313 ff.); Hosmer et al. (2013, S. 173 ff.) SPSS bietet eine Prozedur zur Erstellung von ROC-Kurven für gegebene Klassifizierungswahrscheinlichkeiten oder Diskriminanzwerte an. Die obige ROC-Kurve wurde mit Excel erstellt.
 
10
Man erhält denselben Wert auch für AUC, wenn man die Diskriminanzanalyse auf die vorliegenden Daten anwendet. Dabei kann man die ROC-Kurve alternativ auf Basis der Diskriminanzwerte oder der Klassifizierungswahrscheinlichkeiten erstellen.
 
11
Eine weitere Gefahr der „falschen Negativität“ besteht darin, dass eine kranke Person die Krankheit verbreiten kann. Die schockierend hohe Rate von „falsch-negativen“ Testergebnissen hat zur raschen Ausbreitung der COVID-19-Pandemie im Jahr 2020 beigetragen.
 
12
Das Prinzip der ML-Methode geht zurück Daniel Bernoulli (1700–1782), einem Neffen von Jakob Bernoulli. Ronald A. Fisher (1890–1962) analysierte die statistischen Eigenschaften der ML-Methode und bereitete so den Weg für ihre praktische Anwendung und Verbreitung. Sie bildet neben der KQ-Methode das wichtigste statistische Schätzprinzip.
 
13
Für die Logistische Regression kommen primär Quasi-Newton-Verfahren zur Anwendung, die recht schnell konvergieren. Diese Verfahren basieren auf der Methode von Newton zum Auffinden der Nullstelle einer Funktion. Sie benutzen zur Auffindung des Optimums die ersten und zweiten partiellen Ableitungen der LL-Funktion nach den unbekannten Parametern. Die Ableitungen werden, je nach Verfahren, unterschiedlich approximiert. Spezielle Verfahren sind die Gauss–Newton-Methode und deren Weiterentwicklung, die Newton–Raphson-Methode. Verbreitete Anwendung findet inzwischen auch die Methode der Iteratively Reweighted Least Squares (IRLS). Siehe dazu z. B. Agresti (2013, S. 149 ff.); Fox (2015, S. 431 ff.); Press et al. (2007, S. 521 ff.).
 
14
McFadden (1974) hat nachgewiesen, dass bei linearer systematischer Komponente des logistischen Modells die LL-Funktion global konvex verläuft, was die Maximierung sehr erleichtert.
 
15
Der Begriff „Odds“ wird nur im Plural verwendet. Das Konzept der Odds und ihre Nützlichkeit wurde von dem italienischen Mathematiker und Arzt Gerolano Cardano (1501–1576) beschrieben, der seinen Lebensunterhalt mit Glücksspielen aufbessern musste. In seinem „Buch über Glücksspiele“ schrieb er die erste Abhandlung über Wahrscheinlichkeiten. Die Wahrscheinlichkeitstheorie entwickelte sich erst später im 17. Jahrhundert mit den Arbeiten der Wissenschaftler Pierre de Fermat (1601–1665), Blaise Pascal (1623–1662) und Jakob Bernoulli (1655–1705).
 
16
Der Name „logit“ wurde 1944 von Joseph Berkson eingeführt, der ihn als Abkürzung für „logistische Einheit“ verwendete, in Analogie zur Abkürzung „probit“ für „Wahrscheinlichkeitseinheit“. Berkson trug stark zur Entwicklung und Popularisierung der logistischen Regression bei.
 
17
Das ist der Grund, warum das Zeichen „per definition gleich“ in Gl. (5.33) und (5.34) verwendet wurde.
 
18
Die Odds Ratios können alternativ mit (5.32) berechnet werden durch: ORm = eb2 = e1,751 = und ORw = e–b2 = e–1,751 = 0,174
 
19
Im allgemeinen Sprachgebrauch wird der Begriff Risiko mit negativen Ereignissen wie Unfällen, Krankheit oder Tod assoziiert. Hier bezieht sich der Risikobegriff auf die Wahrscheinlichkeit eines ungewissen Ereignisses.
 
20
Dies kann in so genannten Fall-Kontroll-Studien der Fall sein, bei denen die Gruppen nicht durch Zufallsstichproben gebildet werden. Die Größe der Gruppen kann also nicht für die Schätzung von Wahrscheinlichkeiten verwendet werden. Solche Studien werden oft für die Analyse seltener Ereignisse durchgeführt, z. B. in der Epidemiologie, Medizin oder Biologie. Vgl. Agresti (2013, S. 42 f.); Hosmer et al. (2013, S. 229 f.).
 
21
Daher wird in SPSS die LLR-Statistik als Chi-Quadrat bezeichnet. Zur Wahrscheinlichkeits-Ratio-Test-Statistik siehe z. B. Agresti (2013, S. 11); Fox (2015, S. 346 ff.).
 
22
Um das Verständnis des Lesers für die Grundlagen des statistischen Testens aufzufrischen, bietet Abschn. 1.​3 hierzu eine kurze Zusammenfassung.
 
23
Mit Excel lässt sich der p-Wert berechnen, indem die Funktion  CHIQU.VERT.RE(x;df) verwendet wird. Es ergibt sich CHIQU.VERT.RE(9,35;2) = 0,009.
 
24
Voraussetzung für die Chi-Quadrat-Verteilung ist, dass es sich um ineinander verschachtelte Modelle (nested models) handelt. Die Variablen eines der Modelle müssen eine Untermenge der Variablen des anderen Models bilden.
 
25
Beide Tests werden in SPSS verwendet, aber der LR-Test wird nur im NOMREG-Verfahren für die multinomiale logistische Regression verwendet, nicht aber für die binäre Logistische Regression.
 
26
Benannt nach dem ungarischen Mathematiker Abraham Wald (1902–1950). Siehe zum Wald Test auch Agresti (2013, S. 10); Hosmer et al. (2013, S. 42 ff.).
 
27
Der Grund ist, dass der Standardfehler zu groß wird, insbesondere wenn der absolute Wert des Koeffizienten groß ist. Die Wald-Statistik wird damit zu klein und der p-Wert zu groß. Siehe dazu Hauck und Donner (1977). Agresti (2013, S. 169), weist darauf hin, dass der Likelihood-Ratio-Test mehr Information nutzt als der Wald-Test und deshalb vorzuziehen ist.
 
28
Der Anwender findet alle in diesem Kapitel verwendeten Excel-Dateien auf der Internetseite zu diesem Buch www.​multivariate.​de.
 
29
Die binäre Logistische Regression kann auch mit Hilfe der SPSS-Syntax ausgeführt werden, die in Abschn. 5.4.4 in Abb. 5.42 dargestellt ist.
 
30
Eine Alternative ist, die Parameter so zu zentrieren, dass ihre Summe über die beiden Kategorien Null ist.
 
31
Für dieses Beispiel wird ein zweiter Datensatz mit 50 Beobachtungen verwendet.
 
32
In SPSS (Verfahren NOMREG) kann der Benutzer eine beliebige Kategorie als Referenzkategorie wählen und so die Quoten anhand des Baseline-Logit-Modells bestimmen. Dies geschieht im Dialogfenster durch die Option „Referenzkategorie“ und „Benutzerdefiniert“. Standardmäßig wird die letzte Kategorie G gewählt. Die Kategorie mit der niedrigsten Codierung wird gewählt, wenn der Benutzer die Kategoriereihenfolge „Absteigend“ wählt (Standard ist „Aufsteigend“).
 
33
Für X2 = 0 muss der p-Wert 1,0 betragen. Er kann jedoch nicht berechnet werden, da es für dieses Modell keine Freiheitsgrade gibt. Es dient nur dazu, das Prinzip der Berechnung zu demonstrieren. Die vorhergesagten (erwarteten) Wahrscheinlichkeiten sind hier gleich den relativen Häufigkeiten der beobachteten Werte in der jeweiligen Teilpopulation, d. h. für Männer und für Frauen.
Tab. 5.20
Berechnung des Pearson-Chi-Quadrats in der logistischen Regression
Geschlecht
i
Gruppe
Fälle
n(i)
Beobachtet
m(i,g)
prob
p(i,g)
Erwartet
e = n × p
r(i,g)2
1
2
1
Kauf
15
15
10
6
0,667
0,400
10,00
6,00
0,0
0,0
1
2
2
Nicht-Kauf
15
15
5
9
0,333
0,600
5,00
9,00
0,0
0,0
chi-square:
0,0
 
34
Für das Fallbeispiel wird der gleiche Datensatz wie auch im Fallbeispiel zur Diskriminanzanalyse (vgl. Abschn. 4.​3) verwendet, um so die Gemeinsamkeiten und Unterschiede zwischen beiden Verfahren besser verdeutlichen zu können.
 
35
Auf der zu diesem Buch gehörigen Internetseite www.​multivariate.​de stellen wir ergänzendes Material zur Verfügung, um das Verstehen der Methode zu erleichtern und zu vertiefen.
Tab. 5.21
Schokoladensorten und wahrgenommene Eigenschaften im Fallbeispiel
Schokoladensorte
Produkteigenschaften
1
Vollmilch
1
Preis
2
Espresso
2
Erfrischend
3
Keks
3
Köstlich
4
Orange
4
Gesund
5
Erdbeer
5
Bitter
6
Mango
6
Leicht
7
Cappuccino
7
Knackig
8
Mousse
8
Exotisch
9
Karamell
9
Süß
10
Nougat
10
Fruchtig
11
Nuss
  
 
36
Fehlende Werte sind ein häufiges und leider unvermeidbares Problem bei empirischen Erhebungen (z. B. weil Personen eine Frage nicht beantworten konnten oder wollten). Der Umgang mit fehlenden Werten in empirischen Studien wird in Abschn. 1.​5.​2 dieses Buches diskutiert.
 
37
Es gibt eine dritte Gruppe von Variablen, die nach Person und Alternativen variieren. Beispiele sind die subjektiv wahrgenommenen Eigenschaften, die im Fallbeispiel enthalten waren.
 
38
Logit-Choice-Modelle wurden durch die Arbeit von Daniel McFadden (1974) populär, der die Grundlagen für diese Modelle und ihre Anwendungen legte. Im Jahr 2000 gewann er den Nobelpreis für Wirtschaftswissenschaften. Abhandlungen über diese Modelle finden sich in den Büchern von Ben-Akiva und Lerman (1985); Hensher et al. (2015); Train (2009). Die Anwendungen betreffen die Nutzung von Transportalternativen (z. B. Auto, Straßenbahn, Bus, Fahrrad, zu Fuß (Mc Fadden, 1974) oder Marktdaten von Scanner-Panels (z. B. Guadagni & Little, 1983; Jain et al., 1994).
 
39
SPSS enthält kein spezielles Verfahren für die Logit-Choice-Analyse. Für die Berechnung kann jedoch das Verfahren COXREG für Cox-Regression verwendet werden.
 
40
Die Diskriminanzanalyse unterstellt, dass die unabhängigen Variablen multivariat normalverteilt sind, während die LRA davon ausgeht, dass die abhängige Variable einer binomialen oder multinomialen Verteilung folgt.
 
Literature
go back to reference Agresti, A. (2007). An Introduction to Categorical Data Analysis (2. Aufl.). Wiley. Agresti, A. (2007). An Introduction to Categorical Data Analysis (2. Aufl.). Wiley.
go back to reference Agresti, A. (2013). Categorical data analysis. Wiley. Agresti, A. (2013). Categorical data analysis. Wiley.
go back to reference Ben-Akiva, M., & Lerman, S. (1985). Discrete choice analysis. MIT Press. Ben-Akiva, M., & Lerman, S. (1985). Discrete choice analysis. MIT Press.
go back to reference Fox, J. (2015). Applied regression analysis and generalized linear models. Sage. Fox, J. (2015). Applied regression analysis and generalized linear models. Sage.
go back to reference Gigerenzer, G. (2002). Calculated risks. How to know when numbers deceive you. Simon Schuster. Gigerenzer, G. (2002). Calculated risks. How to know when numbers deceive you. Simon Schuster.
go back to reference Guadagni, P., & Little, J. (1983). A logit model of brand choice calibrated on scanner data. Marketing Science, 2(3), 203–238. Guadagni, P., & Little, J. (1983). A logit model of brand choice calibrated on scanner data. Marketing Science, 2(3), 203–238.
go back to reference Hastie, T., Tibshirani, R., & Friedman, J. (2011). The elements of statistical learning. Springer. Hastie, T., Tibshirani, R., & Friedman, J. (2011). The elements of statistical learning. Springer.
go back to reference Hauck, W., & Donner, A. (1977). Wald’s test as applied to hypotheses in logit analysis. Journal of the American Statistical Association, 72, 851–853. Hauck, W., & Donner, A. (1977). Wald’s test as applied to hypotheses in logit analysis. Journal of the American Statistical Association, 72, 851–853.
go back to reference Hensher, D., Rose, J., & Greene, W. (2015). Applied choice analysis. Cambridge University Press. Hensher, D., Rose, J., & Greene, W. (2015). Applied choice analysis. Cambridge University Press.
go back to reference Hosmer, D., & Lemeshow, S. (2000). Applied logistic regression. Wiley. Hosmer, D., & Lemeshow, S. (2000). Applied logistic regression. Wiley.
go back to reference Hosmer, D., Lemeshow, S., & Sturdivant, R. (2013). Applied logistic regression. Wiley. Hosmer, D., Lemeshow, S., & Sturdivant, R. (2013). Applied logistic regression. Wiley.
go back to reference Jain, D., Vilcassim, N., & Chintagunta, P. (1994). A random-coeffcients logit brand-choice model applied to panel data. Journal of Business & Economic Statistics, 13(3), 317–326. Jain, D., Vilcassim, N., & Chintagunta, P. (1994). A random-coeffcients logit brand-choice model applied to panel data. Journal of Business & Economic Statistics, 13(3), 317–326.
go back to reference James, G., Witten, D., Hastie, T., & Tibshirani, R. (2014). An introduction to statistical learning. Springer. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2014). An introduction to statistical learning. Springer.
go back to reference Lim, T., Loh, W., & Shih, Y. (2000). A comparison of predicting accuracy, complexity, and training time of thirty-three old and new classification algorithms. Machine Learning, 40(3), 203–229. Lim, T., Loh, W., & Shih, Y. (2000). A comparison of predicting accuracy, complexity, and training time of thirty-three old and new classification algorithms. Machine Learning, 40(3), 203–229.
go back to reference Louviere, J., Hensher, D., & Swait, J. (2000). Stated choice methods. Cambridge University Press. Louviere, J., Hensher, D., & Swait, J. (2000). Stated choice methods. Cambridge University Press.
go back to reference McFadden, D. (1974). Conditional logit analysis of qualitative choice behavior. In P. Zarembka (Hrsg.), Frontiers in econometrics, 40 (S. 105–142). Academic. McFadden, D. (1974). Conditional logit analysis of qualitative choice behavior. In P. Zarembka (Hrsg.), Frontiers in econometrics, 40 (S. 105–142). Academic.
go back to reference Menard, S. (2002). Applied logistic regression analysis (S. 106). Sage-University Paper. Menard, S. (2002). Applied logistic regression analysis (S. 106). Sage-University Paper.
go back to reference Michie, D., Spiegelhalter, D., & Taylor, C. (1994). Machine learning, neural and statistical classification. Ellis Horwood Limited. Michie, D., Spiegelhalter, D., & Taylor, C. (1994). Machine learning, neural and statistical classification. Ellis Horwood Limited.
go back to reference Morrison, D. (1969). On the interpretation of discriminant analysis. Journal of Marketing Research, 6(2), 156–163. Morrison, D. (1969). On the interpretation of discriminant analysis. Journal of Marketing Research, 6(2), 156–163.
go back to reference Pearl, J., & Mackenzie, D. (2018). The Book of Why. The new science of cause and effect. Basic Books. Pearl, J., & Mackenzie, D. (2018). The Book of Why. The new science of cause and effect. Basic Books.
go back to reference Press, W., Flannery, B., Teukolsky, S., & Vetterling, W. (2007). Numerical recipes – The art of scientific computing. Cambridge University Press. Press, W., Flannery, B., Teukolsky, S., & Vetterling, W. (2007). Numerical recipes – The art of scientific computing. Cambridge University Press.
go back to reference Train, K. (2009). Discrete choice methods with simulation. Cambridge University Press. Train, K. (2009). Discrete choice methods with simulation. Cambridge University Press.
go back to reference Hair, J., Black, W., Babin, B., & Anderson, R. (2010). Multivariate data analysis. Pearson. Hair, J., Black, W., Babin, B., & Anderson, R. (2010). Multivariate data analysis. Pearson.
go back to reference Corporation, I. B. M. (2017). IBM SPSS regression 27. Corporation, I. B. M. (2017). IBM SPSS regression 27.
go back to reference McCullagh, P., & Nelder, J. (1989). Generalized linear models. Chapman and Hall. McCullagh, P., & Nelder, J. (1989). Generalized linear models. Chapman and Hall.
Metadata
Title
Logistische Regression
Authors
Klaus Backhaus
Bernd Erichson
Sonja Gensler
Rolf Weiber
Thomas Weiber
Copyright Year
2023
DOI
https://doi.org/10.1007/978-3-658-40465-9_5