Skip to main content

2017 | OriginalPaper | Buchkapitel

7. Regression – Teil I

verfasst von : Carsten F. Dormann

Erschienen in: Parametrische Statistik

Verlag: Springer Berlin Heidelberg

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Zusammenfassung

Im Gegensatz zur Korrelation liegt bei der Regression eine Richtung vor: x führt zu y. Wir kombinieren hier also die Verteilungen aus Kapitel 3 und den Zusammenhang zweier Variablen aus Kapitel 5. Dazu brauchen wir für manche Verteilungen eine link-Funktion, die verhindert, dass Werte außerhalb des Wertebereichs der Verteilung auftreten (etwa solche <0 für die Poisson-Verteilung). Auch der Umgang mit kategorialen x wird erläutert.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Fußnoten
1
Tatsächlich kann man durch bunte Beinringe die Attraktivität von Männchen manipulieren und dadurch die Hypothese direkt testen.
 
2
Es bleibt dem Leser überlassen, ob er eine Übertragung dieser erfundenen Daten auf den Menschen für sinnvoll hält.
 
3
Diese Formel ist didaktisch so gewählt. Tatsächlich wird etwas anderes gefittet (siehe nächstes Kapitel), da wir sonst vier Parameter für drei Kategorien hätten, was nicht eindeutig definiert ist. Hier geht es nur darum zu verdeutlichen, dass y eine Funktion von kategorialen Prädiktoren sein kann.
 
4
An dieser Stelle wird in Statistikbüchern typischerweise die Methode der kleinsten Quadrate eingeführt. Da sie aus der Annahme der Normalverteilung abgeleitet ist und somit als maximum likelihood-Methode auch nur für diese gilt, werden wir darauf verzichten. Unser logisches Rahmenwerk sind Verteilungen und maximum likelihood.
 
5
Zur Erinnerung: Der Schnittpunkt mit der x-Achse ergibt sich, indem wir y = 0 setzen: \(y=ax+b=0\,\Leftrightarrow\,x=-b/a\).
 
6
Ja, dies ist eine Transformation!
 
7
Die „Verallgemeinerung“ besteht darin, dass eben verschiedene Verteilungen genutzt werden können.
 
8
Dies soll kein Sexismus sein. Man kann die Kategorie auch umbenennen und umsortieren. Es ist eigentlich noch verwirrenden, weil diese sog. „ Faktorlevel“ intern tatsächlich häufig 1 und 2 heißen, aber dann nochmals bei der Berechnung in 0 und 1 umkodiert werden.
 
9
Ein dummy ist bis heute im britischen Englisch eine menschenähnliche Puppe, wie sie in Schaufenstern, beim Schneider oder beim Auffahrtest vom TÜV eingesetzt wird. Das dummy steht also anstelle des Menschen für Tests zur Verfügung. Genauso steht eine dummy-Variable anstelle des einzelnen Faktorlevels für die Berechnung einer Regression zur Verfügung. Im amerikanischen Englisch hat dummy zusätzlich die dem Deutschen entlehnte Bedeutung des Dummis, des Dummkopfs. Diese ist hier nicht gemeint.
 
10
Deshalb ist die null deviance auch vollkommen unterschiedlich. Die null deviance bezeichnet die Variabilität in den Daten, die residual deviance die verbleibende Variabilität nach der Regression. Wir werden dies im nächsten Kapitel besser verstehen lernen.
 
11
Die historisch ersten Regressionen waren auf die Normalverteilung beschränkt. Erst das Standardwerk von McCullough und Nelder, 1989 () hat es für Nichtstatistiker auf viele Verteilungen erweitert.
 
12
Also ein Lineares Modell; für mathematische Schreibweisen und algebraische Lösung siehe Abschn. 15.​5.
 
13
Es werden im GLM nicht Varianzen modelliert, sondern eine ‘‘Abweichung’’, die als deviance bezeichnet wird. Sie entspricht jedoch den Abweichungsquadraten in der ANOVA/Regression, und ist identisch zu diesen für normalverteilte Daten (McCullough und Nelder, 1989 ). Für andere Verteilungen ist die deviance etwas komplizierter und für das Verständnis der weiteren Methoden ist ihre genaue mathematische Definition nicht wesentlich. Sie ist wie folgt definiert (\(\hat{y}\) ist der vorhergesagte Wert):
normalverteilt:
\(\sum(y_{i}-\hat{y})^{2}\)
Poisson-verteilt:
\(2\sum(y_{i}\log(y_{i}/\hat{y})-(y_{i}-\hat{y}))\)
binomial-verteilt:
\(2\sum(y_{i}\log(y_{i}/\hat{y})+(n_{i}-y_{i})\log((n_{i}-y_{i})/(n_{i}-\hat{y})))\)
gamma-verteilt:
\(2\sum(-log(y_{i}/\hat{y})+(y_{i}-\hat{y})/\hat{y})\)
reziprok-normalverteilt (inverse Gaussian):
\(\sum(y_{i}-\hat{y})^{2}/(\hat{y}^{2}y_{i})\),
wobein i in der Binomialverteilung die Anzahl Versuche für den jeweiligen Wert ist (also 1 für 0 ∕ 1 = Bernoulli-verteilte Daten). Wie man an diesen Formeln sieht, leitet sich die deviance aus den log-likelihoods der jeweiligen Verteilungen ab, genauer aus der Differenz zwischen dem tatsächlichen und dem maximalen Modell.
 
14
Für einfache Bernoulli-Modelle gibt es keinen Dispersionsparameter.
 
Metadaten
Titel
Regression – Teil I
verfasst von
Carsten F. Dormann
Copyright-Jahr
2017
Verlag
Springer Berlin Heidelberg
DOI
https://doi.org/10.1007/978-3-662-54684-0_7