nach oben

Erschienen in:

2017 | OriginalPaper | Buchkapitel

11. Das Lineare Modell: $t$-Test und ANOVA

verfasst von : Carsten F. Dormann

Erschienen in: Parametrische Statistik

Verlag: Springer Berlin Heidelberg

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config

KI-gestützte Suche

Aus

Zusammenfassung

Traditionell sind normalverteilte Daten mit besonderer Aufmerksamkeit bedacht worden. Deshalb stellt dieses Kapitel den wichtigen t-Test und die Varianzanalyse vor. Beide sind Spezialfälle des bisher betrachteten GLM, wie wir hier sehen werden.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

über 102.000 Bücher
über 537 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Finance + Banking
Management + Führung
Marketing + Vertrieb
Maschinenbau + Werkstoffe
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 390 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Maschinenbau + Werkstoffe

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 340 Zeitschriften

aus folgenden Fachgebieten:

Bauwesen + Immobilien
Business IT + Informatik
Finance + Banking
Management + Führung
Marketing + Vertrieb
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Vorheriges Kapitel Regression in R – Teil II

Nächstes Kapitel Das Lineare Modell: $t$-Test und ANOVA in R

Wir betrachten auch kurz den Fall, dass σ von X abhängig ist, aber im Allgemeinen wird das beim linearen Modell ausgeblendet. Die Schreibweise $f(.)$ weist darauf hin, dass auch nicht-lineare Funktionen betrachtet werden könnten. Das werden wir aber hier nicht tun.

An dieser Stelle ist der Hinweis obligatorisch, dass „Student“ das Pseudonym von W.S. Gosset war, als er, für die Guinness-Brauerei arbeitend, den t-Test veröffentlichte. Sein Arbeitgeber betrachtete es als ein Betriebsgeheimnis, das Guinness zur Qualitätssicherung Statistik einsetzte. Gossets Mathematikerkollegen kannten aber sein Pseudonym.

Der Zentrale Grenzwertsatz stellt sicher, dass Parameterschätzer normalverteilt sind, selbst wenn die betrachtete Variablen nicht normalverteilt ist. Wenn wir also zum Beispiel den Median einer Stichprobe schätzen, so ist dieser Schätzwert mit einem gewissen Fehler versehen, da wir ja nur eine Stichprobe betrachten. Der Fehler dieses Medians ist normalverteilt, obwohl unsere Stichprobe krumm und schief sein kann!

In Libre/OpenOffice Calc etwa in der Funktion TDIST oder in Microsoft Excel in der Funktion T.VERT (auf Deutsch). Weshalb wir aber trotzdem MS Excel nicht zu statistischen Berechnungen nutzen sollten legen McCullough und Heiser, 2008 () seit Jahren immer wieder offen.

Tatsächlich ist auch die Normalverteilung in der rechten Abbildung eingezeichnet, aber eben ununterscheidbar von der t-Verteilung mit df = 500.

Siehe Abschn. 11.3.2 für eine ausführlichere Herleitung. Für den Augenblick stellen wir sie uns am besten als ein Maß dafür vor, wieviel Aufwand wir bei der Berechnung von Mittelwerten betrieben haben: je mehr Klassen, desto mehr Freiheitsgrade „verbrauchen“ wir. Ein vernünftige Erklärung muss leider warten, bis wir ANOVA und Regression nachher als zwei Seiten einer Medaille betrachten.

Der quadrierte Korrelationskoeffizient zwischen y und Modellfit $\hat{\boldsymbol{y}}$ ist nämlich genau R ². Man findet sowohl die Schreibweise r ² als auch R ² in der Literatur. Im einfachen Regressionsmodell ist $R^{2}=r^{2}$, bei nicht-linearen Modellen ist dies aber nicht mehr der Fall. Dort verliert das R ² seine klare Interpretierbarkeit, da das Nullmodell mehr nicht notwendigerweise ein Untermodell ist, und somit der Vergleich der Abweichungsquadrate sinnlos ist.

Es gibt übrigens unterschiedliche Arten, die Freiheitsgrade zu berechnen. Häufig wird z. B. davon ausgegangen, dass alle Gruppen die gleiche Anzahl Datenpunkte enthalten (sog. balanced design), was aber in realitas leider selten vorkommt. Deshalb wählen wir hier eine allgemeingültige Berechnung, die uns auch weiter unten nützlich ist, wenn wir ANOVA und Regression verbinden wollen.

Dies ist vor allem für den Abgleich mit anderer Literatur wichtig. Dort wird die ANOVA häufig nur für kategoriale Prädiktoren vorgestellt. Wie wir hier sehen, ist diese Darstellung doch etwas engstirnig.

Nun, eigentlich sollte uns das nicht überraschen. Schließlich benutzen wir in diesem Kapitel die ganze Zeit schon den F-Wert, um zu testen, ob der Prädiktor die Varianzen signifikant beeinflusst.

Übrigens führt R für diesen Datensatz auch nicht den obigen F-Test durch (in Funktion var.test), sondern gibt als Fehler: zu wenige Datenpunkte!

Wir addieren also zunächst auf alle Werte so viel, dass der kleinste Wert 0 ist. Dann schauen wir uns an, welchen Wert der nächst-größere hat, und addieren dann die Hälfte dessen auf alle Werte. Besser ist es, wenn möglich nicht die ANOVA zu benutzen, sondern beim GLM zu bleiben. Dazu später mehr (Abschn. 11.4).

Für rein positive y-Werte (also y > 0) ist die hier präsentierte Yeo-Johnson-Transformation identisch zur Box-Cox-Transformation. Die Box-Cox-Transformation funktioniert aber lediglich für positive y-Werte (und verschiebt die Werte nötigenfalls), während Yeo-Johnson auch negative Werte ohne Verschiebung angemessen transformieren. In der Originalarbeit zeigen die Autoren auch, dass ihre Transformation eine Normalverteilung häufig besser annähert (aber nie schlechter) als die Box-Cox (Yeo und Johnson, 2000 ). Der Vollständigkeit halber hier noch die original (zwei-parametrige) Box-Cox-Transformation (Box und Cox, 1964 ):

$$\displaystyle y^{\prime}=\begin{cases}((y+c)^{\lambda}-1)/\lambda,&\text{ wenn }\lambda\neq 0,\\ \log(y+c),&\text{ wenn }\lambda=0.\\ \end{cases}$$

Die Parameter λ und c (nur wenn y auch nicht-positive Werte umfasst) werden mittels log-likelihood berechnet (d. h. an eine Normalverteilung angepasst). Da wir uns mit diesen Transformationen nicht weiter beschäftigen (sie sind old school), hier noch kurz der Hinweis auf die relevanten R-Pakete: bcPower und yjPower in car; yeo.johnson in VGAM; boxcox in MASS.

Zum Beispiel: Duncan’s new multiple range-Test, Dunnett Test, Friedman-Test (nicht-parametrisch, deshalb auch für den Kruskal-Wallis-Test einsetzbar), die Scheffé-Methode, Holm-Korrektur, false discovery rate-Korrektur. Bei manchen dieser Tests (etwa dem Newman-Keuls-Test) werden die Vergleich zunächst nach der Differenz der Mittelwerte sortiert und dann einer nach dem anderen getestet. Sobald ein Unterschied nicht mehr signifikant ist, können wir abbrechen, da die Unterschiede danach noch geringer sind (und die Varianz ja überall gleich, siehe Annahme der ANOVA). Somit kommen wir mit weniger Vergleichen aus, was zu weniger konservativen Aussagen führt als die Bonferroni-Korrektur. Bei der häufig benutzen Holm-Korrektur werden zwar alle Vergleiche durchgeführt, aber dann die P-Werte sortiert und der erste Vergleich korrigiert wie bei Bonferroni, der zweite aber nur mit k − 1 multipliziert, der dritte mit k − 2 usw. Dadurch ist die Holm- weniger konservativ als die Bonferroni-Korrektur.

Analyse, ob die Einheiten auf der linken Seite der Gleichung identisch denen auf der rechten sind.

Auf der homepage des Statistikprofessors Frank Harrell (Vanderbilt University, Nashville, Tennessee) steht dieser Tip unter Philosophy of Biostatistics als dritter Punkt. Die Anderen sind auch sehr lesenswert: http://biostat.mc.vanderbilt.edu/wiki/Main/FrankHarrell.

Ein möglicher Grund ist, dass der Zusammenhang nicht linear ist, und wir einen quadratischen Term einfügen sollten: Punkt 4 auf Harrells Liste.

Titel: Das Lineare Modell: $t$-Test und ANOVA
verfasst von: Carsten F. Dormann
Verlag: Springer Berlin Heidelberg
Buch: Parametrische Statistik
Print ISBN: 978-3-662-54683-3

Electronic ISBN: 978-3-662-54684-0

Copyright-Jahr: 2017
DOI: https://doi.org/10.1007/978-3-662-54684-0_11

Springer Professional

Zusammenfassung

Bitte loggen Sie sich ein, um Zugang zu Ihrer Lizenz zu erhalten.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Springer Professional "Technik"

Springer Professional "Wirtschaft"