Skip to main content

2011 | Buch

Statistik

Eine interaktive Einführung

verfasst von: Hans-Joachim Mittag

Verlag: Springer Berlin Heidelberg

Buchreihe : Springer-Lehrbuch

insite
SUCHEN

Über dieses Buch

Dieses innovative Lehrbuch ist eine im Fernstudium bewährte Einführung in die Statistik. Die Online-Fassung des Buchs bietet einen direkten Zugang zu zahlreichen interaktiven Experimenten und tongestützten Animationen. Inhaltlich deckt das Werk die beschreibende und die schließende Statistik einschließlich der Wahrscheinlichkeitsrechnung ab, unterscheidet sich aber von herkömmlichen Lehrbüchern durch einen didaktischen Ansatz, der auf einem Medienmix basiert. Die Visualisierung statistischer Konzepte erfolgt auch über eine Vielzahl verständnisfördernder Grafiken. Die Relevanz der Statistik und die Notwendigkeit von Methodenkompetenz im privaten und beruflichen Alltag wird anhand von Beispielen aus unterschiedlichen Anwendungsfeldern sichtbar gemacht, z. T. mit Fotos. Das Lehrbuch enthält zahlreiche Aufgaben mit ausführlichen Lösungen sowie viele noch wenig bekannte Web-Adressen und Multimedia-Ressourcen, die ein breites Publikum ansprechen.

Inhaltsverzeichnis

Frontmatter

Beschreibende Statistik

Frontmatter
1. Statistik, Daten und statistische Methoden
Zusammenfassung
Die Statistik ist eine noch junge Wissenschaft, die alle Lebensbereiche durchdringt. Jeder von uns ist heute im Alltag mit einer Fülle von Daten und Visualisierungen von Daten konfrontiert, die uns über verschiedene Kanäle erreichen. Wenn wir morgens das Radio einschalten oder die Zeitung aufschlagen, erfahren wir etwas über die Entwicklung von Aktienkursen, über Trends auf dem Arbeitsmarkt oder über Ergebnisse der von der OECD getragenen Pisa-Studie, die auf eine vergleichende Bewertung nationaler Bildungssysteme abzielt. Abends können wir im Fernsehen die Ziehung der Lottozahlen verfolgen oder uns über den Stand des aktuellen ZDF-Politbarometers informieren. Im Internet kann man gezielt nach Daten aller Art suchen, etwa nach statistischen Informationen zur Entwicklung der Erwerbstätigkeit in Deutschland oder zu Migrationsströmen in Europa. Die Online-Präsentation von Daten wird immer benutzerfreundlicher. Dies gilt insbesondere für Daten der amtlichen Statistik – man studiere etwa die attraktiven interaktiven Anwendungen, die das Statistische Bundesamt bereitstellt oder den noch wenig bekannten Public Data Explorer von Google.
Hans-Joachim Mittag
2. Grundbegriffe der Statistik
Zusammenfassung
Wie jede Wissenschaft hat auch die Statistik ihre eigene Terminologie. Klare Begriffsbildungen sind notwendig, um den Rahmen, das Ziel und die Ergebnisse einer statistischen Untersuchung unmissverständlich zu beschreiben. Ausgangspunkt einer Untersuchung ist ein aus der Praxis oder der Forschung kommendes Problem. Die Problemlösung bedingt eine Konkretisierung des geplanten Untersuchungsablaufs. Erst nach sorgfältiger Planung kann die Erhebung, Aufbereitung und Auswertung von Daten erfolgen. In der Planungsphase gilt es z. B. festzulegen, welche Objekte Gegenstand einer Untersuchung sein sollen und welche Eigenschaften der Objekte von Interesse sind.
Hans-Joachim Mittag
3. Datengewinnung und Auswahlverfahren
Zusammenfassung
Für die empirische Überprüfung von Forschungsfragen werden Daten benötigt, d. h. beobachtete Werte eines Merkmals oder mehrerer Merkmale in einer Grund- oder Teilgesamtheit von Merkmalsträgern. Die Qualität der Aussagen, die sich aus der Analyse statistischer Daten ableiten lassen, hängt wesentlich von der Datenqualität ab. Die Vorgehensweise bei der Datengewinnung ist daher bei einer statistischen Untersuchung sorgfältig zu planen. Die Gewinnung von Daten bezeichnet man auch als Datenerhebung, während die Planung der Datengewinnung Erhebungsdesign genannt wird.
Hans-Joachim Mittag
4. Univariate Häufigkeitsverteilungen
Zusammenfassung
Bei statistischen Erhebungen werden Ausprägungen von Merkmalen erfasst und ausgewertet. Da in der Regel die Ausprägungen vieler Einzelmerkmale erhoben werden, fällt i. a. eine kaum überschaubare Fülle von Datensätzen an, die es zu charakterisieren und zu visualisieren gilt. Um auch bei großen Datenmengen eine Übersicht zu gewinnen, wird die in den Daten steckende Information unter Verwendung statistischer Kenngrößen (Lage- und Streuungsparameter) und einfacher grafischer Instrumente verdichtet. Je nachdem, ob man Daten für ein Merkmal oder für mehrere Merkmale auswertet, spricht man von univariater oder multivariater Datenanalyse. Bei letzterer steht die Analyse von Zusammenhängen zwischen Merkmalen im Vordergrund. Im Folgenden geht es erst einmal nur um die univariate Datenanalyse.
Hans-Joachim Mittag
5. Kenngrößen univariater empirischer Verteilungen
Zusammenfassung
Häufigkeitsverteilungen für ungruppierte oder gruppierte Daten vermitteln einen Eindruck von der Gestalt der Verteilung eines Datensatzes. Die Histogramme in Abbildung 4.5 zur Verteilung von Bruttoverdiensten in zwei südeuropäischen Staaten zeigen z. B., dass die Verteilung der Daten in beiden Fällen eine deutliche Asymmetrie aufweist, also eine gewisse „Schiefe“ der Verteilung zu beobachten ist. Ferner sieht man bei beiden Teilgrafiken, dass das „Zentrum“ (oder der „Schwerpunkt“) der Einkommensverteilung für Portugal im Bereich kleinerer Werte liegt und auch die „Streuung“ hier geringer ist. Die Begriffe „Zentrum“, „Schwerpunkt“, „Streuung“ oder „Schiefe“ einer Verteilung sind zunächst unscharf und bedürfen der Präzisierung. Lage- und Streuungsparameter die-nen dem Zweck, solche Befunde zu präzisieren und zu objektivieren. Es geht darum, die in einem Datensatz steckende Information zu wenigen Kenngrößen zu verdichten. Eine solche Informationsverdichtung ermöglicht eine unmissverständliche Beschreibung von Charakteristika eines Datensatzes, ist aber grundsätzlich mit Informationsverlust verbunden. So können zwei sehr unterschiedliche Datensätze einen ähnlichen Schwerpunkt oder eine vergleichbare Streuung aufweisen. Kenngrößen zur Beschreibung empirischer Verteilungen sind aber dennoch überaus wichtig. Sie liefern für einen gegebenen Datensatz nämlich wertvolle zusätzliche Informationen, die sich visuell aus der grafischen Darstellung einer empirischen Verteilung nicht immer ohne weiteres erschließen.
Hans-Joachim Mittag
6. Konzentration von Merkmalswerten
Zusammenfassung
Bei metrisch skalierten Merkmalen mit nicht-negativen Ausprägungen – z. B. Umsätze oder Marktanteile von Firmen – interessiert man sich häufig dafür, wie sich die Summe aller Merkmalswerte innerhalb einer Grundgesamtheit verteilt. Konzentration bezüglich des jeweiligen Merkmals liegt vor, wenn sich die Merkmalssumme ungleichmäßig auf die betrachteten statistischen Einheiten verteilt.
Hans-Joachim Mittag
7. Index- und Verhältniszahlen
Zusammenfassung
In den Kapiteln 4-5 wurde dargestellt, wie man empirische Verteilungen für ein Merkmal anhand von Häufigkeiten sowie anhand weniger Kenngrößen zur Charakterisierung der Lage oder Streuung beschreiben und veranschaulichen kann. Zahlen, die einen Sachverhalt quantifizieren, nennt man allgemein Maßzahlen. Wenn man zwei Maßzahlen durch Quotientenbildung miteinander verknüpft, spricht man von einer Verhältniszahl. Verhältniszahlen sollen die Vergleichbarkeit statistischer Informationen für unterschiedliche Regionen oder Zeitpunkte ermöglichen. Es wäre z. B. kaum informativ oder gar irreführend, wenn man die Schuldenlast der Bundesländer Nordrhein-Westfalen und Bremen oder die registrierten Aidsfälle in Deutschland und in Luxemburg vergliche, ohne in beiden Fällen die sehr unterschiedlichen Bevölkerungszahlen einzubeziehen.
Hans-Joachim Mittag
8. Bivariate Häufigkeitsverteilungen
Zusammenfassung
In Abschnitt 4.1 wurde beschrieben, wie man Daten für ein diskretes oder ein gruppiertes stetiges Merkmal X anhand von absoluten oder relativen Häufigkeitsverteilungen charakterisieren und grafisch präsentieren kann. In vielen Anwendungen interessiert man sich aber nicht nur für ein einziges, sondern gleichzeitig für zwei oder mehr Merkmale, für die ein Datensatz von je n Beobachtungswerten vorliegt. Diese Daten will man grafisch aufbereiten und Zusammenhänge zwischen den Merkmalen erfassen. Die folgenden Ausführungen beschränken sich auf den Fall zweier Merkmale, also auf die bivariate Datenanalyse. Als Beispiele für die gemeinsame Erhebung zweier Merkmale seien die simultane Erfassung der Merkmale „Parteipräferenz X von Wählern“ und „Geschlecht Y “ genannt oder „Jahresbruttoeinkommen X eines Arbeitnehmers“ und „Bildungsstand Y “, letzterer operationalisiert über den höchsten erreichten Bildungsabschluss einer Person. Wie man Datensätze für zwei Merkmale aufbereitet und welches Zusammenhangsmaß verwendet werden kann, hängt von der Merkmalsskalierung ab.
Hans-Joachim Mittag
9. Zusammenhangsmaße
Zusammenfassung
In Abschnitt 8.2 wurde mit (8.10) formalisiert, was unter einem fehlenden Zusammenhang für zwei nominalskalierte Merkmale X und Y zu verstehen ist, also unter empirischer Unabhängigkeit dieser Merkmale. Wenn keine Übereinstimmung festgestellt wird, also ein empirischer Zusammenhang vorliegt, will man diesen anhand eines geeigneten Zusammenhangsmaßes quantifizieren. Da diese Differenzen sowohl positiv als auch negativ sein können, sich also bei Aufsummierung ganz oder teilweise zu neutralisieren vermögen, verwendet man die Summe der quadrierten Differenzen. Wenn man diese Terme analog zu Tabelle 8.1 (innerer Bereich) in einer Tabelle mit k Zeilen und m Spalten anordnet, kann man die genannte Summe errechnen, indem man z.
Hans-Joachim Mittag

Wahrscheinlichkeitsrechnung und schließende Statistik

Frontmatter
10. Zufallsvorgänge und Wahrscheinlichkeiten
Zusammenfassung
Aus dem Alltagsleben ist jedem von uns bekannt, dass es Vorgänge gibt, deren Ergebnis vom Zufall abhängt. Man denkt vielleicht zunächst an Glücksspiele (Roulette, Würfelspiele, Ziehung der Lottozahlen), an die Entwicklung von Börsenkursen oder an Wahlergebnisse, die z. B. vom Wetter am Wahltag beeinflusst werden können. Versicherungen sind an der Abschätzung von Schadensverläufen oder der Lebenserwartung von Neugeborenen interessiert, Politikverantwortliche wollen demografische Entwicklungen prognostizieren können und Unternehmen benötigen statistische Informationen zur Quantifizierung von Marktrisiken. Die Wahrscheinlichkeitsrechnung stellt Modelle bereit, die es erlauben, den Verlauf zufallsabhängiger Prozesse abzuschätzen und von Stichproben auf Grundgesamtheiten zu schließen. Die bisher thematisierte beschreibende Statistik charakterisiert gegebene Datensätze ohne einen Rückschluss auf Eigenschaften umfassenderer Grundgesamtheiten zu vermitteln.
Hans-Joachim Mittag
11. Diskrete Zufallsvariablen
Zusammenfassung
In Kapitel 2 wurde zwischen diskreten und stetigen Zufallsvariablen unterschieden. Eine Zufallsvariable X wurde als diskret bezeichnet, wenn sie nur endlich viele, höchstens aber abzählbar unendlich viele Ausprägungen annehmen kann. Beispiele für diskrete Zufallsvariablen sind etwa die Merkmale „Augenzahl beim Wurf mit einem Würfel“ (sechs Ausprägungen) oder „Anteil der SPD-Zweitstimmen in % bei den Bundestagswahlen im Zeitraum 1990 - 2005“ (fünf Ausprägungen). Zählvariablen sind stets diskret. Als stetig gelten Zufallsvariablen, bei denen die Menge der Ausprägungen Intervalle sind. Die Anzahl der Ausprägungen ist hier nicht mehr abzählbar.
Hans-Joachim Mittag
12. Stetige Zufallsvariablen
Zusammenfassung
Die in Kapitel 11 behandelten diskreten Zufallsvariablen sind dadurch gekennzeichnet, dass man die Anzahl ihrer Ausprägungen abzählen kann. Sie haben also endlich viele Ausprägungen oder zumindest abzählbar unendlich viele Ausprägungen, die die Trägermengeder Variablen definieren. Das Zufallsverhalten einer diskreten Zufallsvariablen X mit k Ausprägungen x i (i = 1,..., k) und den Eintrittswahrscheinlichkeiten p i = P(X = x i ) lässt sich vollständig durch die in (11.1) eingeführte Wahrscheinlichkeitsfunktion f(x) beschreiben. Alternativ kann man auch die Verteilungsfunktion F(x) aus (11.2) bzw. (11.3) zur Beschreibung heranziehen, die sich durch durch Aufsummieren aller Werte ergibt, die die Wahrscheinlichkeitsfunktion bis zur Stelle x annimmt.
Hans-Joachim Mittag
13. Bivariate Verteilungen von Zufallsvariablen
Zusammenfassung
In Abschnitt 10.4 wurde der Begriff der Unabhängigkeit von Ereignissen erklärt. Zwei Ereignisse A und B gelten als unabhängig, wenn das Eintreten eines Ereignisses keinen Einfluss auf das jeweils andere Ereignis hat. Formal lässt sich Unabhängigkeit gemäß (10.16) definieren. Danach sind A und B unabhängig, wenn die Wahrscheinlichkeit P(AB) für das gleichzeitige Eintreten von A und B als Produkt der Eintrittswahrscheinlichkeiten P(A) und P(B) der Einzelereignisse darstellbar ist.
Hans-Joachim Mittag
14. Schätzung von Parametern
Zusammenfassung
In Abschnitt 3.2 wurde bereits die Ziehung von Stichproben im Kontext der beschreibenden Statistik behandelt. Es wurde dargelegt, dass man anhand von Stichprobendaten Aussagen für Merkmale in einer umfassenderen Grundgesamtheit ableiten will. Wie man diesen Brückenschlag von der Stichprobe zur Grundgesamtheit bewerkstelligen kann, wird erst im Rahmen der schließenden Statistik deutlich. Um von der Stichprobeninformation auf die Grundgesamtheit zu schließen, verwendet man hier i. d. R. Verteilungsmodelle, die das Verhalten des interessierenden Merkmals X in der Grundgesamtheit charakterisieren. Diese Modelle ermöglichen dann die Übertragung von Stichprobenergebnissen auf eine Grundgesamtheit. Da die Informationsbasis bei Verwendung von Stichproben schmaler ist als bei Erfassung der Merkmalsausprägungen aller Elemente der Grundgesamtheit, sind die aus Stichproben abgeleiteten Schlüsse natürlich nicht fehlerfrei. Bei zufälliger Auswahl der Stichprobenelemente kann man Fehlerwahrscheinlichkeiten aber unter Kontrolle halten. Es leuchtet ein, dass größere Stichproben mehr Informationen liefern und die aus ihnen abgeleiteten Schlüsse zuverlässiger sind als bei kleinen Stichproben
Hans-Joachim Mittag
15. Statistische Testverfahren
Zusammenfassung
In der Praxis der empirischen Forschung will man nicht nur Modellparameter schätzen, sondern häufig auch Hypothesen H 0 und H 1 auf der Basis von Daten überprüfen. Ausgangspunkt ist eine Fragestellung, die sich oft auf die Verteilung eines einzigen Merkmals bzw. auf eine Kenngröße der Verteilung dieses Merkmals bezieht und auf der Basis der Daten von Stichprobenbefunden geklärt werden soll. Man spricht von einem Einstichproben-Test, wenn ein Test die Information nur einer Stichprobe verwendet. Manchmal testet man auch Hypothesen, die sich auf zwei Zufallsvariablen beziehen, z. B. auf die Erwartungswerte oder Varianzen zweier Variablen X und Y. Solche Tests, die die Verteilung zweier Zufallsvariablen betreffen und die Information aus zwei Stichproben nutzen, heißen Zweistichproben-Tests. Es gibt auch Tests für k Zufallsvariablen, die mit k Stichproben arbeiten (k > 2) und entsprechend als k-Stichproben-Tests etikettiert werden.
Hans-Joachim Mittag
16. Das lineare Regressionsmodell
Zusammenfassung
Sir Francis Galton (1822 - 1911), Sohn einer wohlhabenden Quäkerfamilie und Halbcousin von Charles Darwin (1809 - 1882), war ein wissbegieriger Weltreisender und vor allem ein überaus vielseitiger Naturforscher, der u. a. Wetterdaten auswertete und Klimakarten publizierte, erstmals Verfahren zur Personenidentifikation anhand von Fingerabdrücken entwickelte und sich – mit polarisierender Wirkung – auch zu Fragen der Vererbungslehre äußerte. Er sammelte Daten, um aus diesen Zusammenhangshypothesen abzuleiten und empirisch abzusichern. Seine empirischen Arbeiten sind für mehrere Wissenschaftszweige als Pionierleistungen zu bewerten. Dies gilt insbesondere für die Statistik sowie für die Biometrie, die sich mit der Gewinnung und Auswertung von Daten an Lebewesen befasst und ein wichtiges Anwendungsfeld der Statistik darstellt.
Hans-Joachim Mittag
17. Grundzüge der Varianzanalyse
Zusammenfassung
In Abschnitt 15.5 wurde der Zweistichproben-t-Test vorgestellt. Mit diesem lassen sich für zwei normalverteilte Stichproben die in (15.26) formulierten Hypothesen überprüfen, ob es bei den beiden Gruppen Unterschiede bezüglich der Erwartungswerte gibt. Für die Stichproben wurde in Abschnitt 15.5 vorausgesetzt, dass sie unabhängig sind.
Hans-Joachim Mittag

Anhänge

Frontmatter
18. Grundzüge der Matrizenrechnung
Zusammenfassung
In der Mathematik und anderen Wissenschaften, u. a. in der Physik, der Ökonometrie, der Statistik oder auch – bei der Anwendung multivariater Verfahren – in der Psychologie, werden häufig Vektoren und Matrizen verwendet, um mathematische Sachverhalte kompakter und übersichtlicher darzustellen. Einen n Elemente umfassenden Satz x 1, x 2,...,x n reeller Zahlen kann man z. B. zu einem n-Tupel zusammenfassen. Wenn man ein solches n-Tupel von reellen Zahlen vertikal anordnet, erhält man einen Spaltenvektor, den man in Lehrbüchern meist mit einem fett gesetzten lateinischen oder griechischen Kleinbuchstaben kennzeichnet, hier z. B. x. Wenn man das n-Tupel horizontal anordnet, also eine Anordnung (x 1, x 2,...,x n ) verwendet, spricht man von einem Zeilenvektor.
Hans-Joachim Mittag
19. Tabellenanhang
Zusammenfassung
In der nachstehenden Tabelle 19.1 sind Werte F(x) der Verteilungsfunktion einer B(n, p)-verteilten Zufallsvariablen X für n = 1, 2, . . . , 20 und p = 0, 05, 0, 10, . . . , 0, 50 zusammengestellt. Man entnimmt der Tabelle z. B., dass F(x) im Falle n = 10 und p = 0, 50 für x = 3 den Wert F(3) = 0, 1719 annimmt. Dieser Wert entspricht der Summe f(0), f(1), f(2), f(3) aller Werte der Wahrscheinlichkeitsfunktion bis zur Stelle x = 3. Will man also z. B. den Wert der Wahrscheinlichkeitsfunktion f(x) für x = 3 anhand von Tabelle 19.1 errechnen, so ergibt sich dieser offenbar als Differenz F(3) – F(2) der Werte der Verteilungsfunktion, also durch f(3) = 0, 1719 – 0, 0547 = 0, 1172.
Hans-Joachim Mittag
20. Übungsaufgaben
Zusammenfassung
Ein Marktforschungsinstitut untersucht das Fernsehverhalten von Schulkindern in Deutschland. Die Untersuchung soll u. a. Aufschluss darüber geben, wie lange und zu welchen Tageszeiten Kinder durchschnittlich Fernsehen gucken und welche Sender sie bevorzugen.
Hans-Joachim Mittag
21. Lösungen zu den Übungsaufgaben
Zusammenfassung
Die Grundgesamtheit ist durch alle in Deutschland lebenden Schulkinder definiert, die Schulkinder sind die statistischen Einheiten (Merkmalsträger). Interessierende Merkmale sind hier vor allem die Dauer des täglichen Fernsehkonsums (z. B. mit den Ausprägungen „Minuten“ oder „Viertelstunden“) und der Fernsehsender (evtl. nur mit Differenzierung zwischen den Ausprägungen „privater Sender“ und „öffentlich-rechtlicher Sender“).
Hans-Joachim Mittag
22. Verzeichnisse und Internet-Ressourcen
Zusammenfassung
Die nachstehende kommentierte Lehrbuchliste soll helfen, bei Bedarf tiefer in einzelne Themenbereiche einzudringen, etwa bei Auftreten von Verständnisschwierigkeiten bei der Bearbeitung des vorliegenden Manuskripts oder bei weitergehendem persönlichen Interesse.
Hans-Joachim Mittag
Metadaten
Titel
Statistik
verfasst von
Hans-Joachim Mittag
Copyright-Jahr
2011
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-642-17846-7
Print ISBN
978-3-642-17817-7
DOI
https://doi.org/10.1007/978-3-642-17846-7