In diesem anwendungsorientierten Lehrbuch werden kompakt alle elementaren statistischen Verfahren für die Ökonomie anschaulich erklärt. Der leicht verständliche Text ist mit vielen Beispielen und Übungen ergänzt. Die praxisnahe Darstellung der Methoden wird durch die Erklärung und Anwendung der Statistikprogramme R (Open-Source-Progamm) und SPSS vervollständigt. Im Text sind für beide Programme viele Programmanweisungen enthalten. Zielgruppe sind insbesondere wirtschaftswissenschaftlich orientierte Studierende.
Für die 4. Auflage wurde das Buch überarbeitet und ergänzt. Leser des gedruckten Buchs erhalten nun in der Springer Nature Flashcards-App zusätzlich kostenfreien Zugriff auf 99 exklusive Lernfragen, mit denen sie ihr Wissen überprüfen können.
Im Buch sind Anweisungen zur Verwendung der Statistikprogramme R und SPSS enthalten. Sie zeigen wie die Berechnungen zum jeweiligen Thema durchgeführt werden können.
Ohne Daten ist keine statistische Analyse möglich. Zur anschaulichen und realistischen Beschreibung der hier eingesetzten statistischen Verfahren werden die Schlusskurse der BMW Aktie (Börsenplatz Frankfurt) vom 09.08. bis 16.11.04 als Grundlage verwendet. Sie stammen von der Internetseite des Handelsblattes.
Die Grundbegriffe der Statistik dienen dazu, dass das Vokabular und die Symbole festzulegen, um Beobachtungen zu beschreiben. Ferner wird in den Grundlagen auf die Datenerhebung, die Messbarkeit sowie auf die Wechselwirkung zwischen Realität und Fiktion eingegangen.
Die Datenanalyse beginnt häufig damit, dass die Werte in einer einfachen Abbildung dargestellt werden. Im Fall von zeitlich geordneten metrischen Daten ist dies eine Verlaufsgrafik. Liegen keine zeitlich geordneten metrischen Werte vor, so ist natürlich ein anderer Grafiktyp zu wählen z. B. ein Balkendiagramm.
Die Häufigkeitsfunktion ist eine der einfachsten statistischen Funktionen. Sie zählt Merkmalswerte gleicher Ausprägungen zusammen. Sie ist die Grundlage für viele statistischen Analysen und liefert wichtige Informationen über die Verteilung der Stichprobe.
Einer der nächsten Analyseschritte ist oft die Berechnung des arithmetischen Mittels (synonym: Durchschnitt), sofern metrische Werte vorliegen. Die Bedeutung des arithmetischen Mittels resultiert aus seiner Verwendung in der Wahrscheinlichkeitsrechnung und der Normalverteilung.
Die Kenntnis über einige Werte und das Zentrum einer Verteilung geben in den meisten Fällen nur eine unvollständige Vorstellung über die gesamte Verteilung. Eine Grafik zeigt häufig sehr viel besser die Verteilung der Werte. Daher werden in den folgenden Abschnitten einige grafische Darstellungen einer Verteilung erklärt.
Neben dem Zentrum, hier durch Mittelwert und Median beschrieben, ist auch die Streuung der Werte von Interesse. Mit der Varianz, der Standardabweichung und dem Variationskoeffizienten wird die Streuung der Werte durch eine Zahl gemessen.
Mit der Lorenzkurve und dem Gini-Koeffizienten wird eine Konzentrationsmessung vorgenommen. Damit eine Konzentrationsmessung sinnvoll interpretierbar ist, müssen die beobachteten Werte in der Summe interpretierbar sein. Das Merkmal muss extensiv messbar sein.
Eine relative Änderung von Werten beschreibt eine Entwicklung. Die relative wird häufig auch als Wachstumsrate bezeichnet. Werden relative Änderungen von Geldwerten betrachtet, so spricht man von einer Rendite.
Indexzahlen sind oft die Grundlage zur Beschreibung wirtschaftlicher Entwicklungen wie z. B. der Entwicklung des Preisniveaus von Konsumgütern oder von Aktien.
Das Simpson Paradoxon beschreibt das Phänomen, dass sich Präferenzen in einer Teilmenge bei Zusammenlegung dieser umkehren können. Präferenzen können hier höhere Mittelwerte oder höhere Anteilswerte bestimmter Merkmalsausprägungen sein, aufgrund derer eine Entscheidung getroffen wird. Am besten erklärt sich das Phänomen an Hand von Beispielen.
Mit den folgenden grafischen Darstellungen wird die Verteilung von zwei Merkmalen analysiert. Der QQ-Plot ist eine Grafik um zwei Verteilungen miteinander zu vergleichen. Das Streuungsdiagramm hingegen ist eine einfache Darstellung, um die eine gegenseitige Abhängigkeit der Wertepaare auf zu zeigen. Mit dem bivariaten Boxplot (oder Relplot) wird ein Streuungsdiagramm um Streuungsellipsen erweitert, um.
Mit der Kovarianz und dem Korrelationskoeffizienten können zwei Merkmale gemeinsam untersucht werden. Sie messen einen statistischen Zusammenhang zwischen den Merkmalen.
Die lineare Regressionsanalyse ist ein statistisches Verfahren, um die Abhängigkeiten einer Variablen y von einer Variablen \(x_1\) oder mehreren Variablen \(x_1, \ldots , x_k\) zu modellieren.
Die Residuen sollten keine Systematik enthalten. Dies wird durch die Bedingungen, dass die Residuen einen Erwartungswert von Null\(\mathrm {E}(u_i)=0\) besitzen, nicht voneinander abhängen (fehlende Autokorrelation), eine konstante Varianz aufweisen (Homoskedastizität) und eine Normalverteilung besitzen statistisch formuliert. Die Annahmen sind in einer Regressionsanalyse zu überprüfen.
Die diskrete Wahrscheinlichkeitsrechnung bezieht sich auf abzählbare Ereignisse. Sie ist die Grundlage für die Wahrscheinlichkeitsrechnung. Mit der Mengenlehre werden Wahrscheinlichkeitsoperationen festgelegt. Die Kolmogorovschen Axiome fassen Regeln zur Berechnung von Wahrscheinlichkeiten zusammen. Der Begriff der Wahrscheinlichkeit bleibt dabei unpräzise und nicht definiert. Der Satz von Bayes liefert eine wichtige Erkenntnis über bedingte Wahrscheinlichkeiten und die Interpretation eines statistischen Tests.
Eine ZufallsvariableX transformiert ein Ereignis A in eine reelle Zahl. Der Wert der Zufallsvariablen hängt vom Ausgang des Zufallsexperiments ab. Das Ereignis A (häufig verbal formuliert wird gerade/ungerade Zahl, Alter einer Person) wird auf eine reelle Zahl abgebildet, damit gängige mathematische Operationen möglich sind.
Die Normalverteilung ist eine stetige Verteilung. Ihre besondere Bedeutung liegt darin, dass sie eine Grenzverteilung für viele stochastische Prozesse ist. Diese Eigenschaft ist in Grenzwertsätzen erfasst.
Die Binomialverteilung beschreibt die Wahrscheinlichkeit für eine Anzahl von Erfolgen in einer vorgegeben Anzahl von Zufallszügen aus einer Menge mit Zurücklegen. Die hypergeometrische Verteilung hingegen misst die Wahrscheinlichkeit, wenn die gezogenen Elemente nicht zurückgelegt werden. Mit der geometrischen Verteilung wird die Wahrscheinlichkeitsverteilung für die Anzahl der Versuche beschrieben bis der erste Erfolg eintritt. Und die Poissonverteilung misst die Wahrscheinlichkeit für die Anzahl von x Erfolgen in einer festen Zeitspanne. Die Wahrscheinlichkeit für eine Zeit bis zum nächsten Ereignis wird mit der Exponentialverteilung erfasst.
Bereits im vorhergehenden Abschnitt haben wir die unbekannten Erwartungswerte und Varianzen aus einer Stichprobe berechnet. Wir haben dazu die bereits bekannten Formeln für den Mittelwert und die empirische Varianz verwendet. Werden die aus der Stichprobe berechneten Maßzahlen Mittelwert und empirische Varianz als Werte für die unbekannten Parameter Erwartungswert und Varianz angesehen, dann handelt es sich um den Vorgang einer Schätzung. Es können nicht nur Erwartungswert und Varianz geschätzt werden, sondern alle möglichen Maßzahlen einer statistischen Verteilung.
Es wird im Folgenden angenommen, dass die Zufallsvariablen \(X_1 , \ldots , X_n\) unabhängig voneinander und identisch verteilt (engl. i. i. d. = independently identically distributed) sind. Dies ist eine wichtige Voraussetzung für die Gültigkeit der folgenden Aussagen.
In den folgenden beiden Kapiteln werden die Grundlagen der induktiven Statistik erläutert. Sie führt die deskriptive Statistik und Regression auf der einen Seite und der Wahrscheinichkeitstheorie auf der anderen Seite zusammen. Mit der induktiven Statistik wird aus dem Speziellen, der Stichprobe, auf das Allgemeine, die Grundgesamtheit, mittels der Wahrscheinlichkeitstheorie geschlossen.
Der statistische Test und das Konfidenzintervall beruhen auf den gleichen statistischen Prinzipien und sind Teil der induktiven Statistik. Bei einem statistischen Test wird ein Hypothesenpaar, bestehend aus einer Nullhypothese \(H_0\) und einer Alternativhypothese \(H_1\), anhand einer statistischen Verteilung überprüft.
Die Varianzanalyse (Anova) ist ein Verfahren, das die Wirkung einer oder mehrerer unabhängiger Variablen auf eine oder mehrere abhängige Variablen hin untersucht. Wie in der Regressionsanalyse, die einen gerichteten Erklärungszusammenhang in der Regel über metrische Variablen herstellt, formuliert auch die Varianzanalyse einen solchen Zusammenhang, allein mit dem Unterschied, dass die erklärenden Variablen nominal skaliert sind. Die unabhängigen Variablen werden in der Varianzanalyse als Faktoren bezeichnet; die einzelnen (Merkmals-) Ausprägungen als Faktorstufen.
In diesem Abschnitt wird die Analysetechnik für eine zweidimensionale kategoriale Verteilung beschrieben. Kategoriale Daten sind Daten, die in der Regel nur der Art nach unterschieden werden können. Handelt es sich um ein ordinales Messniveau, so sind diese auch der Größe nach sortiertbar, jedoch ohne metrischen Abstand.
Die Kleinst-Quadrate Regression hat den Nachteil, dass Werte, die eine große Abweichung zum Mittelwert aufweisen, einen überproportionalen Einfluss auf das Regressionsergebnis ausüben (Abschn. 16.4, Hebelwerte und Abb. 28.1). Dies liegt an der quadratischen Schätzfunktion. Die Quantilsregression ist gegenüber Extremwerten in der Stichprobe unempfindlicher (robuster), aber mit dem Nachteil verbunden, dass keine Formel wie bei dem Kleinst-Quadrate Ansatz zur Berechnung der Parameter existiert.