Skip to main content

1994 | Buch | 2. Auflage

EDA Explorative Datenanalyse

Einführung in die deskriptive Statistik

verfasst von: Prof.Dr. Wolfgang Polasek

Verlag: Springer Berlin Heidelberg

Buchreihe : Springer-Lehrbuch

insite
SUCHEN

Über dieses Buch

Explorative Datenanalyse (EDA), deskriptive Statistik und graphische Darstellungstechnik werden unter einem gemeinsamen Aspekt beschrieben. Dem Studenten im ersten Studienjahr soll damit bereits möglichst früh ein Überblick über die verschiedenen Typen der statistischen Modellierung geboten werden. Das Buch präsentiert resistente statistische Methoden, aber ohne deren wahrscheinlichkeitstheoretische oder induktive Begründung. An mehreren Beispielen aus den Sozial- und Wirtschaftswissenschaften wird gezeigt, wie ein deskriptiver Modellbildungsprozeß mit einfachen Mitteln möglich ist.

Inhaltsverzeichnis

Frontmatter

Einleitung

0. Einleitung
Zusammenfassung
Statistik ist eine junge Wissenschaft, die Methoden für empirisches Arbeiten entwickelt. Je nach Sichtweise lassen sich die Methoden in verschiedener Weise gliedern. Im deutschen Sprachraum war seit jeher eine Einteilung in deskriptive (beschreibende) und induktive (schliessende) Statistik beliebt. Explorative Statistik ist ein neuer Zweig von deskriptiven Methoden, der seit den frühen 70er Jahren in Amerika durch J.W. Tukey popular wurde. Angelsächsische Statistik konzentrierte sich seit jeher mehr auf induktive Methoden, und explorative Statistik scheint unter dem Motto zu stehen: Zurück zu einfachen Methoden. „Papier und Bleistift“ standen den Büchern von Tukey (1977) und Mosteller und Tukey (1977) als Pate. Neuere Entwicklungen verlagern die Exploration mehr und mehr auf den Computer, nicht zuletzt durch die rapide Entwicklung der Computergraphik und dem Bedürfnis nach explorativen multivariaten Methoden.
Wolfgang Polasek

Explorative Und Deskriptive Statistik

1. Explorative und Deskriptive Statistik
Zusammenfassung
Das Eingangszitat zeigt die erstmalige Erwähnung des Begriffs Statistik in der Wissenschaft und es stammt aus dem Buch des Göttinger Universitätsprofessor Gottfried Achenwall, in dem er das Wort Statistik in obiger Form hergeleitet hat. Die kursiv gesetzten a ’s und h’s sind eingefügt worden, um die alte und die neue Schreibweise herauszustreichen
Wolfgang Polasek

Explorative Datenanalyse

Frontmatter
2. Stamm und Blatt
Zusammenfassung
In der Sprache der Datenanalyse benutzt man das Stamm & Blatt, bzw. St&B1 (“stem and leaf”) um einen “Haufen von Daten” schnell übersichtlich darzustellen. (“Scratching down a batch of numbers”). In der Sprache der Statistik bedeutet dies: Die Verteilung eines Merkmals einer Urliste (Gesamtheit) wird semigrafisch dargestellt. Semigrafisch soll bedeuten: Keine rein grafische Umsetzung einer Verteilung, sondern mit Hilfe geschickter Anordnung der Zahlen selbst (z.B. Tabellen), wird ein grafischer Eindruck erweckt. Das St&Bl ist ein typisches abgekürztes EDA-Verfahren, das die traditionellen Verfahren, wie Histogramm und Strichlisten-Tabellen der deskriptiven Statistik, ersetzen kann (vgl. dazu auch Tabelle 2.2).
Wolfgang Polasek
3. Rangmasszahlen
Zusammenfassung
Das folgende Kapitel beschreibt die Lage einer Verteilung mit Hilfe von Rangmasszahlen, die über die Teilung der Rangliste definiert werden. Ein Charakteristikum von Rangmasszahlen ist, dass sie nicht den beobachteten Wert einer Merkmalsausprägung berücksichtigen, sondern nur deren relative Position zueinander, unabhängig von deren Abstand. Das mag nach einem etwas groben Verfahren klingen, es ist aber relativ einfach verständlich und zeichnet sich durch grosse Robustheit (Resistenz) aus. Auch die grafische Umsetzung von Rangmasszahlen ist einfach und unkompliziert. Eine theoretische Abrundung erfolgt dann später im Kapitel 10 über Lagemasse einer Verteilung. Wir beginnen mit den 3 einfachsten Typen von Rangmasszahlen, den Extremwerten, Median und Quartilen.
Wolfgang Polasek
4. Box-Plots
Zusammenfassung
Box-Plots sind eine grafische Umsetzung eines 5-Zahlenmasses (Pentagramms) Eine Verteilung wird damit einfach und anschaulich gut erfasst. Als Zeichen der zunehmenden Beliebtheit können die vielen Erweiterungen und Variationen der Box-Plot-Technik angesehen werden.
Wolfgang Polasek
5. Datentransformationen
Zusammenfassung
Wozu braucht man Datentransformationen oder „re-formierte“ Verteilungen? Um die Fehlinterpretationen (Manipulationen) von schiefen Verteilungen zu vermeiden. Einfache Transformationen sind auch ein einfach interpretierbares Mass zur Angabe der Schiefe von Verteilungen. Datentransformationen werden in der EDA häufig angewandt, weil man entweder Transformationen, die eine univariate Verteilung symmetrisch machen sucht, oder Zusammenhänge in Streudiagrammen begradigen möchte (vgl. Kapitel 6.5). Der Grund ist darin zu suchen, dass symmetrische Verteilungen einfacher zu erklären, bzw. mitzuteilen und leichter interpretierbar sind. Symmetrische Verteilungen erlauben keine Manipulationen von Lageparametern, wie Mittelwert, Median und Modalwert.
Wolfgang Polasek
6. Streudiagramme
Zusammenfassung
Die bisherigen Kapitel haben sich mit einem (bzw. univariaten) Merkmal beschäftigt, d.h. jeder Merkmalsträger besitzt eine Merkmalsausprägung. Dabei haben wir gesehen, wie man die Verteilung eines Merkmals grafisch (Box-Plot) und semi-grafisch (St&Bl, Faltungen, n-Zahlenmasse) erfassen kann, mit welchen Lage-und Streuungsparameter man sie beschreiben kann und wie man Merkmale transformiert, um sie besser verarbeiten zu können.
Wolfgang Polasek
7. Regressogramme
Zusammenfassung
Die resistente Gerade kann man auch als „3-Schnitt Median-Gerade“ (3-group resistant line, in Hoaglin et al. (1983b) S.242ff) von Streudiagrammen bezeichnen. Ihre Ursprünge sind sehr alt (Quennouille 1972 beschreibt sie schon), doch zu neuen Ehren gelangt sie in der EDA. Wie der Name schon sagt, soll diese Gerade, im Unterschied zur Durchschnittsgeraden einen grossen Bruchpunkt haben, d.h. möglichst wenig von extremen Beobachtungen beeinflusst werden. Sie ist besser als die manuelle Anpassung, aber muss zumeist über Residuendiagnose weiter verbessert werden, was zur polierten resistenten Geraden führt. Die resistente Gerade ist eine kausale Methode (vgl. Kap. 6.3) und daher gibt es je nach Einflussrichtung je eine Anpassung.
Wolfgang Polasek
8. Zeitreihen
Zusammenfassung
Zeitreihen sind Merkmale im Zeitablauf mit dem Merkmalsträger „Zeit“. Dabei kann „Zeit“ jede periodische Zeiteinheit bedeuten, wie Jahr, Monat, Stunde, etc.. Für die grafische Darstellung von Zeitreihen empfehlen sich daher kodierte Diagramme, wobei die Kodierungen (oder Codes) Symbole sein sollen, die die Periodizität der Zeitreihe erkennen lassen.
Wolfgang Polasek
9. Zweiweg-Tafeln
Zusammenfassung
Die Problemstellung von Ein-und Zweiwegtafeln sei an Hand der beiden Beispiele 9.1 und 9.2 demonstriert. Sie sind eine Verallgemeinerung von parallelen Box-Plots (vgl. Abschnitt 4.3).
Wolfgang Polasek

Deskriptive Statistik

Frontmatter
10. Lageparameter
Zusammenfassung
Dieses Kapitel gibt eine Einführung in die klassischen deskriptiven Lagemasszahlen einer (univariaten) Verteilung. Lagemasszahlen oder Lageparameter (location parameters) messen das Zentrum bzw. die ‚zentrale Tendenz‘ (central tendency) einer Verteilung. Eine Verteilung beschreibt das Auftreten der verschiedenen Merkmalsausprägungen einer Verteilung und ein Lageparameter soll eine Antwort auf die Frage geben, „Was ist denn der typische, der charakteristischte, der ‚mittlere zentrale‘ Wert einer Verteilung“, in dessen Nähe sich z.B. die meisten anderen Merkmalsausprägungen befinden.
Wolfgang Polasek
11. Streuungsmasszahlen
Zusammenfassung
Dieses Kapitel behandelt das Phänomen der Streuung einer Verteilung, auch Dispersion genannt, und diskutiert die wesentlichen Masszahlen der Streuung. Ferner werden noch die Verteilungsmasszahlen Schiefe und Wölbung besprochen.
Wolfgang Polasek
12. Korrelation
Zusammenfassung
Korrelation befasst sich mit der Messung der Stärke des Zusammenhanges zweier Merkmale. Die Formeln zur Messung der Korrelation hängen stark vom Merkmalstyp ab. Wie das Eingangszitat treffend andeutet, sind die Messung der Stärke eines Zusammenhanges, den wir statistisch als Korrelation bezeichnen, und das Konzept der Kausalität oder Ursache-Wirkung Beziehungen zwei verschiedene Sachverhalte. Viele Autoren bevorzugen daher den Begriff ‚Assoziation‘, wenn allgemein über den losen Zusammenhang von Merkmalen oder Variablen die Rede ist. Das gesamte Verhältnis von Gesetz-Empirie-Korrelation fällt in den Bereich der Wissenschaftstheorie und ist für den heutigen Stand der empirischen Wissenschaften noch nicht befriedigend erklärt.
Wolfgang Polasek
13. Ungleichheit und Konzentration
Zusammenfassung
Die Messung der Konzentration und die Streuung einer Verteilung hängen eng miteinander zusammen, die Beziehung ist jedoch eine umgekehrte: Hohe Konzentration bedeutet geringe Streuung und grosse Streuung tritt bei der Gleichverteilung, d.h. bei der kleinsten Konzentration auf. Die Fragestellung bei der Konzentrationsmessung ist die folgende: Ist die Verteilung eines Merkmals auf wenige Merkmalsträger konzentriert, oder teilt sie sich gleichmässig auf alle Merkmalsträger auf? Da die Anzahl der Merkmale, auf die sich die Konzentrationsmessung beziehen soll, in der Praxis wichtig ist, unterscheidet man zwischen relativer und absoluter Konzentration.
Wolfgang Polasek
14. Indexzahlen
Zusammenfassung
Eine der wichtigsten Indexzahlen unseres Wirtschaftslebens ist der Preisindex, der die Inflationsrate misst. Indizes sind in der Makroökonomie und Wirtschaftsstatistik weit verbreitet, und so einfach und selbstverständlich oft die Zahlen erscheinen, so komplex und umfangreich ist deren Erfassung. So kann der bekannte Konsumentenpreisindex als Spitze eines Eisberges betrachtet werden, der aus Masszahlen und Daten besteht, deren Mehrheit (zeitlich geordnete Merkmale) man nicht sieht. In diesem Kapitel werden die verschiedenen Möglichkeiten, statistische Masszahlen zu generieren, diskutiert. Obwohl die Bezeichnung „Verhältniszahlen“ der richtige statistische Oberbegriff wäre, haben wir den Titel „Indexzahlen“ gewählt, da sie die bekannteste Form von Verhältniszahlen darstellen.
Wolfgang Polasek

Grafische Techniken

Frontmatter
15. 2-Dimensionale Grafik
Darstellungen univariater Verteilungen
Zusammenfassung
In diesem Kapitel werden die gängigen grafischen Darstellungen von Verteilungen im 1-und 2-dimensionalen vorgestellt, wie sie in der deskriptiven Statistik verwendet werden. Die explorative Datenanalyse hat für univariate Merkmale die Neuerung der semi-grafischen Darstellung gebracht, d.h. einer vereinfachten grafischen Darstellung mit Hilfe von Symbolen, Buchstaben und Zahlen in Form von ‚Grafikbausteinen‘. Diese Techniken wurden im ersten Teil des Buches bei den EDA Methoden erklärt, da sie integraler Bestandteil des EDA Zuganges sind. Für 3-D Grafik kann man zwar Elemente der EDA gebrauchen, sie baut aber auf dem klassischen Konzept der grafischen Darstellungsfor-men auf.
Wolfgang Polasek
16. 3-Dimensionale Grafik
Darstellungen bivariater Verteilungen
Zusammenfassung
3-dimensionale Grafiken sind derzeit ein intensives Forschungsgebiet. Nicht zuletzt durch den enormen Fortschritt der rechenintensiven und grafischen Datenverarbeitung werden immer leichter kompliziertere mehrdimensionale Zusammenhänge darstellbarer. Dasselbe gilt für viele Datenpunkte in realer Zeit, d.h. man kann vor dem Computer interaktiv die statistisch deskriptiven Analysen durchführen.
Wolfgang Polasek
17. Projektionstechniken
Zusammenfassung
Dieses Kapitel erläutert die Grundbegriffe von Projektionen und beschreibt die drei wichtigsten Typen von Projektionen: axionometrische, Schräg-und perspektivische Projektionen.
Wolfgang Polasek
18. Postskriptum
Zusammenfassung
Diaconis (1985) gibt einen Überblick über die bisherigen Versuche die Datenanalyse theoretisch zu begründen. Finch (1979) und Mallows (1983) begannen Theorien der Datenbeschreibung zu entwickeln, die nicht auf Annahmen einer Zufallsstichprobe und zufälligen Fehlern beruht.
Wolfgang Polasek
Backmatter
Metadaten
Titel
EDA Explorative Datenanalyse
verfasst von
Prof.Dr. Wolfgang Polasek
Copyright-Jahr
1994
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-642-57889-2
Print ISBN
978-3-540-58394-3
DOI
https://doi.org/10.1007/978-3-642-57889-2