Skip to main content

2019 | Buch

Datenqualität in Stichprobenerhebungen

Eine verständnisorientierte Einführung in die Survey-Statistik

insite
SUCHEN

Über dieses Buch

Dieses Buch beschäftigt sich mit den praktischen Fragestellungen statistischer Erhebungen (= Surveys) wie sie sich etwa in der empirischen akademischen Forschung, der offiziellen Statistik oder der kommerziellen Markt- und Meinungsforschung stellen:

Wodurch unterscheiden sich verschiedene Stichprobendesigns?Wie sind sie praktisch umzusetzen (z. B. mit der Statistik-Freeware R)?Wie lassen sich die Daten- und die Ergebnisqualität beeinflussen?Wie kompensiert man Nonresponse? Wie können nichtzufällige Stichprobenverfahren und Big Data-Analysen im Zusammenhang mit den Aufgaben der Survey-Statistik funktionieren?

Die Vermittlung des Methodenverständnisses wird unterstützt durch die verständnisorientierte Veranschaulichung der Basisideen. Diese Anschaulichkeit wird durch einfache und daher gut nachvollziehbare Beispiele gestützt.

Für die vorliegende 3. Auflage wurde das Buch vollständig überarbeitet und inhaltlich unter anderem um die Betrachtung des Spannungsfeldes zwischen Survey-Theorie und -Praxis, die Grundlagen des Simulationsansatzes der Survey-Statistik und eine Auseinandersetzung mit den sich zunehmender Beliebtheit erfreuenden nichtzufälligen Stichprobenverfahren (inklusive den damit verwandten Big Data-Generierungsprozessen) erweitert. Jedes Kapitel wird zudem durch Aufgabenstellungen ergänzt, deren Umsetzung mit der Software R angeleitet wird.

Inhaltsverzeichnis

Frontmatter
Kapitel 1. Vom Teil aufs Ganze – Einführung in die Survey-Statistik
Zusammenfassung
Kapitel 1 setzt sich mit den Grundbegriffen der Survey-Statistik auseinander. Für die Praxis wichtig ist eine Definition des Begriffs der Repräsentativität. Diese bezieht das verwendete Stichprobenverfahren genauso wie die Schätzmethode, den Stichprobenumfang und die Nichtstichprobenfehler mit ein, die zum Beispiel durch Nonresponse entstehen können. Es folgt die Formulierung der Aufgabenstellung der Survey-Statistik und die Beschreibung der Aufgaben der schließenden Statistik (Punkt- und Intervallschätzung, statistisches Hypothesentesten). Auf Basis dieser Grundlagen wird der von Horvitz und Thompson entwickelte und bei beliebigen Zufallsstichprobenverfahren einsetzbare Schätzer für die Merkmalssumme einer interessierenden Variablen mit seinen statistischen Eigenschaften eingeführt.
Andreas Quatember
Kapitel 2. Die Mutter aller Zufallsstichprobenverfahren – Die einfache Zufallsauswahl
Zusammenfassung
Die einfache oder uneingeschränkte Zufallsauswahl von Erhebungseinheiten aus einer Population ist die einfachste Vorgehensweise zur Ziehung einer Zufallsstichprobe. Sie ergibt sich durch Umsetzung des diesbezüglichen Urnenmodells in die Praxis. Systematische Auswahlen sind nur unter ganz bestimmten Bedingungen als uneingeschränkt zufällige Auswahlen aus einer interessierenden Population zu interpretieren. In diesem Kapitel werden die Formeln des bei allen Zufallsstichprobenverfahren verwendbaren Schätzers von Horvitz und Thompson für Merkmalssummen (und daraus abgeleitet für Mittelwerte, Anzahlen und Anteile), deren theoretische Varianzen und die Varianzschätzungen für einfache Zufallsauswahlen adaptiert der. Der Design-Effekt zur Darstellung der Effizienz eines Stichprobenverfahrens bei gegebener Schätzmethode im Vergleich zur Referenzstratgie mit einfacher Zufallsauswahl aufgabengerecht wird bestimmungsgemäß definiert. Ferner wird die praxisrelevante Frage des für eine Stichprobenerhebung erforderlichen Stichprobenumfangs diskutiert.
Andreas Quatember
Kapitel 3. Die Survey-Praxis – Schätzen unter Realbedingungen
Zusammenfassung
In der Survey-Praxis ist für den Gesamterhebungsfehler, der sich aus dem Stichproben- und dem Nichtstichprobenfehler zusammensetzt, auch diese zweite Komponente zu berücksichtigen. Der Fokus liegt dabei auf jenen Annahmen, die implizit getroffen werden, wenn ein Schätzer wie der Horvitz-Thompson-Schätzer verwendet wird und auf den modell-basierten statistischen Reparaturmethoden, die bei Abweichungen von diesen Annahmen zum Einsatz kommen können. Diese unter Laborbedingungen erfüllten Annahmen betreffen die verschiedenen Aspekte des Erhebungsprozesses von der Operationalisierung der Forschungsfragen, dem Auswahlrahmen für die Stichprobenziehung, dem Stichprobenverfahren, dem Antwortverhalten bis hin zum Datenverarbeitungsprozess. Insbesondere wird der Effekt einer Abweichung des angewendeten Selektionsprozesses von der im eingesetzten Schätzer durch die Vorgabe der Designgewichte impliziten diesbezüglichen Annahme diskutiert.
Andreas Quatember
Kapitel 4. Es geht auch anders – Weitere Schätzmethoden für verschiedene Populationscharakteristika
Zusammenfassung
In Kapitel 4 werden als Ergänzung zuerst mit den Verhältnis- und Regressionsschätzern Möglichkeiten diskutiert, wie durch Zuhilfenahme von Hilfsinformationen über ein anderes Merkmal die Genauigkeit der Schätzung im Vergleich zu Horvitz-Thompson-Schätzern erhöht werden kann. Ferner wird auf Methoden zur Schätzung einer Populationsgröße, der Populationsverteilung selbst oder eines Quantils davon eingegangen. Bei komplexen Stichprobendesigns sind Schätzer für die theoretischen Varianzen von Schätzern formal oft nicht oder nur sehr schwer bestimmbar. In solchen Fällen kann man auf alternative Varianzschätzungen ausweichen. Neben der Taylorlinearisierung sind Resamplingverfahren eine computerintensive Möglichkeit dazu. Mit der Bootstrapmethode wird ein solches Verfahren vorgestellt, das auf den Simulationsansatz in der Survey-Statistik basiert.
Andreas Quatember
Kapitel 5. Zerlegen macht’s genauer – Die geschichtete einfache Zufallsauswahl
Zusammenfassung
Die geschichteten einfachen Zufallsauswahlen bedienen sich einfacher Zufallsauswahlen aus jeder von vorab definierten Schichten der Population. Dazu sind die Formeln für den Horvitz-Thompson-Schätzer bei einfachen Zufallsauswahlen einfach in jeder der Schichten anzuwenden und diese Ergebnisse über alle Schichten aufzusummieren. Dieses Vorgehen allein garantiert allerdings noch keinen Genauigkeitsgewinn im Vergleich zu einfachen Zufallsauswahlen gleichen Umfangs. Eine in Hinblick auf die tatsächlichen Schichtgrößen proportionale Aufteilung des Gesamtstichprobenumfanges auf die Schichten in der Stichprobe jedoch kann genau dies gewährleisten. Einen noch größeren Genauigkeitsgewinn verspricht die optimale Aufteilung des Stichprobenumfanges auf die Schichten. Dafür sind jedoch zusätzlich Informationen über die Schichtstandardabweichungen des Erhebungsmerkmals nötig. Wird erst nach Vorliegen der Daten aus einer einfachen Zufallsstichprobe festgestellt, dass eine proportional geschichtete Zufallsauswahl nach dem betreffenden Merkmal einen Genauigkeitsgewinn versprochen hätte, kann man dies nachträglich noch in der Schätzphase der Erhebung berücksichtigen.
Andreas Quatember
Kapitel 6. Nahe Liegendes gemeinsam erheben reduziert Kosten – Die einfache Klumpenauswahl
Zusammenfassung
Auch für einfache Klumpenauswahlen wird – wie für geschichtete einfache Zufallsauswahlen – die Population in kleinere Teilgesamtheiten zerlegt. Diesmal jedoch werden nur einzelne der so gebildeten Klumpen von Erhebungseinheiten uneingeschränkt zufällig ausgewählt und die Erhebungseinheiten in diesen Klumpen voll erhoben. Die formalen Darstellungen des Horvitz-Thompson-Schätzers für die Merkmalssumme, seiner theoretischen Varianz und des Varianzschätzers ergeben sich direkt aus den Überlegungen zur einfachen Zufallsauswahl von Erhebungseinheiten, wenn man die Klumpen als die Erhebungseinheiten und die Merkmalssummen der Klumpen als deren Merkmalsausprägungen beim interessierenden Merkmal interpretiert. Die Genauigkeit der damit erzielten Stichprobenergebnisse leidet im Gegensatz zu einer geschichteten einfachen Zufallsauswahl natürlich unter einer eventuell auftretenden Homogenität der Merkmalsausprägungen innerhalb der Klumpen und einer Heterogenität zwischen den Klumpen. Eine bestimmte Form der Verhältnisschätzung, die als Hilfsinformation die Gesamtzahl der Erhebungseinheiten in der Population und die Größe der Stichprobenklumpen verwendet kann die Effizienz der Schätzung in einfachen Klumpenstichproben zu erhöhen.
Andreas Quatember
Kapitel 7. Nahe beisammen und doch auseinander – Die zweistufige einfache Zufallsauswahl
Zusammenfassung
Zweistufige einfache Zufallsauswahlen unterscheiden sich von herkömmlichen einfachen Klumpenauswahlen dadurch, dass innerhalb der uneingeschränkt zufällig gezogenen Klumpen keine Vollerhebung gemacht wird. Vielmehr wird in jedem gezogenen Klumpen eine einfache Zufallsauswahl an Erhebungseinheiten durchgeführt. Dadurch kommt bei den Genauigkeitsbetrachtungen neben der Komponente der Stichprobenziehung der Klumpen auch noch eine Komponente der Stichprobenziehung der Erhebungseinheiten innerhalb der Klumpen hinzu. Die Effizienz eines mit diesem Verfahren gewonnenen Schätzers für die Merkmalssumme einer Zufallsvariablen lässt sich steuern durch die Klumpenbildung. Die Genauigkeit wächst, wenn sich die Klumpenmittelwerte wenig unterscheiden und wenn die Klumpen (annähernd) gleich groß sind.
Andreas Quatember
Kapitel 8. Grenzt an Zauberei – Die größenproportionale Zufallsauswahl
Zusammenfassung
Die in Hinblick auf die Genauigkeit des Horvitz-Thompson-Schätzers optimale Wahl der Aufnahmewahrscheinlichkeiten erster Ordnung für die Elemente der Population besteht darin, sie proportional zur Größe der Merkmalsausprägungen von y des interessierenden Merkmals festzulegen. Da dies nicht möglich ist, kann die Verwendung eines mit y möglichst stark korrelierenden Hilfsmerkmals x Abhilfe schaffen. Die praktische Durchführung des Auswahlvorganges entspricht einer diesbezüglichen systematischen Abarbeitung der Erhebungseinheiten aus einem dafür notwendigerweise zufällig sortierten Auswahlrahmen. Die für diesen Fall schwierige Varianzschätzung kann unter bestimmten Voraussetzungen mit Hilfe der Theorie der Stichprobenziehung mit Zurücklegen erfolgen.
Andreas Quatember
Kapitel 9. Muss es immer Zufall sein? – Die nichtzufälligen Stichprobenverfahren
Zusammenfassung
Nichtzufällige Auswahlverfahren wie zum Beispiel die häufig eingesetzten bewussten Verfahren oder die willkürliche Auswahlen sind nicht zur Erzeugung von Stichproben geeignet, mit denen man ohne zweifelhafte Modellannahmen (z. B. bereits zum Selektionsmechanismus) schließende Statistik betreiben könnte. Große prozessgenerierte Datensätze (Big Data) unterliegen bei ihrer Verwendung im Rahmen der Aufgaben der Survey-Statistik derselben Problematik, denn sie sind in diesem Zusammenhang ebenfalls als (große) nichtzufällige Stichproben aus interessierenden Zielpopulationen zu verstehen. Das (annähernde) Zutreffen dieser Selektionsmodelle ist für die Qualität der mit diesen Daten errechneten Schätzer unabdingbar. Wenn nichtrepräsentative, aber gemessen am Erhebungszweck immerhin informative Schlussfolgerungen auf Zielpopulationen (z. B. zur Generierung interessanter Fragestellungen für weitere Studien) ausreichend sind, können auch nichtzufällige Stichproben in diesem Sinne wertvolle Beiträge in der empirischen Forschung liefern.
Andreas Quatember
Kapitel 10. Rechnen und rechnen lassen – Survey-Statistik mit der Freeware R
Zusammenfassung
In diesem Kapitel wird die Anwendung der Freeware R in der Survey-Statistik beispielhaft an verschiedenen Aufgabestellungen motiviert, welche die Buchkapitel 1 bis 8 inhaltlich begleiten. Zu diesem Zweck werden zu Beginn die ersten allgemeinen Schritte in R beschrieben und danach Vorbereitungen für die Anwendung von R in diesem Spezialgebiet der Datenwissenschaft Statistik getroffen. Für die konkreten Anwendungen wird auf https://​www.​springer.​com/​de/​book/​9783662602737 ein Datensatz als „Übungspopulation“ zur Verfügung gestellt. Die zu den Aufgabenstellungen gegebenen Anleitungen erheben weder den Anspruch vollständig, noch als einzige zielführend zu sein. Vielmehr sollen sie es ermöglichen, den Umgang mit R bei Fragestellungen der Survey-Statistik für die Survey-Praxis an einer von mehreren möglichen Vorgehensweisen kennenzulernen.
Andreas Quatember
Kapitel 11. Anhang
Zusammenfassung
Im Anhang wird zum Einen der Varianzausdruck aus Satz 13 im Abschn. 5.8 zur nachträglichen Schichtung einer ursprünglich mit einfacher Zufallsauswahl gezogenen Zufallsstichprobe hergeleitet. Zum Anderen werden die Behauptungen über die Form des Horvitz-Thompson-Schätzers für die Merkmalssumme bei zweistufiger Zufallsauswahl mit beliebiger Zufallsauswahl auf beiden Stufen des Ziehungsvorganges, seine theoretische Varianz und die Varianzschätzung aus Satz 17 in Abschn. 7.1 bewiesen.
Andreas Quatember
Backmatter
Metadaten
Titel
Datenqualität in Stichprobenerhebungen
verfasst von
Andreas Quatember
Copyright-Jahr
2019
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-662-60274-4
Print ISBN
978-3-662-60273-7
DOI
https://doi.org/10.1007/978-3-662-60274-4

Premium Partner