Skip to main content
Top

2019 | Book

Qualitätssicherung sozialwissenschaftlicher Erhebungsinstrumente

insite
SEARCH

About this book

Die Qualität sozialwissenschaftlicher Erhebungsinstrumente hat wesentlichen Einfluss auf die Belastbarkeit empirischer Schlussfolgerungen, die auf Grundlage von Umfragedaten gezogen werden. Der vorliegende Band stellt daher die Qualität von Erhebungsinstrumenten sowie Verfahren zur Bestimmung und Verbesserung ihrer Güte in den Mittelpunkt. Vertieft werden insbesondere Themen der Fragebogenkonstruktion, qualitative Techniken zum Pretesting, Ansätze zur Antwortvalidität sowie Gestaltungsfragen eines Qualitätsmanagements für Umfragen in der Praxis.
Der InhaltMessqualität und Messprobleme in der Fragebogenkonstruktion ● Qualitätssicherung durch Qualitative Techniken ● Ansätze zur Antwortvalidität ● Qualitätsmanagement in der Praxis
Die HerausgeberDr. Natalja Menold ist Wissenschaftliche Teamleiterin des Teams "Questionnaire Design & Evaluation" am GESIS Leibniz-Institut für Sozialwissenschaften.Dr. Tobias Wolbring ist Professor für Empirische Wirtschaftssoziologie an der FAU Erlangen-Nürnberg.

Table of Contents

Frontmatter

Messqualität und Messprobleme in der Fragebogenkonstruktion

Frontmatter
Identification of Measurement Problems of Survey Items and Scales Using Paradata
Zusammenfassung
This article discusses some various applications of paradata in the form of response latencies in identifying survey measurement error. Specifically, it presents empirical analyses regarding response latencies as they pertain to such problems as acquiescence bias, question order effects (contrast and assimilation effects) and social desirability bias. It demonstrates that response latencies can provide helpful insight into cognitive processes that would be otherwise unobservable. Finally, we briefly touch on the challenges involved with the collection and use of paradata.
Jochen Mayerl, Henrik Andersen, Christoph Giehl
Messfehler in der Harmonisierung soziodemographischer Variablen für den internationalen Vergleich
Zusammenfassung
Die Güte von Umfragedaten ist das zentrale Anliegen des „Total Survey Error“ Ansatzes. Dabei stehen nationale Surveys im Vordergrund der Betrachtungen, während Messfehler in internationalen länder- und kulturvergleichenden Datenerhebungen kaum diskutiert werden. In unserem Beitrag stellen wir Probleme der vergleichenden Messung soziodemographischer Hintergrundmerkmale dar. Vielfältige Literatur findet sich zu der angemessenen Übersetzung der Erhebungsinstrumente sozialwissenschaftlicher Surveys. Aber in der Gesamtheit und Komplexität vergleichender Umfragen identifizieren wir weitere Fehlerquellen, die besonders aus fehlerhafter oder missgeleiteter Harmonisierung entstehen. Über diese Schwächen gibt es wenig bis keine Literatur. Sehr kurz werden wir auf Übersetzungsprobleme am Beispiel falscher sprachlicher Übertragung eingehen. Ausführlich stellen wir die fehlerhafte Auswahl der Referenzstatistik dar, die zur Bildung der Antwortkategorien benötigt wird (z.B. Nettohaushaltseinkommen und die Dezile der nationalen Einkommensverteilungen). Am Beispiel „privater Haushalt“ diskutieren wir die Bedeutung verschiedener nationaler, kultureller Konzepte, die einer Messung zugrunde liegen. Die Anwendung unterschiedlicher Konzepte generiert nicht oder nur bedingt vergleichbare Messwerte über die Länder und Kulturen. Die mangelhafte Umsetzung in ternational vereinbarter Messkonzepte in nationale Datenerhebungen stellen wir am Beispiel „höchster Bildungsabschluss“ dar. Zusammenfassend argumentieren wir, dass in länder- und kulturenvergleichenden Sozialerhebungen die Güte der Daten mehr ist als die bloße Vervielfältigung des „Total Survey Errors“ auf die teilnehmenden Länder und Kulturen. Sprachliche Äquivalenzen, strukturelle gesellschaftliche Unterschiede mit ihren unterschiedlichen Bürokratien und Prozeduren, gesetzliche Bedingungen der Bevölkerungsbefragung, kulturelle Unterschiede der messenden Items und unterschiedliche Gewohnheiten der Interviewdurchführung sind nicht Teil des TSE Paradigmas, aber sind dennoch verantwortlich für Messfehler in vergleichender Surveyforschung. In unserer Schlussbetrachtung formulieren wir acht Regeln, die bei der Harmonisierung soziodemographischer Messungen in vergleichenden Umfragen zu beachten sind, damit die Messfehler begrenzt oder gar ausgeschlossen werden.
Jürgen H.P. Hoffmeyer-Zlotnik, Uwe Warner
Einflüsse unterschiedlicher Formen der Verbalisierung von Antwortskalen auf das Antwortverhalten von Befragungspersonen
Zusammenfassung
Antwortskalen sind ein zentraler Bestandteil standardisierter Fragebögen. In der Surveyforschung wird häufig zwischen endpunktbenannten und vollverbalisierten Antwortskalen unterschieden. Bei ersteren werden nur die beiden Pole, bei letzteren alle Kategorien einer Antwortskala verbalisiert. Bei vollverbalisierten Skalen ist eine häufige Empfehlung, dass die Antwortkategorien äquidistant sind, was bedeutet, dass die Antwortkategorien den Wertebereich der Skala gleichmäßig abdecken. In diesem Beitrag vergleichen wir vollverbalisierte Skalen mit nicht-äquidistant erscheinenden Antwortkategorien, vollverbalisierte Skalen mit äquidistant erscheinenden Antwortkategorien und endpunktbenannte Skalen. Wir unterscheiden dabei zwischen der Beobachtungsebene, d.h. den von den Befragten ausgewählten Antwortkategorien, und der latenten Ebene, den nicht direkt beobachteten Positionen der Befragten auf der latenten kontinuierlich-metrischen Dimension. Die Ergebnisse zeigen, dass die unterschiedlichen Antwortskalen zu Unterschieden im empirischen Antwortverhalten führen.
Diese Unterschiede sind nicht nur Folge einer unterschiedlichen Beziehung zwischen latenter Dimension und empirischer Antwortskala, sondern auch Folge unterschiedlicher Verteilungen auf der latenten Dimension.
Antje Rosebrock, Stephan Schlosser, Jan Karem Höhne, Steffen M. Kühnel
Effekte der Verbalisierung von Ratingskalen auf die Messqualität
Eine Forschungssynthese
Zusammenfassung
Ratingskalen sind ein wesentlicher Bestandteil von Fragebogen. Der Grad der Verbalisierung und die Nutzung von numerischen Etiketten sind zentrale Merkmale, welche die Messeigenschaften einer Ratingskala festlegen. Im Beitrag werden unterschiedliche experimentelle Studien zu den Effekten der Verbalisierung von Ratingskalen auf die Messqualität und den kognitiven Prozess der Befragten vorgestellt. Über verschiedene Studien hinweg, in denen unterschiedliche Inhalte, Modi der Datenerhebung (online vs. paper-and-pencil) und Stichproben (Studierende vs. heterogene Erwachsenenstichproben) verwendet wurden, war die Messqualität für verbale sieben-kategoriale Ratingskalen stabil hoch. Bei numerischen Etikettierungen war hingegen die Messqualität beeinträchtigt, was sich mit einem erhöhten kognitiven Aufwand erklären ließ. Die Daten zwischen Ratingskalen mit unterschiedlichem Grad der Verbalisierung waren nicht messäquivalent. Als Implikation empfiehlt sich, verbale sieben-kategoriale Ratingskalen zu verwenden und numerische Etikettierungen zu vermeiden. Unterschiede in Ratingskalen schränken die Vergleichbarkeit der Daten ein, was bei vergleichenden Analysen berücksichtigt werden sollte.
Natalja Menold
In der Mitte ist Platz für mehrere Meinungen
Vergleich von partiell- und vollverbalisierten Skalen mit unterschiedlicher Formulierung der Skalenmitte
Zusammenfassung
Beschreibt die mittlere Kategorie einer Antwortskala Neutralität, Ambivalenz, Indifferenz oder die mittlere Intensität der Haltung gegenüber einem Einstellungsobjekt? Diese Frage wird anhand der Gegenüberstellung einer endpunktverbalisierten mit zwei Varianten einer vollverbalisierten Antwortskala diskutiert. Durchgeführt wurde ein split-ballot Experiment mit Messwiederholung. An der Studie nahmen n=429 Studierende teil. Bei der ersten Erhebung erhielten alle Befragten eine endpunktverbalisierte 7-Punkte Skala. Bei der Wiederholungsmessung wurden randomisiert zwei Varianten einer vollverbalisierten Skala verwendet, wobei die mittlere Antwortkategorie bei der einen Variante als mittlere Intensität („in mittlerem Ausmaß“), bei der anderen als neutrale Position („weder/noch“) formuliert ist. Bei der Wahl der mittleren Antwortkategorie gibt es zwischen den beiden vollverbalisierten Varianten keine Unterschiede und zwischen diesen beiden Varianten besteht Messinvarianz. Unterschiede bestehen zwischen der endpunktverbalisierten Version und der vollverbalisierten Skala mit neutraler Mitte: die mittlere Antwortkategorie wird bei neutraler Mitte seltener gewählt. Die modellbasierten Reliabilitätsschätzungen haben bei expliziter Mitte höhere Werte als bei neutraler Mitte und die Konfidenzintervalle sind bei voller Verbalisierung schmaler als bei Endpunktverbalisierung.
Dagmar Krebs

Qualitätssicherung durch Qualitative Techniken

Frontmatter
Kognitiv oder qualitativ?
Pretest-Interviews in der Fragebogenentwicklung
Zusammenfassung
Kognitive Interviews gehören mittlerweile zu den wichtigsten Pretest-Verfahren in der Entwicklung und Evaluation von Fragebögen. Verschiedene Techniken wie z.B. thinking-aloud oder unterschiedliche probing-Ansätze prüfen die Verständlichkeit und das Verständnis von Fragen, decken Schwierigkeiten der Befragten bei der Beantwortung von Fragebögen sowie zugrundeliegende Ursachen auf. Ein Desideratum dieses Vorgehens ist die methodologische Rahmung, für die wir im vorliegenden Beitrag einen Vorschlag machen. In ihrem Erkenntnisinteresse und ihrer sozial-interaktiven Erhebungspraxis weisen Kognitive Interviews Ähnlichkeiten mit qualitativer Sozial- und Interviewforschung auf.Die direkte Forschungsinteraktion in Pretest-Situationen kann als Akt des Fremdverstehens im Sinne qualitativ-interpretativer Sozialforschung betrachtet werden.Auf dieser Grundlage diskutieren wir den Vorteil methodisch integrierter Kommunikationsstrategien zweier etablierter qualitativer Erhebungsverfahren – des Problemzentrierten Interviews und des Diskursiven Interviews – für die Entwicklung eines Pretest-Interviewansatzes, welcher die Techniken des Kognitiven Interviews aufnimmt und um den essentiell sozialen Charakter von Verständnisklärungsprozessen erweitert.Wir führen dafür den Begriff des Qualitativen Pretest-Interviews (QPI) ein, um der möglichen Verengung des Verständnisses von Pretest-Verfahren auf die Problematik mehrdeutiger Kognitionen zu entgehen.Schließlich reflektieren wir das Potential dieses Ansatzes für die standardisierte Surveyforschung.
Arne Bethmann, Christina Buschle, Herwig Reiter
Die Ergänzung kognitiver Interviews um Eye Tracking
Ein Methodenvergleich
Zusammenfassung
Umfrageforschern stehen eine Vielzahl von Methoden zur Verfügung, um Survey-Fragen zu evaluieren. Dabei stellt sich die Frage, welche Methoden am effektivsten sind, um mögliche Probleme in Erhebungsinstrumenten festzustellen. Als Beitrag zu dieser zentralen Frage wurde in einem Methodenvergleich untersucht, ob eine Ergänzung kognitiver Interviews um Eye Tracking wirksamer ist beim Identifizieren von Problemen in Fragen als die Methode des kognitiven Interviews allein. Verglichen werden die Gesamtanzahl der gefundenen Probleme und die Anzahl der Fragen, die als fehlerhaft identifiziert wurden. Die Ergebnisse zeigen, dass sich die beiden Methoden Eye Tracking und kognitives Interview effektiv ergänzen. Durch den Einsatz der hybriden Methode wurden im Vergleich zum alleinigen Einsatz des kognitiven Interviews mehr Probleme aufgedeckt und mehr Fragen als problematisch identifiziert.
Cornelia E. Neuert, Timo Lenzner
Qualitätssicherung von Einstellungsskalen mit Hilfe qualitativer Methoden und von „Mixed-Methods-Designs“ – die Messung religiöser Überzeugungen
Zusammenfassung
In dem Beitrag wird der besondere Nutzen eines Mixed-Methods-Designs bei der Beurteilung der Qualität von Einstellungsitems zur Messung von Religiosität – insbesondere im Hinblick auf die Konstrukt- und Inhaltsvalidität einzelner Items – dargelegt. Ausgangspunkt bildeten quantitative Korrelations- und Verteilungsanalysen von Items der „Skala zur Erfassung kosmologischer Überzeugungen“ aus dem ALLBUS, bei denen in der Gesamtstichprobe Inkonsistenzen im Antwortverhalten auftraten, die sich bei einer Betrachtung von Subgruppen mit unterschiedlicher religiöser Praxis jedoch deutlich verringerten. Um die Hintergründe dieses unterschiedlichen Antwortverhaltens aufzuklären, wurden in einem explanativen Mixed-Methods-Design aus kognitiven Interviews gewonnene qualitative Daten auf die quantitativen Analysen bezogen, um zu untersuchen, wie in den Items enthaltene Begrifflichkeiten und theoretische Konstrukte von Interviewpartnern mit unterschiedlicher religiöser Praxis interpretiert werden. Die Untersuchung zeigt, dass spezifische religionsbezogene Wissensbestände sowie der Grad der Verbundenheit mit kirchlichen Institutionen einen erheblichen Einfluss darauf haben, wie Items zu religiösen Einstellungen von Befragten verstanden werden.
Udo Kelle, Bettina Langfeldt, Brigitte Metje

Ansätze zur Antwortvalidität

Frontmatter
Rationales Antwortverhalten als Ursache messbezogener Mode-Effekte im Zuge der Erfassung sensitiver Merkmale
Entwicklung eines theoretischen Bezugsrahmens
Zusammenfassung
Der Beitrag versucht auf Grundlage einer um modevariante Nutzen- und Kostenfaktoren angereicherten Fassung der Theorie des rationalen Befragtenverhaltens das Auftreten messbezogener Mode-Effekte im Rahmen der Erfassung sensitiver Merkmale zu erklären. Konkret liegt dem Ansatz die Annahme zugrunde, dass Survey Modes spezifische soziale Befragungssettings erzeugen, die über situative Nutzen- und Kostenfaktoren wiederum Einfluss auf die Entscheidung der Befragten nehmen, sensitive Informationen wahrheitsgemäß zu berichten, eine Falschangabe zu machen oder die Antwort zu verweigern. Hierbei spielen insbesondere jene Faktoren eine Rolle, die Art und Ausmaß der sozialer Interaktion im Rahmen der Beantwortung der Fragen determinieren. Über die entsprechende Ausgestaltung der modespezifischen Befragungssettings lassen sich unter Anwendung eines Kosten-Nutzen-Schemas schließlich empirisch prüfbare Hypothesen über systematische Differenzen in den Item Nonresponse-Raten und Messfehlervarianzen zwischen den Survey Modes ableiten. Diese dienen wiederum als Basis für die Vorhersage von Ausmaß und Richtung des messbezogenen Mode-Effekts auf Aggregatebene der zu vergleichenden Surveys.Zur Veranschaulichung werden die Ausführungen am Beispiel der Messung sexualdeliktspezifischer Viktimisierungserfahrungen konkretisiert.
Heinz Leitgöb
Zur Verhaltensvalidität von Vignettenexperimenten
Theoretische Grundlagen, Forschungsstrategien und Befunde
Zusammenfassung
Vignettenexperimente werden zunehmend nicht nur zur Messung von Einstellungen, sondern auch zur Erfassung von Verhaltensintentionen eingesetzt. Bei entsprechenden Studien wird meist implizit angenommen, dass die mittels Vignettenexperimenten geschätzten Effekte auf tatsächliches Verhalten und dessen Determinanten schließen lassen. Die Annahme der Verhaltensvalidität faktorieller Surveys wurde bisher jedoch nur selten explizit thematisiert und methodisch sauber getestet. In diesem Beitrag werden daher vor dem Hintergrund theoretischer Überlegungen und empirischer Befunde die Bedingungen diskutiert, unter welchen die gemessenen Intentionen mit tatsächlichem Verhalten korrespondieren sollten. Insbesondere die Theorie des geplanten Verhaltens erweist sich hierbei als hilfreich, um relevante Einflussfaktoren zu identifizieren. Anschließend werden konkrete Kriterien erarbeitet, die bei Validierungsstudien zu beachten sind und es werden Empfehlungen gegeben, wie sich eine methodisch abgesicherte Validierung realisieren lässt. Demnach ist die Güte einer Validierungsstudie insbesondere dann hoch, wenn eine möglichst große Ähnlichkeit hinsichtlich der verwendeten Stichproben, der Treatments, der Effektschätzung, des Settings und der Skalierung der Outcomes gegeben ist.
Knut Petzold, Tobias Wolbring
Antwortvalidität in Survey-Interviews: Meinungsäußerungen zu fiktiven Dingen
Zusammenfassung
Der Beitrag untersucht Ausmaß und Einflussfaktoren der Äußerung von Pseudo-Opinions. Damit gemeint ist das vielfach dokumentierte Phänomen, wonach Befragte sich auch zu fiktiven, frei erfundenen Fragegegenständen äußern, obwohl sie eigentlich keine Meinung dazu haben sollten. Die Relevanz ergibt sich zum einen aus der Vermutung, dass manche Befragte auch real existierende Frageobjekte nicht kennen, aber dennoch eine Meinung dazu äußern. Die Ergebnisse entsprechender Umfragen wären damit verzerrt. Zum anderen erlaubt die Untersuchung von Pseudo-Opinions, den Prozess sozial erwünschten Antwortverhaltens im Hinblick auf Ausmaß und Determinanten eines Response Bias zu studieren. Neben soziodemographischen Einflussfaktoren und Maßen für Anreize durch soziale Erwünschtheit wird insbesondere die Antwortreaktionszeit als Proxy für den kognitiven Elaborationsgrad auf ihren Einfluss untersucht. Dies geschieht auf Basis theoretischer Überlegungen zum Befragtenverhalten, u.a. aus der Frame-Selektionstheorie. In der in Mainz durchgeführten CATI-Studie (N = 499) wurde nach der Meinung der Befragten zu drei fiktiven Mainzer Sehenswürdigkeiten gefragt. Es zeigt sich, dass das Ausmaß an Response Bias durch Pseudo-Opinions beträchtlich ist; bis zu 69% der Befragten geben eine inhaltliche Meinung zu den fingierten Frageobjekten an. Zudem variiert die Neigung zu verzerrendem Antwortverhalten nach einfachen soziodemographischen Merkmalen wie Alter, Geschlecht und Bildung. Ein Effekt der Antwortreaktionszeit ist nur für eines der Items feststellbar. Hier wirkt die Latenz negativ, d.h. längeres Nachdenken beim Beantworten der Frage führt zu weniger Pseudo-Opinions und damit zu weniger verzerrten Daten.
Felix Wolter, Justus Junkermann

Qualitätsmangement in der Praxis

Frontmatter
Qualitätssicherung bei der Befragung von Jugendlichen mit einer sogenannten geistigen Behinderung in sozialwissenschaftlichen Studien
Zusammenfassung
In aktuellen sozialwissenschaftlichen (Jugend-)Studien tauchen Jugendliche mit Behinderungen nicht oder nur randständig auf. Besonders marginalisiert erscheint die Gruppe der Jugendlichen mit sogenannter geistiger Behinderung. Dies widerspricht zum einen dem wissenschaftlichen Anspruch der Repräsentation, keine Gruppe systematisch aus Erhebungen auszuschließen. Zum anderen liegt ein aus der Politik und Fachpraxis stammender Bedarf an quantitativen Daten zu Lebenslagen von Jugendlichen mit Behinderungen vor. Die empirische Sozialforschung steht dabei u.a. vor der methodischen Herausforderung, wie Jugendliche mit sogenannter geistiger Behinderung angemessen und qualitätssichernd quantitativ befragt werden können. Dieser Frage geht der vorliegende Beitrag nach, indem er auf Basis der am Deutschen Jugendinstitut durchgeführten „Methodenstudie zur Entwicklung inklusiver Forschungsstrategien in der Jugendforschung am Beispiel von Freundschaften und Peerbeziehungen von Jugendlichen mit Behinderungen“ Aspekte der Qualitätssicherung bei der Befragung von Jugendlichen mit sogenannter geistiger Behinderung aufführt und die Ergebnisse in Beziehung zum bisherigen Forschungsstand setzt. Eine Diskussion um die Chancen und Grenzen der Selbstauskunft schließt den Beitrag.
Sandra Schütz, Folke Brodersen, Sandra Ebner, Nora Gaupp
Von Qualitätssicherungsmaßnahmen zu einem Qualitätsmanagementsystem in (sozial-)wissenschaftlichen Projekten
Zusammenfassung
Da sich (sozial-)wissenschaftliche Erhebungen als Projekt definieren lassen, sind sowohl geplante und gesteuerte Prozesse zu deren Initialisierung, Umsetzung und Abschluss, als auch Maßnahmen zur Erfüllung der spezifischen Anforderungen an diese notwendig. Ein Qualitätsmanagement ermöglicht die Messung und Lenkung der inhaltlichen Zielerreichung eines Wissenschafts-/Forschungsprojekts. In diesem Beitrag werden die Begriffe „Qualitätssicherung“, „Qualitätsmanagement“ und „Qualitätsmanagementsystem“ definiert, voneinander abgegrenzt und Anwendungsmöglichkeiten im (sozial-)wissenschaftlichen Kontext am Beispiel einer epidemiologischen Studie aufgezeigt. Im beschriebenen Anwendungsbeispiel für ein Qualitätsmanagementsystem, werden die beteiligten Instanzen, welche die Maßnahmen zur Erfüllung der Qualitätsanforderungen und zu deren Bewertung festlegen, mit ihren Verantwortlichkeiten und Aufgaben aufgeführt. Die Umsetzung und die Effektivität der benannten Maßnahmen wird regelmäßig unter der Anleitung eines/r hauptverantwortlichen Qualitätsmanagementbeauftragten(-teams) geprüft und besprochen, Verbesserungsmöglichkeiten werden abgeleitet und die Maßnahmen gegebenenfalls neu ausgerichtet. Insbesondere die hierdurch erreichbare Effektivitäts- und Effizienzsteigerung sowie ein (verbesserter) Wissenstransfer durch eine standardisierte Dokumentation sprechen für die Einführung eines studienspezifischen Qualitätsmanagement(-system)s - auch in kleineren Studien.
Gina Schöne, Jasmin Gundlach, Patrick Schmich, Heike Hölling
Backmatter
Metadata
Title
Qualitätssicherung sozialwissenschaftlicher Erhebungsinstrumente
Editors
Dr. Natalja Menold
Prof. Dr. Tobias Wolbring
Copyright Year
2019
Electronic ISBN
978-3-658-24517-7
Print ISBN
978-3-658-24516-0
DOI
https://doi.org/10.1007/978-3-658-24517-7