Skip to main content
Top

2010 | Book

Handbuch der sozialwissenschaftlichen Datenanalyse

Editors: Christof Wolf, Henning Best

Publisher: VS Verlag für Sozialwissenschaften

insite
SEARCH

About this book

Das Handbuch der sozialwissenschaftlichen Datenanalyse bietet in über 40 Kapiteln eine umfassende Darstellung multivariater Analyseverfahren. Schwerpunkte des Handbuchs bilden Grundlagen der Datenanalyse, regressionsanalytische Verfahren für Quer- und Längsschnittsdaten sowie Skalierungsverfahren. Behandelt werden u. a. OLS-, logistische und robuste Regression, Strukturgleichungsmodelle, Mehrebenen-, Panel-, Ereignisdaten- und Zeitreihenanalyse, MDS und Rasch-Modelle. Darüber hinaus werden viele neuere Verfahren dargestellt, etwa multiple Imputation, Bootstrappen, Analyse latenter Klassen und propensity score matching.

Jedes Kapitel beginnt mit einer allgemein verständlichen Einführung. Es folgt eine Darstellung der mathematisch-statistischen Grundlagen. Anschließend wird jedes Verfahren anhand eines sozialwissenschaftlichen Beispiels vorgestellt. Die Beiträge enden mit Hinweisen auf typische Anwendungsfehler und einer kommentierten Literaturempfehlung.

Table of Contents

Frontmatter

Einführung

Frontmatter
1. Einführung: Sozialwissenschaftliche Datenanalyse

Sozialwissenschaft, wie wir sie heute kennen, ist vor allem durch ihre starke empirische Ausrichtung gekennzeichnet. Bereits 1967 bemerkte René König, dass Wissenschaft, und damit auch die Soziologie, „letztlich nur als empirische Forschung möglich“ ist (König 1967, S. 3). Mittlerweile hat sich diese Einsicht durchgesetzt und die quantitativempirische Forschung ist zum Standard in den Sozialwissenschaften geworden. Fleck (2010) untersucht die Verbreitung der empirischen Forschung seit Ende des zweiten Weltkrieges am Beispiel von Veröffentlichungen in der American Sociological Review (

ASR

) und der Kölner Zeitschrift für Soziologie und Sozialpsychologie (

KZfSS

) und berichtet, dass seit den 1990er Jahren ca. 90% der Beiträge auf – vornehmlich quantitativer – empirischer Forschung beruhen. Für das Jahr 2008 findet er sogar 100% empirische Beiträge in der Kölner Zeitschrift und immerhin 98% in der

ASR

. Um moderne sozialwissenschaftliche Forschung zu verstehen und betreiben zu können, sind folglich hinreichende Kenntnisse in quantitativen Methoden und modernen statistischen Verfahren notwendig.

Henning Best, Christof Wolf
2. Kausalität als Gegenstand der Sozialwissenschaften und der multivariaten Statistik

Dieser Beitrag befasst sich mit folgenden Fragen: (1) Wie verwenden Sozialwissenschaftler Begriffe wie „Ursache“ und „Kausalität“? (2) Wie gehen Sozialwissenschaftler vor, wenn Kausalität ermittelt werden soll? (3) Inwieweit sind die verwendeten Begriffe und Verfahrensweisen sinnvoll? Nach der Explikation des Kausalitätsbegriffs wird gezeigt, warum Experimente in besonderem Maße geeignet sind, Kausalhypothesen zu testen. Sodann steht die Prüfung von Kausalaussagen durch multivariate statistische Verfahren zur Diskussion. Wir zeigen, dass Kausalmodelle aus Ursachenbehauptungen im vorher explizierten Sinne bestehen. Weiter wird ausführlich die Regressionsanalyse als Beispiel multivariater Verfahren zur Prüfung von Kausalaussagen diskutiert. U. a. wird gezeigt, dass diese als eine Explikation des vorher explizierten Kausalitätsbegriffs angesehen werden kann und in der Lage ist, Kausalhypothesen zu testen. Es können aber keine induktiven Schlüsse gezogen werden. Es wird weiter argumentiert, dass es keine Algorithmen gibt, die aus einem gegebenen Datensatz gültige Kausalmodelle ableiten. Weitere Fragen, die angesprochen werden, sind die erforderliche Anzahl von Fällen für die Prüfung von Kausalhypothesen und Kausalhypothesen in Messmodellen.

Karl-Dieter Opp

Grundlagen der Datenanalyse

Frontmatter
3. Datengewinnung und Datenaufbereitung

Dieser Beitrag liefert auf der Basis einer ausführlichen Begriffsbestimmung in einem ersten Schritt eine Übersicht über die gängigsten Verfahren der Datenerhebung. Dabei werden die einzelnen Verfahren nach unterschiedlichen Kriterien systematisiert. Die Darstellung orientiert sich an Fragen danach, wann welches Verfahren wie am besten eingesetzt werden kann und welche Regeln jeweils beachtet werden müssen. Dadurch erhält der Leser eine erste Orientierung für die Auswahl eines geeigneten Vorgehens zur Lösung eines spezifischen empirischen Problems. Neben dem Erhebungsverfahren ist für die Datengewinnung von Interesse, wer befragt wird. Im dritten Abschnitt wird deshalb ein kurzer Überblick über Stichprobenverfahren gegeben. Der darauf folgende Abschnitt des Beitrages widmet sich der Vorbereitung der Daten für unterschiedliche Analysen. Dieser Schritt umfasst sowohl die Datenaufnahme und das Datenhandling als auch die Datenkontrolle.

Manuela Pötschke
4. Uni-und bivariate deskriptive Statistik

Univariate Statistiken sind Maßzahlen, die sich auf ein

einziges

Merkmal beziehen. Dazu zählen vor allem Maße, die die zentrale Lage einer Verteilung charakterisieren (Mittelwerte) und die Streuung der Daten beschreiben. Bivariate Maßzahlen geben den Zusammenhang zwischen

zwei Merkmalen

wieder. Bivariate Analysen sind die Vorstufe zu multivariaten Analyseverfahren (vgl. die weiterführenden Beiträge in diesem Handbuch), die die gleichzeitige Analyse von mehr als zwei Merkmalen erlauben. Der vorliegende Beitrag beschränkt sich auf die Beschreibung der Daten (deskriptive Statistik). Dabei kann es sich um eine Auswahl oder eine Grundgesamtheit handeln. Inferenzstatistische Methoden zielen dagegen darauf ab, mit Daten einer Zufallsstichprobe Aussagen über eine Grundgesamtheit zu treffen

Cornelia Weins
5. Graphische Datenexploration

Zwecks Informationsvisualisierung werden in diesem Kapitel Verfahren der graphischen Aufbereitung zur Analyse von statistischen Daten vorgestellt. Dabei handelt es sich durchaus auch um herkömmliche einfache Präsentationsdiagrammtypen wie Stab-, Rechteck- und Zeitreihendiagramme. In erster Linie liegt das Augenmerk jedoch bei den univariaten Verfahren auf speziellen Analyse-Diagrammtypen wie Boxplot, Histogramm und Probability-Plot. Für bivariates Datenmaterial wird als typische Diagrammform das Streudiagamm, für multivariates Datenmaterial die Streudiagramm-Matrix vorgestellt. Auf eine Besprechung spezieller Diagrammtypen, die ausschließlich im Zusammenhang mit bestimmten statistischen Methoden Verwendung finden (wie z.B. das Dendrogramm als Ergebnisgraphik einer Clusteranalyse), wird hier verzichtet, weil an anderer Stelle dieses Buches darauf eingegangen wird. Dies gilt ebenfalls für dimensionsreduzierende graphische Verfahren. Zu allen behandelten Diagrammtypen (mit Ausnahme des Beispiels zur Zeitreihe) werden aus den ALLBUS-Daten 1980–2006 Beispiele gezeigt, Vor- und Nachteile der Diagrammtypen bei der Verwendung zur graphischen Datenexploration diskutiert und Hinweise zur sachgemäßen Interpretation gegeben. Exploration bedeutet im Zusammenhang mit graphischen Darstellungen, dass die benutzten Diagramme es ermöglichen, die Besonderheiten eines zugrunde liegenden Datensatzes aufzudecken. Dabei geht es z. B. um die Visualisierung des Datenzentrums, um das Erkennen statistischer Ausreißer, um die Markierung des wesentlichen Streuungsbereichs und um die Aufdeckung von Beziehungen zwischen den Datensätzen. Eine wichtige Anwendung der graphischen Datenexploration ist auch die Überprüfung, ob eine empirische Häufigkeitsverteilung durch einen bestimmten theoretischen Verteilungstyp (z.B. eine Normalverteilung) modellhaft angenähert werden kann. Es wird – im Hinblick auf den Handbuchcharakter dieses Buches – auf eine Vielzahl an „exotischen“ graphischen Explorationstechniken verzichtet zugunsten der Konzentration auf in der Praxis häufiger angewendete Methoden und auf Verfahren, die allgemein leicht zugänglich sind, d. h. im Softwarepaket SPSS als Prozedur zur Verfügung stehen.

Horst Degen
6. Der Umgang mit fehlenden Werten

Dieser Beitrag behandelt zwei breit einsetzbare Techniken zur Kompensation fehlender Werte: Die Gewichtung, die im Wesentlichen zur Kompensation fehlender Einheiten eingesetzt wird, und die Methode der multiplen Imputation, die im Wesentlichen zur Kompensation fehlender Werte von ansonsten beobachteten Einheiten verwendet wird. Die der Gewichtung zugrunde liegende Idee basiert darauf, dass diejenigen Einheiten mit einer geringeren Beobachtungswahrscheinlichkeit relativ zu jenen mit einer höheren Beobachtungswahrscheinlichkeit höher gewichtet werden. Bei der Methode der multiplen Imputation werden für jeden fehlenden Wert mehrere plausible Werte erzeugt, in deren Variation sich die mit diesen Schätzungen verknüpfte Unsicherheit widerspiegelt. Um die Einsatzmöglichkeiten beider Techniken, aber auch deren Grenzen beleuchten zu können, wird zunächst eine Einführung in die gängige Klassifikation der Mechanismen vorgestellt, die es erlaubt, zwischen Ignorierbarkeit und Nicht-Ignorierbarkeit des Missingmechanismus zu unterscheiden. Dieser Unterscheidung kommt eine wichtige Bedeutung zu, denn bei Ignorierbarkeit kann auf die fehleranfällige Modellierung des Missingmechanismus verzichtet werden. In weiteren Abschnitten werden die Methode der Gewichtung und die Methode der multiplen Imputation sowie deren Voraussetzungen ausführlich dargestellt und diskutiert. Dabei wird weitgehend davon ausgegangen, dass der Missingmechanismus ignorierbar ist. Sowohl die Gewichtung als auch die multiple Imputation können prinzipiell aber auch dann eingesetzt werden, wenn der Missingmechanismus nicht ignorierbar ist. In der Anwendung ist dies allerdings problematisch, denn in solchen Fällen wird Information von außerhalb der Stichprobe benötigt, etwa in Form von starken Annahmen, Restriktionen oder Daten. Diese steht jedoch oft nicht zur Verfügung. Der Einsatz beider Methoden wird anhand eines Beispiels veranschaulicht, nämlich der Schätzung einer Einkommensgleichung für Frauen. Zur Kompensation fehlender Personen werden die mit dem verwendeten Datensatz ausgelieferten Gewichte verwendet. Einzelne fehlende Werte werden mit Hilfe einer frei verfügbaren Software mehrfach imputiert.

Martin Spieß
7. Gewichtung

Wenn man Daten durch eine Umfrage erhebt, stellt sich zunächst die Frage, bei welchen Personen oder Betrieben usw. die interessierenden Daten erhoben werden. Dies wird durch die Art und Weise bestimmt, wie die Stichprobe geplant wird. Zufallsbasierte Stichproben oder Zufallsauswahlen haben den Vorteil, dass Ergebnisse der Wahrscheinlichkeitstheorie Anwendung finden und statistische Schlüsse gezogen werden können. Die meisten Umfragen in Deutschland und auch sehr viele internationale Erhebungen, wie etwa der European Social Survey (ESS), basieren auf Stichproben, die mit komplexen Auswahlverfahren erhoben werden. Hiermit ist nicht mehr gewährleistet, dass z.B. das ungewichtete Stichprobenmittel ein erwartungstreuer Schätzer für das Mittel eines interessierenden Merkmals in der Grundgesamtheit ist. Dieser möglichen Verzerrung wird dadurch entgegen gewirkt, dass die einzelnen Einheiten in der Stichprobe mit so genannten Gewichten versehen werden. Ein anderer Fall, bei dem eine Gewichtung der einzelnen Datensätze vorgenommen wird, liegt vor, wenn die realisierte Stichprobe etwa durch Nonresponse von der geplanten Stichprobe abweicht. Durch Anpassung an bekannte Randverteilungen zentraler Variablen, wie etwa Alter, Geschlecht oder Bildung, versucht man, eine von der Gesamtheit abweichende Verteilung in der Stichprobe zu korrigieren. Hier spricht man von Anpassungsgewichtung, die nicht auf dem Auswahlverfahren beruht, sondern Modelle benutzt, die das Ausfallgeschehen beschreiben. Wie Gewichte bei einer konkreten Analyse benutzt werden, wird anhand ausgewählter Merkmale des ESS wie etwa der Lebenszufriedenheit näher erläutert. Allerdings werden bei falscher Verwendung von Gewichten schnell Fehler gemacht, von denen einige näher beschrieben werden.

Siegfried Gabler, Matthias Ganninger
8. Grundlagen des statistischen Schließens

Beim statistischen Schließen werden mit Hilfe von Stichprobendaten Aussagen über Eigenschaften einer Population getroffen. Da vom Besonderen – der Stichprobe – auf das Allgemeine – die Population – geschlossen wird, gibt es, wie bei jedem Induktionsschluss, ein aus logischen Gründen unvermeidbares Fehlerrisiko. Der Nutzen statistischen Schließens besteht darin, Fehlerrisiken abzuschätzen und bisweilen auch zu minimieren. Erreicht wird dies durch einen Perspektivenwechsel vom Einzelfall (eines Induktionsschlusses in einer Stichprobe) auf die Verteilung der Ergebnisse aller gleichartigen Induktionssschlüsse (in gleichartigen Stichproben). Innerhalb des statistischen Schließens wird zwischen dem Schätzen von Populationseigenschaften bzw. Modellparametern einerseits und der Prüfung von Vermutungen oder Behauptungen über Populationseigenschaften bzw. Modellparameter andererseits unterschieden. Während das Ergebnis des Schätzens eine empirisch begründete Feststellung über die Beschaffenheit der Population oder Wahrscheinlichkeitsverteilung ist, ist das Ergebnis des Testens die empirisch begründete Feststellung, dass die Vermutung entweder zutrifft oder nicht zutrifft. Aufgrund des Induktionsproblems ist es grundsätzlich nicht auszuschließen, dass die Feststellung fehlerhaft sein kann. In diesem Beitrag werden wir zunächst die grundlegende Logik des statistischen Schätzens und dann die grundlegende Logik des statistischen Testens vorstellen. Da das größte Problem beim statistischen Schließen in der Fehlinterpretation der Ergebnisse besteht, werden im letzten Teil des Beitrags einige häufig vorkommende Anwendungsprobleme und Anwendungsfehler diskutiert, die zu Fehlinterpretationen von Ergebnissen führen können.

Steffen M. Kühnel, Dagmar Krebs
9. Einführung in die Inferenz durch den nichtparametrischen Bootstrap

Bei der Inferenzstatistik interessiert man sich für die Verteilung von statistischen Kennwerten, um von einer Stichprobe auf die Grundgesamtheit zu schließen. Bei parametrischen Verfahren wird die interessierende Verteilung mathematisch hergeleitet, indem gewisse theoretische Annahmen über die Verteilungsform gemacht werden. Im Gegensatz hierzu wird bei nichtparametrischen Verfahren keine Grundannahme dieser Art getroffen. Die Verteilungsform wird stattdessen direkt aus der empirisch vorliegenden Stichprobe ermittelt. Während bereits verschiedene spezifische nichtparametrische Verfahren für einzelne statistische Kennwerte vorgeschlagen wurden, ist das Bootstrap-Verfahren gegenüber den anderen Verfahren überlegen, da es auf unterschiedlichste statistische Kennwerte anwendbar ist. Außerdem ist seine Vorgehensweise relativ einfach zu implementieren. Das Bootstrap-Verfahren rekonstruiert die Verteilung des interessierenden statistischen Kennwerts direkt aus einer Stichprobe, indem viele Bootstrap-Stichproben aus der untersuchten Stichprobe „mit Zurücklegen“ gezogen werden. Diese Bootstrap-Stichproben simulieren nämlich die potenziellen Stichproben aus der Grundgesamtheit. Für die gezogenen einzelnen Bootstrap-Stichproben kann man den interessierenden statistischen Kennwert berechnen. So lässt sich eine Verteilung der Kennwerte rekonstruieren. Daraus lassen sich der Standardfehler und/oder das Konfidenzintervall ermitteln. Die breite Anwendbarkeit des Verfahrens auf unterschiedliche statistische Kennwerte wird dadurch ermöglicht, dass für die Verwendung von Bootstrap in Bezug auf Stichprobe und Grundgesamtheit deutlich weniger Voraussetzungen erfüllt sein müssen als bei den üblichen parametritschen inferenzstatistischen Verfahren. Andererseits ist das Bootstrap-Verfahren stärker von der Stichprobe abhängig, sodass die Qualität der Stichprobe beachtet werden muss, bevor diese Methode eingesetzt werden kann.

Susumu Shikano
10. Maximum-Likelihood Schätztheorie

Dieser Beitrag ist als Einführung in die Maximum-Likelihood (ML) Schätztheorie gedacht und erfordert vom Leser nur wenig Vorwissen. Im Gegensatz zu anderen Schätzverfahren, wie zum Beispiel dem OLS-Ansatz, beruht der Maximum-Likelihood Ansatz auf der expliziten Spezifizierung der auf die unabhängigen Variablen bedingten Verteilung der abhängigen Variable. Die Parameter (z. B. Regressionskoeffizienten) werden dann so bestimmt, dass die Schätzwerte der Parameter die Wahrscheinlichkeit maximieren, dass die Verteilung der vorhergesagten Werte der abhängigen Variable möglichst gut mit der beobachteten Verteilung der Werte übereinstimmt. Diese Idee ist so generell, dass sie sowohl auf lineare wie auch nichtlineare Modelle angewandt werden kann. Zudem erlaubt der Maximum-Likelihood Ansatz, dass die Parameter wie auch ihre Inferenzstatistik in einem einheitlichen Rahmen hergeleitet werden können. Grob gesagt ist es lediglich notwendig, dass die aus dem Modell resultierende Maximum-Likelihood Funktion zweimal stetig differenzierbar ist. Nachteilig wirkt sich dieser einheitliche Ansatz jedoch dahingehend aus, als dass die Maximum-Likelihood Theorie nur asymptotische Gültigkeit besitzt und zur Parameterbestimmung in kleinen Stichproben ungeeignet ist, da die Schätzwerte im Allgemeinen nicht erwartungstreu sein werden. In diesem Beitrag werden die wichtigsten Punkte besprochen, welche zum Verständnis der Maximum-Likelihood Schätztheorie und damit verbundenen, gängigen Regressionsverfahren der Sozialwissenschaften wesentlich sind: Maximum-Likelihood Schätzung für Modelle mit einem Parameter, Maximum-Likelihood Schätzung für Modelle mit mehreren Parametern, Inferenzstatistik (Hypothesen über einen Parameter, Hypothesen über mehrere Parameter) und Modellgüte. Des Weiteren wird auf die statistischen Eigenschaften der Maximum-Likelihood Schätzer eingegangen. Da Maximum-Likelihood Schätzer nicht immer analytisch zu bestimmen sind, rundet ein kurzer Abschnitt zu gebräuchlichen, numerischen Optimierungsverfahren den Beitrag ab. Natürlich ist der Platz in diesem Beitrag zu knapp, als dass alle Themen im Zusammenhang mit dem Maximum-Likelihood Ansatz besprochen werden könnten. So ist es zum Beispiel nicht möglich, auf diverse Erweiterungen einzugehen. Bei nicht korrekter Spezifizierung der Verteilung der abhängigen Variable resultieren zum Beispiel Maximum-Likelihood Schätzer, die nicht mehr die gewollten statistischen Eigenschaften aufweisen. In solchen Fällen muss die Maximum-Likelihood Funktion entsprechend angepasst werden (z. B. Pseudo-Maximum- Likelihood Schätzungen). Für solche und weitere Erweiterungen sei der Leser auf die im Literaturverzeichnis aufgeführten Lehrbücher verwiesen.

Thomas Gautschi

Messen und Skalieren

Frontmatter
11. Reliabilität, Validität, Objektivität

Das folgende Kapitel beschreibt den Weg von dem zu messenden Merkmal über die Erstellung eines Erhebungsinstruments bis zum Messwert. Schwerpunkt des Kapitels liegt auf der Gütebestimmung für diese Erhebungsinstrumente, nämlich auf der Überprüfung der Objektivität, Reliabilität und Validität von Messverfahren. Nur die Überprüfung und damit die Gewährleistung der Güte eines Erhebungsverfahrens rechtfertigen dessen Einsatz sowie die aus der Untersuchung gezogenen Schlüsse. So kann mittels eines nicht reliablen Verfahrens zur Bestimmung der Lesekompetenz nicht bestimmt werden, ob eine Gruppe von Befragten kompetenter ist als eine andere, da die erhaltenen Testergebnisse zu hohem Maße von Messfehlern beeinflusst sind und somit nicht als valide erachtet werden können. Für die einzelnen Gütemerkmale werden Definitionen, wo angebracht mathematische Grundlagen und Darstellungen zur Berechnung berichtet und deren Anwendung an einem Beispiel verdeutlicht.

Beatrice Rammstedt
12. Thurstone-und Likertskalierung

Eindimensionale Skalierungsverfahren sind notwendig, wenn eine gesuchte Merkmalsdimension nicht direkt messbar ist und ersatzweise durch die Kombination mehrerer manifester Indikatoren erhoben wird. Um diese Einzelmessungen zu einem gemeinsamen Messwert zusammenführen zu können sind Annahmen nötig, in welcher Weise die einzelnen Indikatoren mit der gesuchten latenten Variable in Verbindung stehen. Diese Annahmen (die Messmodelle) sind Grundlage eines Skalierungsverfahrens. In diesem Beitrag werden Messmodelle von Thurstone und Likert aus den frühen Entwicklungen der empirischen Sozialforschung präsentiert und ihre Anwendung anhand empirischer Daten demonstriert.

Joachim Gerich
13. Guttman-und Mokkenskalierung

In diesem Beitrag werden Skalierungsverfahren für solche Items behandelt, welche einer hierarchischen Operationalisierung folgen. Es handelt sich dabei um Items, welche eine gesuchte latente Variable eindimensional abbilden, indem sie deren Ausprägungsspektrum aufgrund unterschiedlicher Itemschwierigkeiten in einzelne Abschnitte teilen. Ein einfaches Skalierungsmodell für hierarchisch operationalisierte Items liegt der Guttmanskalierung zugrunde. Es handelt sich dabei um ein deterministisches Modell, welches bei gegebenen Itemschwierigkeiten eine spezifische Form „erlaubter“, d. h. modellkonformer Ausprägungskombinationen definiert und davon abweichende Kombinationen als Fehlermuster klassifiziert. Da dieser Determinismus für sozialwissenschaftliche Anwendungen wenig realistisch ist und in der Anwendung nur wenige Daten diesen Anforderungen genügen, wird die Guttmanskalierung in der Forschungspraxis nur selten angewendet. Daher wird in diesem Beitrag als alternatives Verfahren auch die Mokkenskalierung präsentiert, welche als probabilistische Formulierung der Guttmanskala aufgefasst werden kann. Die Mokkenskala stellt als nichtparametrisches Verfahren auch ein „Bindeglied“ zwischen Guttmanskala und parametrischen IRT-Modellen (vgl. Kapitel 14 in diesem Handbuch) dar.

Joachim Gerich
14. Item-Response-Theorie

Dieses Kapitel gibt einen Überblick über die wichtigsten Modelle und Methoden der Item-Response-Theorie (IRT). Die IRT stellt Modelle zur psychometrischen Analyse und Skalierung von Test- und Fragebogenitems insbesondere mit nominalem und ordinalem Skalenniveau zur Verfügung. Als eines der einfachsten und bekanntesten IRTModelle wird zunächst das Rasch-Modell (1-parametriges logistisches Modell) für dichotome Items vorgestellt. Im Rasch-Modell wird angenommen, dass alle Items einer Skala oder eines Tests dieselbe latente Dimension (z. B. Fähigkeit, Einstellung, Persönlichkeitseigenschaft) mit unterschiedlichen Itemschwierigkeiten aber jeweils identischer Trennschärfe erfassen. Wichtige Eigenschaften sind die spezifische Objektivität der Messungen, wenn das Rasch-Modell für einen Itemsatz gilt sowie die Tatsache, dass der ungewichtete Summenscore der Items bei Gültigkeit des Rasch-Modells eine suffiziente Statistik für den Personenparameter darstellt. Mögliche Gründe für eine Fehlanpassung des Rasch-Modells in der Praxis werden diskutiert. Anschließend werden das Birnbaum-Modell (2-parametriges logistisches Modell), in welchem die Annahme gleicher Trennschärfen aller Items aufgehoben wird, und das Birnbaum- Modell mit Rateparameter (3-parametriges logistisches Modell), in welchem zusätzlich die Ratewahrscheinlichkeit berücksichtigt wird, besprochen. In den folgenden Abschnitten wird aufWeiterentwicklungen des Rasch-Modells eingegangen. Exemplarisch werden Rasch-Modelle für mehrstufig geordnet kategoriale (ordinale) Items sowie Mischverteilungsmodelle (Mixed-Rasch-Modell) behandelt. In einer empirischen Anwendung auf sechs dichotome Testitems zur Messung der Fähigkeit zur „mentalen Rotation“ (

N

= 519) zeigen wir, wie mit Hilfe des Computerprogramms WINMIRA die Modellparameter, Fitstatistiken für das Rasch-Modell und das Mixed-Rasch- Modell geschätzt werden können. In diesem Anwendungsbeispiel zeigt sich, dass das einfache Rasch-Modell aufgrund unterschiedlicher Lösungsstrategien in Subgruppen schlechter passt als ein 2-Klassen-Mixed-Rasch-Modell, in welchem sich die Itemparameter für zwei latente Klassen unterscheiden können. Eine zweite Anwendung (drei 7-stufige Items zur Erfassung von Offenheit aus dem SOEP;

N

= 2036) illustriert, wie Mischverteilungs-IRT-Modelle dazu genutzt werden können, a priori unbekannte Personengruppen zu identifizieren, die sich hinsichtlich der Nutzung der Ratingskala unterscheiden. Im vorliegenden Fall zeigt sich, dass nur ca. 65% der Befragten die vorgegebene 7-stufige Ratingskala in der intendierten Weise verwendet haben. Die restlichen 35% der Befragten verwendeten die Skala dagegen nur eingeschränkt mit einer Tendenz zu den Extremkategorien sowie zur Mittelkategorie der Skala. Abschließend wird auf praktische Aspekte und besondere Probleme bei der Durchführung von IRT-Analysen eingegangen.

Christian Geiser, Michael Eid
15. Hauptkomponentenanalyse und explorative Faktorenanalyse

Die Faktorenanalyse ist eine Familie multivariater Verfahren, bei denen eine Menge von beobachtbaren (manifesten) Variablen auf wenige zugrunde liegende nicht beobachtbare Variablen zurückgeführt wird, die aus den beobachtbaren Variablen zusammengesetzt sind. Diese nicht beobachteten Variablen werden als Faktoren bezeichnet. Bei der hier vorgestellten explorativen Faktorenanalyse sind keine inhaltlichen Vorannahmen nötig. Es wird lediglich untersucht, inwieweit sich die Zusammenhänge zwischen einer Menge von beobachtbaren Variablen durch wenige Faktoren erklären lassen. Weder die Zahl der Faktoren noch die genaue Zuordnung der manifesten Variablen zu den Faktoren ist bekannt. Im Unterschied dazu müssen bei einer konfirmatorischen Faktorenanalyse genaue Hypothesen über die Zahl der Faktoren und die Zuordnung der manifesten Variablen zu den Faktoren vorliegen. In diesem Beitrag werden mit der Hauptkomponentenanalyse und der explorativen Faktorenanalyse zwei Verfahren vorgestellt, die in ihren Grundannahmen zwar verschieden, in der Anwendung aber austauschbar erscheinen können. Dies zeigt sich bereits an der Verwendung des Begriffes Faktorenanalyse: Einerseits steht er für ein bestimmtes Modell, nämlich das Modell mehrerer gemeinsamer Faktoren, andererseits dient der Begriff Faktorenanalyse aber auch als Sammelbegriff für eine Familie von Verfahren, unter den auch die Hauptkomponentenanalyse fällt. Im Folgenden soll eine geometrisch orientierte Darstellung der Hauptkomponentenanalyse den Einstieg ermöglichen und die konkreten Schritte der Hauptkomponentenanalyse dargestellt werden. Anschließend wird das Modell mehrerer gemeinsamer Faktoren präsentiert und von der Hauptkomponentenanalyse abgegrenzt. Abschnitt 2 enthält die mathematischen Grundlagen und ein Anwendungsbeispiel wird in Abschnitt 3 präsentiert. Abschließend werden in Abschnitt 4 häufige Probleme diskutiert und Handlungsempfehlungen abgeleitet.

Hans-Georg Wolff, Johann Bacher
16. Korrespondenzanalyse

In den Sozialwissenschaften, insbesondere in der Umfrageforschung, gibt es eine Vielzahl von kategorialen Daten. Diese können mit Hilfe der Korrespondenzanalyse in einen gemeinsamen Raum projiziert und die Distanzen zwischen den Merkmalsausprägungen können als Ähnlichkeiten interpretiert werden; dabei gilt: Je dichter zwei Ausprägungen beieinander liegen bzw. je ähnlicher deren Winkel zum Achsenkreuz sind, desto ähnlicher sind sie. Diese Möglichkeit der Visualisierung ist vermutlich der wichtigste Grund für die in den letzten Jahren zu verzeichnende deutliche Zunahme der Anwendungen dieses Verfahrens. Die meisten und die wohl auch bekanntesten sozialwissenschaftlichen Anwendungen der Korrespondenzanalyse kommen bis dato aus dem französischen Sprachbereich, wobei insbesondere die Arbeiten von Pierre Bourdieu genannt werden können. In diesem Artikel werden die grundlegenden Elemente der Korrespondenzanalyse vorgestellt und es werden Anwendungen auf verschiedene kategoriale Daten diskutiert, die dem ALLBUS 2002 entnommen wurden.

Jörg Blasius
17. Multidimensionale Skalierung

Multidimensionale Skalierung (MDS) bezeichnet eine Familie von Verfahren, die Objekte des Forschungsinteresses durch Punkte eines mehrdimensionalen Raums (

MDS-Lösung

) so darstellen, dass die

Distanz

zwischen je zwei Punkten in diesem Raum einem gegebenen Nähe-, Abstands-, Ähnlichkeits- oder Unähnlichkeitswert (

Proximität

) dieser Objekte so genau wie möglich entspricht. Als Proximitäten lassen sich außerordentlich viele Funktionen verwenden wie etwa Korrelationen der Objekte über ihre Ausprägungen auf verschiedenen Variablen (z. B. die Interkorrelationen verschiedener sozialer Gruppen in Bezug auf eine Batterie von Eigenschaften); direkt erhobene globale Ähnlichkeitsratings für Paare von Objekten (z. B. Beurteilungen verschiedener Länder durch eine Person auf einer Skala von „sehr ähnlich“ bis „sehr verschieden“); oder co-occurrence Koeffizienten, die messen, wie oft ein Ereignis zusammen mit einem anderen auftritt (z. B. wie oft kommt Verbrechen

X

zusammen mit Verbrechen

Y

vor, relativ zur Gesamthäufigkeit von

X

und

Y

). Das

MDS-Modell

spezifiziert (1) die Transformierbarkeit der Proximitäten (z.B. ordinal oder linear) und (2) die Distanzfunktion zwischen den Punkten (meist: die euklidische Distanz). Die formale Güte einer MDS-Darstellung wird durch ihren

Stress

-Wert angezeigt. Stress ist eine

Verlustfunktion

, die misst, wie schlecht die Distanzen den Proximitäten entsprechen. Ist der Stress gleich Null, dann entsprechen die Distanzen den (zulässig transformierten) Proximitäten perfekt. Der Anwender muss bewerten, ob der Stress klein genug ist für den gegebenen Kontext (Zahl der Objekte, Dimensionalität des Raums, Distanzfunktion, Interpretierbarkeit, Replizierbarkeit, usw.). Eine MDS-Darstellung dient meist dazu, die Daten für explorative Zwecke zu visualisieren. Eine MDS kann aber auch theorietestend eingesetzt werden, wenn Vorhersagen darüber entwickelt werden können, wie sich die Objekte im MDS-Raum verteilen. Die hierbei häufigste Form einer Hypothese ist die einer bestimmten Verteilung der Objekt-Punkte entlang von ein oder mehreren Dimensionen im MDS-Raum.

Ingwer Borg

Analyse von Häufigkeiten, Gruppen und Beziehungen

Frontmatter
18. Analyse kategorialer Daten

Kategoriale Daten sind Variablen mit wenigen Ausprägungen, so dass statistische Verfahren angewendet werden können, die die Wahrscheinlichkeit des Auftretens einzelner Ausprägungen modellieren. Kategoriale Variablen können nominales, ordinales oder metrisches Messniveau haben. Wenn alle (abhängigen und unabhängigen) Variablen nur wenige Ausprägungen aufweisen, dann lässt sich ihre gemeinsame Verteilung in einer (multivariaten) Tabelle darstellen. Im Folgenden wird gezeigt, dass kategoriale Datenanalyse nichts Anderes als Regressionsanalyse mit tabellierten Häufigkeiten ist. Abhängige Variable dieser Regressionsmodelle sind entweder die Häufigkeiten selbst oder aus den Häufigkeiten errechnete Anteilswerte oder Häufigkeitsverhältnisse (Odds bzw. logarithmierte Odds). Es werden drei Ansätze vorgestellt: der so genannte GSK-Ansatz, Logit-Modelle und log-lineare Modelle. Der einführende Abschnitt 1 zeigt die Verbindungen dieser drei Ansätze zu einfachen Methoden der Tabellenanalyse. Abschnitt 2 erläutert ihre statistisch-mathematischen Grundlagen und Abschnitt 3 illustriert die drei Ansätze mit einem Anwendungsbeispiel aus der politischen Soziologie. Der Beitrag schließt mit einer Diskussion häufiger Anwendungsprobleme (Abschnitt 4) und einigen Literaturempfehlungen (Abschnitt 5)

Hans-Jürgen Andreß
19. Varianz-und Kovarianzanalyse

Die Varianz-und Kovarianzanalyse (AN(C)OVA) ist eine statistische Verfahrensklasse zur Analyse von Unterschieden in Gruppenmittelwerten. Im ersten Teil des Kapitels soll der Leser schrittweise mit den Grundlagen der AN(C)OVA vertraut gemacht werden. Wir beginnen mit einem kurzen Überblick über das Verfahren und erläutern, wann dessen Einsatz in der Praxis sinnvoll ist. Im nächsten Schritt illustrieren wir den Gedanken der Varianzzerlegung am Beispiel von zwei Gruppen und entwickeln eine allgemeine Teststatistik zum Vergleich von Mittelwerten. Darauf aufbauend wird das Verfahren für den Vergleich beliebig vieler Gruppen erweitert (einfaktorielle ANOVA). Schließlich betrachten wir den Fall multipler unabhängiger Variablen (mehrfaktorielle ANOVA) sowie die Kontrolle von kontinuierlichen Kovariaten (Kovarianzanalyse). Vor allem den Voraussetzungen zur Durchführung der Varianz-und Kovarianzanalyse soll dabei ein besonderer Stellenwert eingeräumt werden. Der erste Teil endet mit einer Einführung in die Effektstärkenberechnung und die darauf basierende Berechnung der Teststärke. Der zweite Teil „mathematisch-statistische Grundlagen“ richtet sich an den methodisch interessierten Leser. In diesem Abschnitt wird die Varianz-und Kovarianzanalyse aus dem Blickwinkel des Allgemeinen Linearen Modells (ALM) betrachtet. Es wird gezeigt, wie mittels der Dummy-bzw. Effektkodierung klassische varianzanalytische Fragestellungen im Rahmen des ALMs analysiert werden können. Der Schwerpunkt dieses Abschnitts liegt auf den Vorteilen des ALM gegenüber der klassischen AN(C)OVA. Im dritten Teil illustrieren wir alle vorgestellten Analysemöglichkeiten anhand mehrerer Beispiele auf Basis der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS). Das Kapitel endet mit einer kurzen Checkliste zur Durchführung der Varianzund Kovarianzanalyse und zur Vermeidung häufig gemachter Fehler.

Manuel C. Völkle, Edgar Erdfelder
20. Diskriminanzanalyse

Die Beantwortung gesellschaftlicher, politischer, wirtschaftlicher oder psychologischer Fragen erfordert oftmals die gezielte Strukturierung komplexer Zusammenhänge sowie die Identifikation entscheidungs- oder planungsrelevanter Faktoren. Hierbei kann es sich z. B. um Analysen handeln, bei denen der Wert einer nominal skalierten (kategorialen), abhängigen Variable mittels verschiedener metrisch skalierter, unabhängiger Variablen erklärt oder prognostiziert werden soll. Die Bestimmung und Erklärung der Zugehörigkeit eines Untersuchungsobjekts zu einer von zwei oder mehreren Kategorien bzw. Gruppen ist z.B. bei der Entwicklung zielgruppenspezifischer Maßnahmen (etwa im Marketing oder in der Drogenaufklärung) von Bedeutung. Analyseziel ist hier die Identifikation der wesentlichen Unterschiede zwischen den Untersuchungsobjekten, Personen oder Organisationen, anhand geeigneter Merkmalsvariablen. Ein mögliches Instrument zur Bewältigung dieser Aufgabe ist die Diskriminanzanalyse. Ihre methodischen Grundlagen sowie ihr diagnostischer oder prognostischer Einsatz in den Sozialwissenschaften sind Gegenstand des vorliegenden Kapitels. Zunächst erfolgt eine Beschreibung der grundsätzlichen Zielsetzung und Anwendungsmöglichkeiten der Diskriminanzanalyse sowie der damit verbundenen methodischen Voraussetzungen. Des Weiteren wird ein Überblick über verschiedene Arten der Diskriminanzanalyse gegeben. Die sich anschließenden Ausführungen zur Vorgehensweise bei der Durchführung einer solchen Analyse bilden die substanzielle Basis für die mathematisch-statistischen Grundlagen der Diskriminanzanalyse. Hierzu zählen insbesondere die Bestimmung und Beurteilung von Diskriminanzfunktionen sowie der Einsatz alternativer Klassifikationskonzepte. Die praktische Anwendung der Methodik wird anhand eines kleinen Fallbeispiels auf Basis des kumulierten ALLBUS-Datensatzes veranschaulicht. Das Kapitel schließt nach einer kurzen Diskussion von Problemen und Fehlern, die bei der Anwendung und Interpretation einer Diskriminanzanalyse auftreten können, mit einigen Literaturempfehlungen.

Reinhold Decker Decker, Silvia Rašković, Kathrin Brunsiek
21. Clusteranalyse

Clusteranalyse ist ein Verfahren der numerischen Klassifikation für den Fall, dass die Klassen noch nicht (vollständig) bekannt sind und aus Daten erst konstruiert werden müssen. Das Fehlen eines generellen Daten- oder statistischen Modells als formales Gerüst für die Konstruktion von Klassifikationen führt zu einer inzwischen kaum mehr überschaubaren Anzahl von Verfahren zur Entdeckung einer Clusterstruktur. Der Erfolg der Anwendung hängt von der „richtigen“ Kombination von Daten und Verfahren ab, die aber – außer bei Simulationsdaten – genau so wenig bekannt ist wie die Clusterstruktur selbst. Im Folgenden behandeln wir zwei Verfahrensklassen, die dem Anwender seit langem in allen großen Statistikpaketen zur Verfügung stehen: agglomerative hierarchische Verfahren und K-Means. Erstere setzen die Wahl von geeigneten numerischen Differenzmaßen und deren Erweiterung auf Aggregate von Einzelbeobachtungen voraus. Sukzessiv werden Einzelbeobachtungen zu Gruppen, und Gruppen zu größeren Gruppen bis zum Erreichen der Gesamtstichprobe zusammengefasst. Die Anzahl möglicher Cluster muss aus der Abfolge der Differenzmaße nach einem „Ellenbogenkriterium“ erschlossen werden. Bei K-Means wird die Anzahl der Cluster vorausgesetzt. Partitionen der Stichprobe werden nach einem Heterogenitätsindex bewertet, der die Homogenität der Cluster und ihre Differenz voneinander misst, und eine Startpartition durch einen Austauschalgorithmus in eine Konfiguration überführt, die dem Minimaldistanzkriterium genügt. Unter allen Partitionen mit dieser Eigenschaft befindet sich diejenige mit minimaler Heterogenität. Abschließend stellen wir das TwoStep- Verfahren (SPSS) dar, das eine Verallgemeinerung der agglomerativ-hierarchischen Verfahren zur Verarbeitung extrem großer Stichprobenumfänge ist.

Michael Wiedenbeck, Cornelia Züll
22. Analyse latenter Klassen

Die Analyse latenter Klassen ist ein multivariates Verfahren zum Auffinden latenter Klassen. Es wird angenommen, dass den Daten hinsichtlich ausgewählter Merkmale

Y

k

– den so genannten Klassifikationsmerkmalen, Indikatoren oder Klassifikationsvariablen – eine bestimmte Anzahl

J

von unbekannten latenten Klassen

j

(

j

= 1, . . . ,

J

) zugrunde liegt. Jede latente Klasse

j

ist mit einem Anteil von π

j

in der Stichprobe bzw. Grundgesamtheit vertreten und durch bestimmte Verteilungsparameter

Δ

Yjk

(z. B. Anteils- oder Mittelwerte) in den Klassifikationsmerkmalen

Y

k

bzw. im allgemeinen Fall durch unterschiedliche Parameter (funktionale Zusammenhänge, Verteilungsparameter usw.) gekennzeichnet. Jede Person bzw. jedes Objekt

i

(

i

= 1, . . . ,

n

) gehört mit einer bestimmtenWahrscheinlichkeit

π

j|i

einer latenten Klasse

j

(

j

= 1, . . . ,

J

) an. Beim Auffinden von latenten Klassen bzw. beim Lösen einer Klassifikationsaufgabe sind folgende Fragestellungen zu beantworten: (1.) Wie viele latente Klassen

J

lassen sich auf Basis der ausgewählten Klassifikationsmerkmale

Y

k

auffinden? (2.) Durch welche Verteilungsparameter

Δ

Yjk

in den Klassifikationsmerkmalen sind die latenten Klassen gekennzeichnet? Wie groß sind die Anteilswerte

π

j

der gefundenen latenten Klassen in der Stichprobe bzw. in der Grundgesamtheit? (3.) Lassen sich die latenten Klassen inhaltlich sinnvoll interpretieren? (4.) Sind die gefundenen latenten Klassen stabil und valide? Die Lösung dieser Klassifikationsaufgabe mittels Analyse latenter Klassen wird für ein Beispiel aus der Sozialstrukturanalyse verdeutlicht. Als Statistikprogramm wird LatentGOLD eingesetzt, das eine breite Palette von Modellen enthält. Besonderer Wert wird auf die Erfordernisse der praktischen Anwendung gelegt. Ausführlich diskutiert werden daher Probleme der Bestimmung der Zahl der latenten Klassen und die Validierung der Ergebnisse.

Johann Bacher, Jeroen K. Vermunt
23. Netzwerkanalyse

Die Netzwerkanalyse befasst sich mit der systematischen Anordnung der Beziehungen zwischen den Einheiten in einer Population. Angestrebt werden u. a. Aussagen über verschiedene Aspekte der Beziehungsstruktur in der gesamten Population, über die Abgrenzung von Teilgruppen aufgrund der Beziehungen innerhalb bzw. zwischen den Teilgruppen und vor allem über die strukturelle Einbettung einzelner Einheiten in das sie umgebende Beziehungsnetz. Die Struktur sozialer Beziehungsnetze ist einerseits das Ergebnis sozialer Prozesse und nimmt andererseits Einfluss auf ihren weiteren Verlauf. Beziehungsstrukturen sind somit integraler Bestandteil sozialer Institutionen und Prozesse. Keinesfalls sollten sie als Spezialitäten und gesondert von anderen Analysen behandelt werden. Entsprechend werden wir die Konzepte der Netzwerkanalyse als Messkonzepte für „strukturelle“ Eigenschaften auf den verschiedenen Ebenen eines Beziehungsnetzes einführen. Mit dem Ziel einer Integration von „Strukturanalysen“ in die herkömmlichen Strategien einer theoriegeleiteten Umfrageforschung und verwandter „individualistischer“ Ansätze werden wir uns im Folgenden jedoch auf Akteure und deren soziale Beziehungen als Erklärungsgegenstand konzentrieren. Auf eine Darstellung strikt „strukturalistischer“ Ansätze wird daher in diesem Zusammenhang verzichtet; gleichwohl sollten unsere Ausführungen für eine „Mikrofundierung“ solcher „Strukturanalysen“ hilfreich sein. In der von uns hier eingenommenen Sicht bestehen die Ergebnisse der Netzwerkanalyse also aus neuen Merkmalen, die z. B. die soziale Umgebung von Akteuren oder die interne und externe Beziehungsstruktur u. a. von Teilgruppen, denen die Akteure angehören, beschreiben. Diese Merkmale gehen anschließend genau wie andere Merkmale in die multivariate Analyse ein.

Hans J. Hummell, Wolfgang Sodeur

Regressionsverfahren für Querschnittsdaten

Frontmatter
24. Lineare Regressionsanalyse

Die Regressionsanalyse ist ein Verfahren zur Schätzung des Einflusses einer oder mehrerer Merkmale auf eine abhängige Variable. Der große Vorteil der Regressionsanalyse ist, dass sie den Einfluss eines einzelnen Merkmals auf eine abhängige Variable unter Konstanthaltung der anderen Einflussgrößen schätzt. Bei der linearen Regression werden nur lineare bzw. linearisierbare Einflussbeziehungen auf metrisch abhängige Variablen erfasst. Auf der Grundlage eines Beispiels führt dieser Beitrag zunächst das Grundprinzip der linearen Regression ein. Im zweiten Abschnitt werden die mathematisch-statistischen Grundlagen des Verfahrens genauer beschrieben. Ausführlich dargestellt werden das Modell der linearen Regression, die Methode der kleinsten Quadrate, die Bestimmung der Modellgüte, die statistische Absicherung der Modellergebnisse und ihre Interpretation. Es folgt die Diskussion eines ausführlichen Beispiels, anhand dessen die wichtigsten Analysestrategien und Prinzipien der Regressionsanalyse erläutert werden. Abschließend geben wir Hinweise zu den typischen Fehlern, die bei der Anwendung des Verfahrens gemacht werden können, und empfehlen weiterführende Literatur.

Christof Wolf, Henning Best
25. Lineare Regression: Modellannahmen und Regressionsdiagnostik

Zwei Aspekte des linearen Regressionsmodells werden in diesem Beitrag behandelt: Erstens sind dies die

Annahmen

, die dem linearen Regressionsmodell zugrundeliegen, darunter die Linearitätsannahme, die Annahme, dass keine perfekte Multikollinearität vorliegt oder die Annahme streuungsgleicher Störgrößen. Vor allem soll es darum gehen, ein inhaltliches Verständnis sämtlicher Annahmen zu vermitteln, indem erläutert wird, welche Ideen jeweils hinter den Annahmen stehen, warum man die Annahmen treffen muss und auch, welche Konsequenzen mit einer Verletzung der Annahmen verbunden sind. Zweitens werden Instrumente der

Regressionsdiagnostik

vorgestellt. Dazu zählen zum einen Instrumente, mit deren Hilfe auf der Grundlage von Stichprobendaten geprüft werden kann, ob und inwieweit die Annahmen des linearen Regressionsmodells erfüllt sind. Zum anderen werden Instrumente behandelt, die geeignet sind, um sogenannte einflussreiche Untersuchungseinheiten zu identifizieren. Solche Untersuchungseinheiten können die Regressionsschätzungen, etwa die Regressionskoeffizienten, unter Umständen erheblich mitbestimmen. Am Beispiel der ostdeutschen Stichprobe des ALLBUS (2006) wird gezeigt, wie sich die Diagnoseinstrumente anwenden und interpretieren lassen.

Dieter Ohr
26. Nicht-Linearität und Nicht-Additivität in der multiplen Regression: Interaktionseffekte, Polynome und Splines

Sozialwissenschaftliche Fragestellungen betreffen häufig nicht-additive und nicht-lineare Zusammenhänge. In diesem Kapitel werden Möglichkeiten vorgestellt, entsprechende Zusammenhänge im Rahmen der multiplen Regression zu modellieren. Zunächst wird die Verwendung von Interaktionseffekten zur Spezifikation nicht-additiver Zusammenhänge erläutert. Dabei wird auch darauf eingegangen, inwieweit sich die Verwendung von Interaktionseffekten mit Dummyvariablen zur getrennten Betrachtung zweier Gruppen eignet. Dann werden unterschiedliche Möglichkeiten, Nicht-Linearitäten in der multiplen Regression zu berücksichtigen, erörtert. Dabei wird zunächst die Verwendung von quadrierten Termen behandelt, bevor allgemeiner auf die polynomische Regression eingegangen wird. Eine Alternative stellt die Spline Regression dar, die in einem weiterem Schritt erläutert wird. Eine Diskussion gängiger Tests auf Nicht-Linearität und das Vorliegen von Gruppenunterschieden schließt die einführende Darstellung ab. Das Vorgehen und die Interpretation der Ergebnisse werden ausführlich anhand von empirischen Beispielen erläutert.

Henning Lohmann
27. Robuste Regression

Die Kleinste-Quadrate-Regression gehört zu den in der sozialwissenschaftlichen Forschung am häufigsten eingesetzten statistischen Verfahren, ist aber leider in verschiedener Hinsicht als nicht „robust“ zu bezeichnen. So können Regressionsergebnisse beispielsweise ganz entscheidend von nur einigen wenigen extremen Datenpunkten („Ausreißern“) abhängen. Weiterhin ist die vorteilhafte statistische Effizienz, die die Popularität der Kleinste-Quadrate-Regression mitbegründet, nur unter restriktiven Annahmen über die Verteilung des Fehlerterms erfüllt. Robuste Regressionsverfahren, die weniger durch Ausreißer beeinflusst werden und auch unter alternativen Fehlerverteilungen günstige Eigenschaften aufweisen, sind verfügbar, werden aber in der angewandten Forschung bislang eher selten eingesetzt. Zwar hat das Bewusstsein zugenommen, dass Modellannahmen und die „Robustheit“ von Regressionsergebnissen geprüft werden sollten, die eingesetzten diagnostischen Mittel beschränken sich aber meistens auf klassische Methoden der Residuenanalyse. Die robuste Regression geht hier einen etwas anderen Weg, indem Modelle geschätzt werden, die von Natur aus gewisse Robustheitskriterien erfüllen. Diese robusten Ergebnisse können dann zu diagnostischen Zwecken mit den Ergebnissen herkömmlicher Verfahren verglichen werden, und so zu einem besseren Verständnis der durch die Daten abgebildeten Prozesse beitragen. Das vorliegende Kapitel soll eine Einführung in die Methoden der robusten Regression geben. Zentrale Konzepte der robusten Statistik werden erläutert und verschiedene robuste Regressionsverfahren wie zum Beispiel die M-und die MM-Schätzung vorgestellt. Die Anwendung der besprochenen Methoden wird an einem Beispiel mit Daten aus dem ALLBUS 2006 illustriert.

Ben Jann
28. Mehrebenenanalyse mit Querschnittsdaten

Das seit den frühen 90er Jahren zur Verfügung stehende Mehrebenenmodell dient zur Analyse der Kontextabhängigkeit metrischer Kriteriumsvariablen, wobei es von geklumpten Substichproben ausgeht. So bilden beispielsweise Schüler die Mikro-und ihre Schulen die zugehörigen Makro-oder Kontexteinheit. In Analogie zur Varianzanalyse (ANOVA) untersucht die Mehrebenenanalyse im ersten Schritt, welcher Varianzanteil der Kriteriumsvariablen

Y

durch die Kontextzugehörigkeit der Befragten erklärbar ist. Im zweiten Schritt schätzt sie die Effekte der Individualmerkmale unter Kontrolle der Kontextzugehörigkeit der Befragten. Dies entspricht dem Vorgehen der klassischen Kovarianzanalyse (ANCOVA). Im dritten Schritt ermittelt sie, ob der Effekt der Individualvariablen systematisch zwischen den Kontexteinheiten variiert. Dies entspricht dem Vorgehen der Kovarianzanalyse mit kontextspezifischen Interaktionseffekten. Unterscheiden sich die Kontexteinheiten hinsichtlich ihrer Mittelwerte von

Y

systematisch, so erklärt sie im vierten Schritt die Niveauunterschiede zwischen den Makroeinheiten durch die erhobenen Kontextmerkmale. Im fünften Schritt erfolgt dies mit der Variation des Effekts der Individualvariablen zwischen den Kontexteinheiten. Im Vergleich zu den genannten Verfahren bietet die Mehrebenenanalyse folgende Vorteile. Sie ist im Hinblick auf die Anzahl der zu schätzenden Parameter sehr sparsam und kann deshalb eine sehr große Anzahl von Kontexteinheiten berücksichtigen. Zweitens schätzt sie gleichzeitig die unverzerrten Regressionsparameter der Population sowie ihre kontextspezifischen Effekte. Drittens erklärt sie die Variation der Kriteriumsvariablen sowohl innerhalb als auch zwischen den Kontexteinheiten durch die erhobenen Individualund Kontextvariablen.

Wolfgang Langer
29. Strukturgleichungsmodelle

Dieser Beitrag führt in die Technik der Strukturgleichungsmodelle ein. Mit Hilfe dieser Modelle können theoretisch hergeleitete Kausalzusammenhänge zwischen (latenten) Variablen anhand von empirischen Daten überprüft werden. Zunächst werden nach einer allgemeinen Einführung die zentralen Begrifflichkeiten geklärt und der Ausgangspunkt der Strukturgleichungsmodelle mit der Pfadanalyse als Verknüpfung mehrerer multipler Regressionsmodelle vorgestellt. Darauf folgt die Unterscheidung zwischen Struktur-und Messebene und damit korrespondierend zwischen latenten und manifesten Variablen. Es wird gezeigt, wie mit Hilfe der konfirmatorischen Faktorenanalyse mehrere Messmodelle simultan geprüft werden können. Daraufhin wird das allgemeine Strukturgleichungsmodell mit latenten Variablen als Verbindung zwischen Pfadanalyse und konfirmatorischer Faktorenanalyse herausgearbeitet und die mathematisch-statistischen Grundlagen erörtert. Abgeschlossen wird der Beitrag mit einem Beispiel, welches ein Strukturgleichungsmodell zur Erklärung von fremdenfeindlichen Einstellungen durch soziale Schicht, vermittelt über Anomia und Kontakthäufigkeit mit Ausländern auf Grundlage der ALLBUS-Daten schrittweise entwickelt und diskutiert.

Jost Reinecke, Andreas Pöge
30. Regression mit unbekannten Subpopulationen

Bei der Analyse multivariater Daten in der sozialwissenschaftlichen Forschung werden in der Regel zwei unterschiedliche Typen von statistischen Analysetechniken verwendet. Der erste Typ umfasst Verfahren, die auf der Tradition der Regressionsanalyse gründen. Unter Anwendung dieser Verfahren werden strukturelle Beziehungen zwischen Variablen in statistischen Modellen spezifiziert und anhand empirischer Daten überprüft. Der zweite Typ umfasst Verfahren, die in der Tradtition der Klassifikationsverfahren stehen. Ziel dieser Verfahren ist die einer Menge von Objekten zu Gruppen derart, dass die Gruppen bezüglich der einbezogenen Merkmale in sich möglichst homogen und untereinander möglichst heterogen sind. In der empirischen Sozialforschung ist es zwar üblich, diese beiden Typen von Verfahren in getrennten Analysen zu verwenden, aus statistischen Gründen ist es jedoch sinnvoll, diese beiden Typen von Verfahren in einem gemeinsamen Ansatz zu verbinden. In diesem Beitrag wird ein statistisches Analyseverfahren vorgestellt, das eine Synthese zwischen den beiden Typen statistischer Analyseverfahren herstellt. Unter Verwendung des Analyseinstruments kann eine heterogene Population aufgrund der unterschiedlichen Beziehungsstrukturen in homogene Subpopulationen zerlegt werden.

Petra Stein
31. Logistische Regression

Die logistische Regression ist ein multivariates Analyseverfahren zur Analyse von dichotomen abhängigen Variablen, d. h. binären Variablen mit zwei Ausprägungen. Aus einer linearen Modellierung der logarithmierten Odds (Logits) des Auftretens von

x

= 1 ergibt sich eine nichtlineare Modellierung der Wahrscheinlichkeiten. Wir werden sehen, dass diese Nichtlinearität zwar einerseits notwendig und sinnvoll ist, andererseits aber auch zu substanziellen Unterschieden in der Interpretation im Vergleich zu OLS-Regressionsverfahren führt. Im vorliegenden Beitrag wird zunächst eine Einführung in die Logik des Verfahrens gegeben und die Interpretation der Ergebnisse vorgestellt. In einem zweiten Schritt werden grundlegende mathematische Eigenschaften der logistischen Regression dargestellt und fortgeschrittene Erweiterungen diskutiert (Standardisierung, Effekte auf die Wahrscheinlichkeiten, Interaktionen). Die Anwendung der logistischen Regression wird daraufhin am Beispiel der Bildungsvererbung praktisch dargestellt. Im letzten Abschnitt wird auf häufige Fehler, insbesondere in der Interpretation, hingewiesen (Odds-Ratios, Nichtlinearität, Interaktionen).

Henning Best, Christof Wolf
32. Multinomiale und ordinale Regression

Das multiple Regressionsmodell verlangt metrisches Messniveau bei der abhängigen Variablen. Bei nominal-oder ordinalskalierten abhängigen Variablen können logistische Regressionsmodelle für kategoriale abhängige Variablen angewendet werden. In diesen Modellen werden die Realisierungswahrscheinlichkeiten der Ausprägungen der abhängigen Variablen als Funktionen der erklärenden Variablen dargestellt, wobei bei nominalskalierten abhängigen Variablen mit

K

Ausprägungen eine erklärende Variable mit bis zu

K −

1 Regresssionskoeffizienten auf die abhängige Variable wirken kann. Die Nichtlinearität und Multidimensionalität der Regressionsfunktion erschwert die Interpretation eines kategorialen Logitmodells auf der Ebene der Realisierungswahrscheinlichkeiten. Aus diesem Grunde werden bei Logitmodellen oft multiplikative Veränderungen der Wahrscheinlichkeitsverhältnisse zweier Ausprägungen (Odds) betrachtet. Bei ordinalen abhängigen Variablen ist es auch möglich, die beobachtete Variable als ungenaue Messung einer unbeobachteten metrischen Variablen aufzufassen. Ein ordinales Logitmodell kann dann als Regressionsmodell für eine unbeobachtete metrische abhängige Variable interpretiert werden. Neben der Spezifikation und Interpretation der Logitmodelle werden Voraussetzungen für die Schätzung der Modellparameter, Hypothesentests bei Logitmodellen und Anwendungsprobleme diskutiert. In einem empirischen Beispiel wird untersucht, wie die Bildungsabschlüsse von Eltern die ihrer Kinder beeinflussen.

Steffen M. Kühnel, Dagmar Krebs
33. Regression für Zählvariablen

Zählvariablen stellen einen wichtigen Datentyp in sozialwissenschaftlichen Studien dar. Sie werden immer dann betrachtet, wenn die Häufigkeit eines interessierenden Ereignisses erhoben wird. Im Rahmen einer regressionsanalytischen Modellierung, bei der die Häufigkeit des interessierenden Ereignisses als abhängige Variable auftritt, empfiehlt es sich, die diskrete Natur dieses Responses explizit zu modellieren, da die unreflektierte Anwendung des klassischen Regressionsmodells mit normalverteiltem Fehler zu Artefakten führen kann. Als Verteilungsmodelle für den Response kommen insbesondere die Poissonverteilung und die negative Binomialverteilung in Frage. Regressionsmodelle für diese Verteilungstypen werden dargestellt und Inferenztechniken skizziert. Die Regressionsmodelle lassen sich als generalisierte Regressionsmodelle (GLMs) bzw. als deren Erweiterungen verstehen. Wie für parametrische Regressionsmodelle üblich, lassen sich Verteilungskomponente, d. h. die Festlegung auf einen Verteilungstyp, und strukturelle Komponente unterscheiden. Die strukturelle Komponente bestimmt, wie die erklärenden Variablen mit dem Erwartungswert der abhängigen Variablen verknüpft sind. Für Zählmodelle empfiehlt sich die Anwendung einer Transformationsfunktion, die den Wertebereich der Zählvariable berücksichtigt. Es wird kurz auf die Behandlung erklärender Variablen verschiedenen Typs eingegangen. Während metrische Einflussgrößen direkt oder in Form von potenzierten Werten eingehen können, ist für nominale Einflussgrößen eine Kodierung in Dummyvariablen notwendig. Es werden auch kurz Erweiterungsmöglichkeiten angesprochen, die eine flexiblere nonparametrische Struktur zulassen.

Gerhard Tutz
34. Graphische Darstellung regressionsanalytischer Ergebnisse

In der multivariaten Datenanalyse kommt der graphischen Darstellung der mit Regressionsmodellen untersuchten Zusammenhänge eine sehr große Bedeutung zu, weil Abbildungen einen schnelleren Zugang zu den Ergebnissen ermöglichen, sich auf wesentliche Aspekte der Analysen konzentrieren und so das Erkennen von Mustern in den Daten erleichtern. Es werden daher zunächst einige graphische Grundlagen und Regeln benannt, die das Erstellen effektiver und effizienter Abbildungen ermöglichen. An konkreten Beispielen aus dem Bereich der Status-und Bildungsvererbung werden dann mehrdimensionale Datenstrukturen untersucht: Zunächst mit einfachen nicht-parametrischen Verfahren, dann mit multipler linearer, logistischer und multinomialer logistischer Regression. Die hier vorgestellten Abbildungstypen visualisieren dabei entweder die Regressionskoeffizienten samt ihrer Konfidenzintervalle, was anhand von Dot-Plots, Odds Ratio-Plots und Discrete-Change-Plots verdeutlicht wird, oder sie visualisieren vorhergesagte Werte. Zu letzteren zählt mit dem Conditional-Effect-Plot ein besonders wichtiger Abbildungstyp, der die Interpretation von regressionsanalytischen Ergebnissen deutlich vereinfachen und Fehlern in der Deutung im Idealfall vorbeugen kann. Dabei werden vorhergesagte Werte oder Wahrscheinlichkeiten (und ihre Konfidenzintervalle) für ausgewählte Ausprägungen und Kombinationen der unabhängigen Variablen in einem Koordinatensystem abgetragen.

Gerrit Bauer

Analyse von zeitbezogenen Daten

Frontmatter
35. Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren

Matchingverfahren umfassen eine Klasse nichtparametrischer Verfahren zur statistischen Abschätzung kausaler Effekte mittels Beobachtungsdaten. In diesen Verfahren erfolgt die Drittvariablenkontrolle durch Konstruktion statistischer Vergleichsgruppen, die in Bezug auf relevante Hintergrundfaktoren weitgehend identisch sind. In der praktischen Anwendung dominiert das

Propensity score matching

, das eine einfache Vergleichsgruppenbildung innerhalb eines eindimensionalen Merkmalsraums ermöglicht. Die empirische Analyse erfolgt dabei in drei Schritten: zunächst ist ein Zuweisungsmodell zu entwickeln, das die Verteilung des Kausalfaktors in Abhängigkeit von theoretisch relevanten Kovariaten beschreibt. Über die aus dem Zuweisungsmodell vorhergesagten Propensity scores wird anschließend durch den Einsatz verschiedener Matchingalgorithmen die Balancierung der Hintergrundkovariaten in den Vergleichsgruppen der Untersuchung angestrebt. Ist diese erreicht, erfolgt die eigentliche Schätzung der interessierenden kausalen Effekte durch den nichtparametrischen Vergleich der Ereignisverteilungen in den Experimental-und Kontrollstichproben. Auf die Annahme eines vollständigen Erklärungsmodells für die abhängige Variable der Analyse wird dabei verzichtet. Matchingverfahren stellen insgesamt eine Alternative zu gängigen Regressionsmodellen dar, die kausale Effekte unter vergleichsweise sparsamen statistischen Annahmen abschätzen. Ähnlich wie in konventionellen Regressionsanalysen hängt die Validität der Effektschätzungen jedoch entscheidend davon ab, ob der kausal wirksame Faktor und die Ergebnisgröße unter Kontrolle der verfügbaren Kovariaten aus theoretischer Sicht als unabhängig betrachtet werden können.

Markus Gangl
36. Kausalanalyse mit Paneldaten

Der Beitrag gibt eine anwendungsorientierte Einführung in die Kausalanalyse mit Paneldaten. Es wird versucht, dem Anwender die Grundlogik der Paneldatenanalyse nahe zu bringen. Im ersten Abschnitt wird eine intuitive Einführung in die Paneldatenanalyse gegeben. Zuerst werden die Vorzüge von Paneldaten für die Kausalanalyse herausgearbeitet, dann werden die grundlegenden Panelregressionsmodelle vorgestellt. Deren „Mechanik“ wird schließlich anhand eines fiktiven Datensatzes demonstriert. Im zweiten Abschnitt erfolgt eine präzisere Vorstellung verschiedener (linearer) Panelregressionsmodelle. Diese Modelle werden im dritten Abschnitt eingesetzt, um mit Daten des SOEP 1984–2007 den Effekt einer Heirat auf die Lebenszufriedenheit zu untersuchen. Im vierten Abschnitt werden einige nicht-lineare Panelregressionsmodelle vorgestellt. Der Beitrag endet mit der Diskussion irreführender Argumentationen und suboptimaler Modellklassen.

Josef Brüderl
37. Survival-und Ereignisanalyse

Mit dem Begriff der „Survival-und Ereignisanalyse“ werden statistische Verfahren zur Untersuchung von Zeitintervallen zwischen aufeinander folgenden Ereignissen oder Zustandswechseln bezeichnet. Die von den Untersuchungseinheiten (z.B. Individuen, Haushalten, Organisationen) eingenommenen Zustände sind dabei abzählbar (in der Regel handelt es sich um eine relativ begrenzte Anzahl von Zuständen), und die Ereignisse können zu beliebigen Zeitpunkten eintreten. Beispiele solcher Prozesse sind die Dauern der Arbeitslosigkeit bis zum Beginn einer neuen Erwerbstätigkeit in der Arbeitsmarktforschung; die Zeit in einer beruflichen Tätigkeit bis zu einem sozialen Aufstieg in der sozialen Mobilitätsforschung; die Dauer bis zu einem Umzug an einen anderen Ort in der Migrationsforschung; die Ehedauern bis zur Scheidung in der demographischen Forschung; die Überlebenszeiten von Patienten in medizinischen Studien. Die Statistik bietet heute eine große Zahl von Methoden zur Analyse von Survival-und Ereignisdaten an. Sie reichen von den deskriptiven Verfahren der Survivalanalyse (z. B. Sterbetafel-Methode und Kaplan-Meier-Schätzung), über das semiparametrische Regressionsmodell von Cox, bis zu den parametrischen Verfahren mit und ohne Zeitabhängigkeiten (z. B. dem Exponential-, Piecewise-Constant-, Gompertz(-Makeham)-, Weibull-oder log-logistischen Modell). In jüngster Zeit kommt den Methoden der Ereignisanalyse eine besondere Bedeutung bei der Weiterentwicklung der Kausalanalyse, der Untersuchung von parallelen und interdependenten Prozessen und der Mehrebenenanalyse zu. Diese Aspekte stehen auch im Vordergrund dieses Beitrags.

Hans-Peter Blossfeld
38. Latente Wachstumskurvenmodelle

Werden in sozialwissenschaftlichen Studien Veränderungsprozesse untersucht, zum Beispiel in der Entwicklungspsychologie, den Erziehungswissenschaften oder in der Soziologie des Lebenslaufes, so interessiert man sich in der Regel sowohl für allgemeine, mittlere Veränderungsverläufe als auch für interindividuelle Unterschiede beziehungsweise Abweichungen von den mittleren Veränderungen, sowie für Ursachen und Folgen dieser interindividuellen Unterschiede. Es liegt daher nahe, als grundlegende Analyseebene von Veränderungsprozessen das sich verändernde Individuum zu wählen (Schmiedek & Lindenberger 2007). Um einerseits individuellen Unterschieden in Veränderungen mit ausreichender Flexibilität gerecht zu werden, andererseits aber auch mittlere Veränderungen beschreiben und statistisch testen zu können, haben sich in den letzten Jahren Verfahren zur Veränderungsmessung etabliert, in denen sogenannte feste und zufällige Effekte (

fixed

und

random effects

) kombiniert werden. Die festen Effekte repräsentieren die mittleren Veränderungen und die zufälligen Effekte individuelle Abweichungen von diesen. Zu diesen Verfahren zählen sowohl Mehrebenenmodelle (

Multilevel models

bzw.

Mixed models

) als auch latente Wachstumskurvenmodelle (

Latent growth curve models

; LGMs). Beide Verfahren sind in vielerlei Hinsicht konzeptuell verwandt oder sogar formal identisch. Da LGMs als Strukturgleichungsmodelle (

Structural equation models

; SEMs) formuliert und geschätzt werden, bieten sie jedoch eine enorme Flexibilität in Bezug auf Erweiterungen verschiedenster Art. Dazu gehören Möglichkeiten der Untersuchung multivariater Veränderungsprozesse, der Einsatz von komplexen Messmodellen für abhängige und unabhängige Variablen sowie Mehrgruppen-und latente Klassenmodelle zur Untersuchung von Gemeinsamkeiten und Unterschieden von Veränderungen in verschiedenen a priori definierten oder explorativ identifizierten Populationen. Weiterhin lassen sich latente Veränderungsmodelle (

Latent change models

; LCMs) formulieren, in denen latente Wachstumsmodelle flexibel mit autoregressiven Prozessen verknüpft werden können.

Florian Schmiedek, Julia K. Wolff
39. Sequenzdatenanalyse

Eine Sequenz ist eine geordnete Liste von Elementen. Auch Lebensverläufe lassen sich als Sequenz darstellen, denn das Leben ist eine zeitlich geordnete Abfolge von Zuständen. Die Sequenzdatenanalyse stellt Verfahren zur Beschreibung und Analyse von Sequenzen/Lebensverläufen zur Verfügung. In diesem Beitrag führen wir in die grundlegenden Konzepte der Sequenzdatenanalyse ein. Wir stellen das meist verwendete Verfahren zur Berechnung der Distanz von Sequenzen (Optimal Matching) vor und erläutern, wie man darauf aufbauend Sequenzen typisieren kann. Auch einige neuere, alternative Verfahren werden kurz diskutiert. Ein ausführliches Anwendungsbeispiel zum Arbeitsmarkteintritt deutscher Männer und Frauen demonstriert die einzelnen Schritte einer Sequenzdatenanalyse und führt das Potential dieser Verfahren vor Augen.

Stefani Scherer, Josef Brüderl
40. Zeitreihenanalyse

In der modernen Zeitreihenanalyse werden Zeitreihen als Realisationen stochastischer Prozesse aufgefasst. Ziel der Analyse von Zeitreihen ist es deshalb, Modelle zu identifizieren und zu schätzen, die die stochastischen Eigenschaften der Zeitreihen möglichst gut wiedergeben. Diese Modelle, die zunächst ohne Bezug auf eine bestimmte substanzwissenschaftliche Theorie bestimmt werden, sind Grundlage für die Beschreibung der kurz-und langfristigen Dynamik und für die Zerlegung von Zeitreihen in spezifische Komponenten, wie Trend, Zyklus und Saison. Sie sind überdies Grundlage für die Analyse spezifischer Einflussgrößen, für Zusammenhangs-bzw. Kausalanalysen, und nicht zuletzt für Prognosen. Der Identifikation eines für die jeweilige Zeitreihe adäquaten Modells kommt deshalb in der Zeitreihenanalyse eine zentrale Bedeutung zu. Die Modellbildung wird allerdings erschwert, wenn die Zeitreihe langfristige Veränderungen in ihrem Niveau aufweist, also einem Trend folgt, und damit nichtstationär ist. Mit Hilfe der sogenannten „Unit Root“-Tests versucht man deshalb, die Art der Nichtstationarität zu identifizieren. Speziell in der Ökonometrie sind in den letzten Jahren Verfahren entwickelt worden, mit denen man den kurz-und langfristigen Zusammenhang zwischen Zeitreihen auch dann schätzen kann, wenn sie trendbehaftet sind und die das Problem der Scheinkorrelation („spurious regression“) vermeiden. Neben Modellen spielen auch Filter eine wichtige Rolle in der Zeitreihenanalyse. Das Ziel besteht hier darin, Filter zu konstruieren, mit denen man vorgegebene Schwingungskomponenten, die dann eigens interpretiert werden, aus Zeitreihen exakt herausfiltern kann.

Rainer Metz
Backmatter
Metadata
Title
Handbuch der sozialwissenschaftlichen Datenanalyse
Editors
Christof Wolf
Henning Best
Copyright Year
2010
Publisher
VS Verlag für Sozialwissenschaften
Electronic ISBN
978-3-531-92038-2
Print ISBN
978-3-531-16339-0
DOI
https://doi.org/10.1007/978-3-531-92038-2