Skip to main content
Top

2018 | Book

Qualitative Textanalyse mit Topic-Modellen

Eine Einführung für Sozialwissenschaftler

insite
SEARCH

About this book

Das Buch bietet eine Einführung in die qualitative Analyse von Texten für Geistes- und Sozialwissenschaften mit Topic-Modellen. Topic-Modelle sind probabilistische Modelle, die auf verschiedene Texte angewendet werden, um die wichtigsten Themen und die damit korrelierten Begriffe zu extrahieren, die in diesen enthalten sind. Diese Themen bilden die wichtigsten semantischen Strukturen von Texten ab, die graphisch dargestellt werden können und in Bezug auf unterschiedliche Variablen untersucht werden können. Diese Einführung erklärt die mathematischen Grundlagen von Topic-Modellen, wie sie technisch eingesetzt werden, und wie sie sich von anderen qualitativen Verfahren in den Geistes- und Sozialwissenschaften unterscheiden. Anhand von Beispielen aus der Kunst, der politischen Bewegungen, der Soziologiegeschichte und der Medizin werden die einzelnen Schritte und Techniken illustriert, die benutzt werden, um solche Verfahren zu konzipieren und sie einzusetzen.
Der InhaltTopic-Modelle für qualitative Textanalysen • Durchführung von Topic-Modell-Analysen • Interviews in zwei Sprachen. Ein Beispiel aus der Kunstsoziologie • Postkarten. Topic-Modell-Analyse von dreien Texten • Textsammlung. Ein Beispiel aus der Geschichte der Soziologie • Semantische Indikatoren in quantitativen Umfragen. Ein Beispiel aus der Nanomedizin
Die AutorenProf. Dr. Christian Papilloud ist Professor für Soziologie der Martin-Luther Universität Halle-Wittenberg.
PD Dr. Alexander Hinneburg ist Dozent am Fachbereich Informatik der Martin-Luther Universität Halle-Wittenberg.

Table of Contents

Frontmatter
Kapitel 1. Einleitung
Zusammenfassung
Qualitative Textanalyse ist eine Grundlagenmethode vieler Zweige der Geistes- und Sozialwissenschaften, die von vielen Forschern und Studenten an fast jeder Universität in Deutschland angewendet wird. In diesen Bereichen werden oft Texte nach einer Methodologie analysiert, die sich mehr oder weniger systematisch auf die objektive Hermeneutik und auf die qualitative Inhaltsanalyse bezieht. Semi-automatisierte bzw. Computer-gestützte Text-Mining-Verfahren werden dagegen selten eingesetzt -- mit Ausnahme der quantitativen Sprachwissenschaften, die Maschine-Learning Software z.B. für die Analyse von Spracheigenschaften im Rahmen von Natural Language Processing Verfahren benutzen. Das Topic-Modell-Verfahren, das ein semi-automatisiertes Verfahren für die qualitative Analyse von Textquellen ist, bildet keine Ausnahme -- es wird ebenfalls selten in die Forschung eingesetzt, so dass man den Eindruck gewinnen kann, dass es sich von den klassischen qualitativen Methoden in den Geistes- und Sozialwissenschaften grundsätzlich unterschiedet. In dieser Einführung möchten wir dagegen auf der Grundlage einer Beschreibung der Grundzüge der objektiven Hermeneutik und der qualitativen Inhaltsanalyse zeigen, das es prinzipielle Ähnlichkeiten zwischen diesen Methoden und Verfahren gibt, selbst wenn das Topic-Modell-Verfahren in entscheidenden Punkten von der objektiven Hermeneutik und der qualitativen Inhaltsanalyse kontrastiert werden kann. Hieran schließt sich eine kurze Vorstellung der Struktur dieses Bandes. Die Benutzung und Interpretation von Topic-Modell-Verfahren wird im Rahmen von fünf Textquellen beleuchtet, die für die geistes- und sozialwissenschaftliche Forschungsarbeit von besonderer Relevanz sind, nämlich:
1)
einzelne Begriffe in Texten,
 
2)
semantische Indikatoren,
 
3)
transkribierte Interviews,
 
4)
corpora oder große Sammlungen von Texten.
 
Christian Papilloud, Alexander Hinneburg
Kapitel 2. Topic-Modelle für qualitative Textanalysen
Zusammenfassung
Topic-Modelle werden zur explorativen Datenanalyse genutzt. Sie können auf einer statistischen Grundlage von Wahrscheinlichkeitsverteilungen und Unabhängigkeitsannahmen gebildet werden, die als Bayessche Netzwerke bezeichnet werden. Alternativ können sie auf der Grundlage der linearen Algebra gebildet werden. Die Berechnung der Modelle wird als Optimierungsproblem formuliert, dessen Ergebnis die Zerlegung von einer Matrix ist, deren Zeilen die Dokumente und deren Spalten die Wörter des Vokabulars sind. Diese Matrix wird in ein Produkt mehrerer kleinerer Matrizen faktorisiert. Topic-Modelle fassen die in den Dokumenten vorkommenden Wörter in Gruppen zusammen und klassifizieren sie auf diese Weise. Diese Klassifikation bildet die wichtigsten strukturierenden Themen einer Textsammlung ab. Als explorative, Klassen bildende Methoden können Topic-Modelle mit anderen Klassen bildenden Methoden in den Sozialwissenschaften, insbesondere mit Cluster- und Faktorenanalysen, verglichen werden. In diesem Kapitel erklären wir zuerst wie Topic-Modelle funktionieren. Anschließend vergleichen wir sie mit den bekannteren Methoden der Cluster- und Faktorenanalyse.
Christian Papilloud, Alexander Hinneburg
Kapitel 3. Durchführung von Topic-Modell-Analysen
Zusammenfassung
Die Durchführung einer Topic-Modell-Analyse setzt die Schätzung und Einstellung von Parametern voraus, die das Topic-Modell optimieren, d.h. die dazu führen, dass das Topic-Modell möglichst gut auf die Wortmengen der Dokumente passt. Dieses Schätzen und Optimieren der Parameter ist als das beschrieben, was in der Literatur das Lernen von Topic-Modellen genannt wird. Das Lernen von Topic-Modellen stützt sich auf Theorien der Statistik und der linearen Algebra. Die im Gebiet des maschinellen Lernens entwickelten Bayesschen Modelle wie Latent Dirichlet Allocation (LDA) und die in der linearen Algebra entwickelte Non-Negative-Matrix-Factorization (NMF) wurden zu ähnlichen Zwecken als Topic-Modelle vorgeschlagen. Beide Topic-Modelle werden heute benutzt werden, um Textquellen zu analysieren. Schließlich behandeln wir die Fragen der Evaluation und der Interpretation von Topic-Modellen. Wir beschreiben ebenfalls drei mögliche Umsetzungen des Analyseprozesses durch Skript-Programmierung mit R und python, und mittels der interaktiven Web-Applikation TopicExplorer.
Christian Papilloud, Alexander Hinneburg
Kapitel 4. Interviews in zwei Sprachen. Ein Beispiel aus der Kunstsoziologie
Zusammenfassung
Wir stellen eine Untersuchung im Rahmen der Kunstsoziologie vor, die zusammen mit Kollegen in Frankreich durchgeführt wurde. Das Ziel dieser Untersuchung war es, Künstlerkarrieren im Bereich der digitalen Kunst auf der Grundlage von Interviews mit deutschen und französischen Künstlern zu untersuchen: Wie sind diese Karrieren strukturiert, welche Akteure, neben den Künstlern selbst, tragen etwas zu diesen bei? Wenn wir von einer „Künstlerkarriere“ sprechen, adressieren wir Strategien, welche darauf abzielen, die Sichtbarkeit der Projekte zu erhöhen, an denen diese Künstler arbeiten und die so letztlich versuchen, ihre soziale wie künstlerische Entwicklung positiv zu steuern. Diese Karriere versteht sich dann nicht nur im Bezug auf die Kunst als Tätigkeitsbereich, und tatsächlich suchen Künstler und Autoren der digitalen Kunst oft eine berufliche Alternative zur Kunst. Sie tun dies nicht nur, um von ihrer Kunst leben zu können bzw. diese Alternative wird nicht nur zwecks einer Überlebensstrategie in der Kunst entwickelt. Diese Künstler möchten auch ihre Arbeit sozial anerkannt sehen, und sie verstehen diese Anerkennung auch im Bezug auf Unternehmen/Firmen, die sie fördern können oder im Bezug auf öffentliche/private Institutionen, die eine Rolle von Vermittlungsinstanzen für die Relation spielen, die diese Künstler mit Unternehmen/Firmen oder mit Institutionen der Kunst entwickeln möchten.
Um ein genaueres Bild der beruflichen Laufbahn dieser Künstler der digitalen Kunst zu bekommen, haben wir Künstler, Vertreter von Unternehmen/Firmen und von Institutionen befragt. Die Interviews wurden auf Grundlage eines Leitfadens geführt, anschließend transkribiert und schließlich mittels des Topic-Model-Verfahrens ausgewertet. Die Ergebnisse unserer Analyse haben wir in Form von heatmaps dargestellt, die sich als ein intuitives Mittel für die Interpretationsarbeit anbieten.
Christian Papilloud, Alexander Hinneburg
Kapitel 5. Postkarten. Topic-Modell-Analyse von freien Texten
Zusammenfassung
In der geistes- und sozialwissenschaftlichen Forschung haben wir es nicht nur mit gut strukturierten Textquellen zu tun. Manchmal müssen auch Texte ausgewertet werden, die lose Sätze oder Stichwörter enthalten, die also für den externen Beobachter keine erkennbare Grundstruktur haben. In diesem Kapitel stellen wir ein Beispiel vor, wie solche Textquellen anhand von Topic-Modell-Verfahren ausgewertet werden können. Die Textquellen haben wir vom Netzwerk Gelebte Demokratie in Dessau-Roßlau bekommen. Diese Texte entstehen aus Postkarten, die von Bürgern in Dessau-Roßlau ausgefüllt und in Sammelboxen des Netzwerkes deponiert wurden. Diese Postkarten enthalten auf der Vorderseite den folgenden Satz: Toleranz bedeutet für mich …. Zu diesem Satz konnten die Bürger freiwillig ihre Meinung schriftlich äußern. Dieses Experiment begann im November 2016 und endete im Dezember 2017. Der Inhalt der Postkarten wurde in regelmäßigen Abständen in Dokumente mit Bezeichnung der Sammelboxen transkribiert. Die Analyse sollte dann zeigen, was die Bürger, die diese Postkarten ausgefüllt haben, zu diesem Satz gesagt haben bzw. was für ein Bild von Toleranz sie besitzen.
Christian Papilloud, Alexander Hinneburg
Kapitel 6. Textsammlung. Ein Beispiel aus der Geschichte der Soziologie
Zusammenfassung
Dieses Kapitel stellt eine Anwendung von Topic-Modell-Verfahren auf eine Sammlung von Texten vor, die wir im Rahmen der Rekonstruktion des Werkes des französischen Soziologen Gaston Richard (1860 -- 1945) gesammelt haben. Wir interessieren uns für den Begriff der Solidarität, der ein herrschender Begriff im Werk Richards ist und den wir von drei unterschiedlichen Seiten untersuchen wollen. Zuerst untersuchen wir die Bedeutung der Solidarität im Kontext anderer Themen, die im Werk Richards vorliegen und wir überprüfen, wie die Solidarität mit diesen externen Themen in Verbindung steht. Dann untersuchen wir den Begriff der Solidarität an sich, um zu sehen, welche seine Dimensionen sind bzw. welche internen Themen er beinhaltet, die ihm eine Bedeutung geben und seine Bedeutung zugleich ausmachen. Da wir es mit einem Werk zu tun haben, das sich über den Zeitraum von 1892 bis 1948 erstreckt, überprüfen wir schließlich die Entwicklung dieser Bedeutungen im Zeitverlauf. Um diese Untersuchung durchzuführen, haben wir ein Topic-Modell-Verfahren mit der Programmiersprache python aufgebaut und den NMF Algorithmus (Non Negative Matrix Factorization) benutzt, um die Topic-Modelle zu berechnen. Unser Topic-Modell-Verfahren zielt darauf ab, die Verbindung zwischen den Variationen im Werk Richards mit den Variationen im Umfeld Richards nachzuprüfen, um zu zeigen, inwieweit eine solche Verbindung zwischen dem Werk des Autors und seinem wissenschaftlichen Kontext besteht. Dieser Kontext ist die Gründung der französischen Soziologie als einer akademischen Disziplin. Aus diesem Kontext nehmen wir das Beispiel des Verhältnisses zwischen Richard und Emile Durkheim, zu dem wir am Ende unseres Kapitel zurückgehen, um die Ergebnisse unseres Topic-Modell-Verfahrens zu diskutieren.
Christian Papilloud, Alexander Hinneburg
Kapitel 7. Semantische Indikatoren in quantitativen Umfragen. Ein Beispiel aus der Nanomedizin
Zusammenfassung
Dieses Kapitel stellt eine Anwendung von Topic-Modell-Verfahren auf semantische Indikatoren im Rahmen einer quantitativen Umfrage vor, die in Bezug auf Akteure der Nanomedizin in Europa erhoben wurde. Diese Untersuchung wurde im Auftrag der Arbeitsgruppe Regenerative Medizin durchgeführt, die zur europäischen Technologie-Plattform für Nanomedizin ETPN gehört. 2016 haben die Auftraggeber eine Umfrage mit quantitativen und semantischen bzw. qualitativen Indikatoren vorbereitet, die sie per E-Mail an die Mitglieder der Arbeitsgruppe Regenerative Medizin verschickt haben, um die Aktivitäten ihrer Mitglieder besser verstehen zu können. Deren Tätigkeiten umfassen nicht nur die Forschung dieser Mitgliedern in der Nanomedizin, sondern sie betreffen auch ihre Kooperationen mit anderen Akteuren in der Forschung oder in der Wirtschaft sowie ihre Netzwerkaktivitäten innerhalb der ETPN und in Bezug auf europäische Instanzen der Forschungsförderung im Bereich Gesundheit. Die Umfrage erfüllt zwei wichtige Aufgaben, die bei der Gründung von ETPN im Jahre 2005 vereinbart wurden. In diesem Kapitel stellen wir ein Topic-Modell-Verfahren vor, das wir auf einige der semantischen Indikatoren anwenden, die in dieser Umfrage den Befragten präsentiert wurden. Wir bilden die Ergebnisse unserer Untersuchung in zwei verschiedenen Repräsentationen ab. Die erste Repräsentation zeigt unsere Ergebnisse auf Grundlage der Korrelationen zwischen Befragten und Themen. Die zweite Repräsentation zeigt eine Geolokalisierung dieser Korrelationen auf einer Karte Europas. Zusammen ergeben diese beiden Darstellungen unserer Ergebnisse ein Beispiel, wie die Auswertung der Aussagen von Befragten mit Kontextdaten -- hier mit dem Standort der Befragten -- verbunden werden kann.
Christian Papilloud, Alexander Hinneburg
Kapitel 8. Rück- und Ausblick
Zusammenfassung
In unserem Schlusswort gehen wir auf die wesentlichen Kritiken ein, von die in den Sozialwissenschaften gegenüber Topic-Modell-Verfahren vorgebracht worden sind. Diese Kritiken sagen im Allgemeinen, dass die Möglichkeiten von Topic-Modell-Verfahren große Anzahlen Textquellen zu verarbeiten mit der Gefahr verbunden sind, Ergebnissen zu erhalten, die keinen Sinn ergeben. Diese Gefahr besteht vor allem dann, wenn Topic-Modelle blind als Black-Box-Methode angewendet werden. Unser Buch zeigt anhand vieler Anwendungsbeispiele wie Topic-Modell-Verfahren vorteilhaft mit qualitativen Methoden kombiniert werden können. Diese entfalten und vertiefen die Komplexität der Indikatoren, die durch die Topic-Modelle ermittelt wurden. Wir zeigen anhand der Beispiele wie mittels menschlicher Interpretationsarbeit aus den Ergebnissen der Topic-Modell-Verfahren sinnvolle analytische Ansätze entwickelt werden können. In dieser Hinsicht verändern Topic-Modell-Verfahren die Lesart von Texten sowie die Arbeit an den Textquellen und die wissenschaftliche Kooperation in der Forschung in unseren Bereichen.
Christian Papilloud, Alexander Hinneburg
Backmatter
Metadata
Title
Qualitative Textanalyse mit Topic-Modellen
Authors
Prof. Dr. Christian Papilloud
Dr. Alexander Hinneburg
Copyright Year
2018
Electronic ISBN
978-3-658-21980-2
Print ISBN
978-3-658-21979-6
DOI
https://doi.org/10.1007/978-3-658-21980-2