Skip to main content
Erschienen in:
Buchtitelbild

Open Access 2021 | OriginalPaper | Buchkapitel

7. Erste quantitative Studie

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Zusammenfassung

Gesamtüberblick: Die erste quantitative Studie verfolgt die in Abschnitt 6.1 genannte dritte Zielsetzung, die Bildung von Faktoren, die die systematischen Variationen der Textmerkmale abbilden. Für das Vorgehen wird zur Analyse der Textmerkmale ein auf die erste quantitative Studie ausgerichtetes Auswertungsverfahren verwendet. Für die Auswertung wird, wie in Abschnitt 4.4 geschildert, ein korpusbasierter Ansatz genutzt und für die empirische Analyse spezifiziert.
Gesamtüberblick: Die erste quantitative Studie verfolgt die in Abschnitt 6.​1 genannte dritte Zielsetzung, die Bildung von Faktoren, die die systematischen Variationen der Textmerkmale abbilden. Für das Vorgehen wird zur Analyse der Textmerkmale ein auf die erste quantitative Studie ausgerichtetes Auswertungsverfahren verwendet (Abschnitt 7.1). Für die Auswertung wird, wie in Abschnitt 4.​4 geschildert, ein korpusbasierter Ansatz genutzt und für die empirische Analyse spezifiziert (Abschnitt 7.1.1). Die Operationalisierung der in Abschnitt 6.​4 genannten Textmerkmale erfolgt entweder durch ein manuelles Verfahren (Abschnitt 7.1.2) oder durch ein automatisches Verfahren (Abschnitt 7.1.3). Die Analyse der erhobenen Daten findet durch eine explorative Faktorenanalyse statt, durch die die korrelativen Beziehungen der Textmerkmale als Grundlage verwendet werden, latente (sprachliche) Faktoren zu bilden (Abschnitt 7.2). Die Faktorenanalyse als empirischer Zugang zur Analyse der systematischen Beziehungen von Textmerkmalen besitzt aufgrund der methodischen Grundlage Verknüpfungsmöglichkeiten zwischen Empirie und Theorie der Variations- und Verständlichkeitskonzepte (Abschnitt 7.2.1). Vor der Extraktion von Faktoren müssen Testkriterien erfüllt werden, die die Güte der vorhandenen Daten und Korrelationstabellen schätzen (Abschnitt 7.2.2). In der Faktorenanalyse können unterschiedlich viele Faktoren extrahiert werden. Für die Anzahl der extrahierten Faktoren ist zu berücksichtigen, dass entweder zu viele Faktoren (hohe Redundanz) oder zu wenige Faktoren (Informationsverlust) extrahiert werden; dahingehend bestehen Möglichkeiten, einzuschätzen, wie viele Faktoren gewählt werden sollten (Abschnitt 7.2.3). Die Ergebnisse der Faktorenanalyse zeigen die Korrelation der Textmerkmale auf den Faktoren an; durch Rotationsverfahren können die Textmerkmalsmuster eindeutiger für die einzelnen Faktoren bestimmt werden (Abschnitt 7.2.4). Die Variationen der Textmerkmale auf den extrahierten Faktoren lassen sich aufgrund der in Abschnitt 6.​4 gemachten funktionalen Zuordnung interpretieren; so lässt sich ableiten, welche sprachlichen Funktionen am deutlichsten ausgeprägt sind und inwieweit das empirisch festgestellte gemeinsame Vorkommen in Hinblick auf bereits bekannte Vertextungsmuster übereinstimmt. Aus der Interpretation des gemeinsamen Vorkommens der Textmerkmale werden Bezeichnungen für die Faktoren abgeleitet, die die Faktoren am treffendsten definieren (Abschnitt 7.2.4).

7.1 Auswertungsverfahren

Die Basis der ersten quantitative Studie ist die Auswertung durch eine Korpusanalyse. Die Korpusanalyse dient als Verfahren, um Sprache durch computerbasierte Verfahren zu untersuchen.
Überblick (Abschnitt 7.1): Für die Korpusanalyse ergeben sich bei der in dieser Arbeit verwendeten Analyse Spezifika, die über die in Abschnitt 4.​4 genannten allgemeinen Beschreibungen einer Korpusanalyse hinausgehen; dies betrifft die Durchführung der Korpusanalyse und die verwendete Software zur Datenverarbeitung (Abschnitt 7.1.1). Die Operationalisierung der Daten verläuft sowohl manuell für Textmerkmale, bei denen eine automatische Annotation nicht durch die Analysesoftware möglich ist (Abschnitt 7.1.2), als auch automatisch für die Textmerkmale, die sich durch die Analysesoftware automatisch erheben lassen (Abschnitt 7.1.3).

7.1.1 Korpusbasierte Datenverarbeitung

Zur Quantifizierung der in Abschnitt 6.​4 genannten Textmerkmale wird eine korpusbasierte Datenverarbeitung genutzt. Aufgrund der hohen Anzahl an zu analysierenden Fällen, die in einem Korpus enthalten sind, erleichtert eine (teil-)automatisierte Analyse mithilfe von computerbasierten Verfahren die Analyse deutlich (Biber, 2006).
Ein besonderer Vorteil der korpusbasierten Analysen ist der einfache Transfer für weitere methodische Analysen. Es können dabei sowohl qualitative als auch quantitative Methoden verwendet werden. Für qualitative Methoden werden Daten als Basis zur Identifizierung und Beschreibung von Sprache genutzt (Balossi, 2014; Biber et al., 1998, 2002, 2016). Für die quantitativen Methoden ergibt sich die Möglichkeit der Klassifikation über das automatische Tagging, die Häufigkeitsbeschreibung von Wörtern, aber ebenfalls die Möglichkeit, statistische Modelle zu nutzen. Bezüglich quantitativer Methoden plädiert Biber (2006) für die Verwendung von multivariaten Verfahren für die Analyse von Korpora (vgl. Abschnitt 4.​5.​3).
Zur automatischen Textverarbeitung für die ausgewählten Daten wird das R-Paket koRpus verwendet (Michalke, 2018). Das Paket ermöglicht die Verwendung von unterschiedlichen Analyseverfahren. Es ist möglich, die Häufigkeit zu bestimmen, beispielsweise die Anzahl der Wörter, Sätze und Silben. Des Weiteren kann POS-Tagging genutzt werden, dessen Genauigkeit in der Bestimmung zwischen 96 und 97.5 % liegt (Schmid, 1995). Außerdem ist die Bestimmung unterschiedlicher Lesbarkeitsindices und der lexikalischen Vielfalt sowie die Ermittlung der Wortfrequenz der Wörter im Korpus im Vergleich zu einem Referenzkorpus, beispielsweise die Leipzig Corpora Collection, durch das Paket möglich.

7.1.2 Operationalisierung durch manuelle Annotation

Von den in Abschnitt 6.​4 genannten Textmerkmalen wurden acht durch eine manuelle Annotation bestimmt.
Für das Textmerkmal mathematische Begriffe wurden für alle Begriffe die Häufigkeit bestimmt, die generell dem Gegenstandsbereich Mathematik zugeordnet werden. Dies umfasst ebenfalls Begriffe, die auch in der Alltagssprache verwendet werden, wie Kante, Ecke oder Metaphern wie Wurzel. Es wurden die Häufigkeiten von sowohl Adjektiven (parallel, symmetrisch, rechtwinklig usw.), Verben (addieren, subtrahieren, konstruieren usw.) als auch Substantiven (Funktion, Winkel, Wahrscheinlichkeit usw.) in den Aufgaben bestimmt. Für die Variable (mathematische) Symbole wurden ebenfalls die Häufigkeiten des Auftretens in den Aufgaben für die Kodierung bestimmt. Es wurde die Anzahl der Variablen (x, n usw.), der Maßeinheiten (mm, m usw.) und der Sonderzeichen (\(\pi ,\alpha ,\gamma\) usw.) bestimmt. Zur Bestimmung der Variable diskontinuierlicher Text wurde die Anzahl der Unterbrechung im Fließtext durch Tabellen, Abbildungen oder Darstellungen gezählt. Die Variable unpersönliche Sprache wurde bestimmt, indem die Häufigkeit von Man- und Es-Konstruktionen gezählt wurde. Zur Feststellung der Variable Füllwörter wurde eine Liste typischer Füllwörter hinzugezogen und ebenfalls die Anzahl bestimmt (z. B. fast, echt, halt usw.); anschließend wurde geprüft, inwieweit sich das Füllwort ohne Veränderung der Bedeutung des Textes weglassen lässt. Die Anzahl der Nominalisierung und direkten Anaphorik wurde für jeden Text manuell geprüft und die Häufigkeit bestimmt. Als Hilfestellung zur Feststellung der Anzahl der Nominalisierungen wurden mithilfe der automatischen Annotation die Nomen identifiziert und geprüft, ob es sich um nominalisierte Verben handelt.

7.1.3 Operationalisierung durch automatische Annotation

Zur Verdeutlichung der Möglichkeit der automatischen Annotation ist in Tabelle 7.1 ein Beispiel für die Ausgabe des R-Pakets koRpus eines Satzes einer Mathematikaufgabe dargestellt. Die Ausgabe trennt zwischen Token, Tag, Lemma, Wortklasse und Beschreibung, die durch das POS-Tagging automatisch identifiziert werden. Im Feld Token sind die einzelnen Wörter des Satzes abgebildet. Im Feld Tag werden die Wörter durch eine spezifische Bezeichnung (STTS-Tags) aus dem TIGER-Annotationsschema gekennzeichnet. Im Feld Lemma wird die Grundform des Wortes abgebildet. In den anderen beiden Feldern werden die Bezeichnungen der Wortklasse (auf Englisch) und der Beschreibung (auf Deutsch) dargestellt. Durch die Ausgabe ergeben sich reichhaltige Informationen, die genutzt werden können, um die Textmerkmale automatisch zu bestimmen.
Tabelle 7.1
Beispiele für die Ausgabe eines Satzes einer Mathematikaufgabecharakterisiert durch POS-Tagging
Token
Tag
Lemma
Wortklasse
Beschreibung
Monika
NE
Monika
Name
Eigenname
benötigt
VVFIN
benötigen
Verb
Finites Verb, voll
zur
APPRART
zu
Preposition
Präposition mit Artikel
Finanzierung
NN
Finanzierung
Noun
Nomen
Ihres
PPOSAT
Ihr
Pronoun
Attribuierendes Possessivpronomen
Motorrades
NN
Motorrad
Noun
Nomen
2700
CARD
2700
Number
Kardinalzahl
Euro
NN
 < unknown > 
Noun
Nomen
.
$.
.
Fullstop
Satzbeendende Interpunktion
Das POS-Tagging wird verwendet, um die Variablen Konjunktionen, Präpositionen, Zahlen, Modalverben, Perfekt, Gebräuchlichkeit des Wortschatzes und propositionaler Gehalt zu ermitteln. Die Häufigkeiten der Variablen Konjunktionen, Präpositionen und Zahlen wurden automatisch durch das Programm bestimmt. Für die Variablen Präpositionen und Zahlen kann im Beispiel in Tabelle 7.1 exemplarisch dargestellt werden, wie die automatische Bestimmung festgestellt wurde (zur als Präposition und 2700 als Kardinalzahl). Die Variablen Modalverben und Perfekt konnten durch die Beschreibung der Wortklassen ermittelt werden, die ebenfalls in Tabelle 7.1 dargestellt sind. Die Gebräuchlichkeit des Wortschatzes wurde in Anlehnung an Zimmermann (2016) berechnet. Zur Berechnung wurde das Auftreten der Wörter im Referenzkorpus Leipzig Corpora Collection ermittelt. Zur Glättung der Rohwerte wurde der Logarithmus zur Basis 10 genutzt und Wortklassen mit hochfrequentierten Wörtern wurden ausgeschlossen (Artikel, Zahlwörter, Pronomen, Partikel). Anschließend wurde der Median der Rohwerte für die Wörter pro Textaufgabe ermittelt. Auch der propositionale Gehalt der Aufgabe wurde automatisch berechnet. Die Berechnung des propositionalen Gehalts ist an Brown et al. (2008) angelehnt. Die lexikalische Vielfalt wurde durch den Measure of textual lexical diversity (MTLD) berechnet, der als Maß für die lexikalische Vielfalt im Text am wenigsten von der Länge des Textes beeinflusst wird (Koizumi & In’nami, 2012; McCarthy & Jarvis, 2010). In Hinblick auf die Kürze einzelner Textaufgaben wurde aus diesem Grund der MTLD als Maß für die lexikalische Vielfalt in den Mathematikaufgaben verwendet.

7.2 Explorative Faktorenanalyse

Die explorative Faktorenanalyse wird im Kontext der Analyse von Sprache genutzt, um die Beziehungen zwischen Textmerkmalen darzustellen. Die Beziehungen der Textmerkmale ergeben sich aus dem gemeinsamen häufigen Auftreten der Textmerkmale in Texten. Dieses wird in der Analyse durch die latenten Faktoren systematisiert.
Überblick (Abschnitt 7.2): Die methodischen Grundlagen der explorativen Faktorenanalyse lassen sich in Hinblick auf die Analyse der Textmerkmale verknüpfen und bieten damit die Möglichkeit einer allgemeinen Einordnung der Faktorenanalyse für die Analyse von Sprache (Abschnitt 7.2.1). Vor der Auswertung müssen die Voraussetzungen für die explorative Faktorenanalyse geprüft werden (Abschnitt 7.2.2). Um zu bestimmen, welche Anzahl von möglichen Faktoren extrahiert werden sollte, existieren Analyseverfahren zur Abwägung der Anzahl (Abschnitt 7.2.3). Nach Prüfung der Testkriterien und der Anzahl der Faktoren ergeben sich Faktoren, die die korrelativen Beziehungen der Textmerkmale systematisieren (Abschnitt 7.2.4). Zur Interpretation und Bezeichnung der Faktoren wird die funktionale Gruppierung der Textmerkmale in Abschnitt 6.​4 genutzt und so für die Faktoren dargestellt, welche sprachlichen Funktionen besonders repräsentativ für die Faktoren sind und welche Verbindung sich zu bekannten Vertextungsmuster ergeben (Abschnitt 7.2.5).

7.2.1 Grundlagen und Verknüpfung zur Analyse von Textmerkmalen

Die Basis für die Faktorenanalyse ist die Bildung von (latenten) sprachlichen Faktoren auf Grundlage von beobachteten (manifesten) Textmerkmalen als Variablen (Backhaus et al., 2016; Bortz & Schuster, 2010; Wolff & Bacher, 2010). Durch die Faktorenanalyse ergibt sich eine dimensionale Struktur der Textmerkmale aufgrund der korrelativen Beziehungen (Ladungen). Durch die korrelativen Beziehungen werden die Textmerkmale auf den Faktoren systematisiert. Nach Wolff und Bacher (2010) werden durch die Zuordnung der Variablen (Textmerkmale), die Variablen auf den Faktoren zusammengefasst und lassen sich dadurch voneinander unterscheiden. Die Gruppierung der Textmerkmale zu einem Faktor erfolgt nicht disjunkt, daher können bestimmte Textmerkmale in verschiedenen Faktoren auftreten.
Bezogen auf die explorative Faktorenanalyse werden keine Annahmen bezüglich der Systematisierung der Textmerkmale auf den Faktoren und der Anzahl der Faktoren benötigt. Dahingehend ergibt sich die Bezeichnung explorativ für diese Art der Faktorenanalyse, bei der es sich um ein hypothesengenierendes Verfahren handelt (Wolff & Bacher, 2010). Gemäß Bortz und Schuster (2010) berücksichtigt das Verfahren der Faktorenanalyse die gemeinsame Varianz zwischen Variablen (Textmerkmalen), indem mehrere Faktoren extrahiert werden. Die meiste Varianz wird standardmäßig auf den ersten Faktor vereinigt. Der zweite Faktor extrahiert den maximalen Betrag der gemeinsamen Varianz aus der nach der Extraktion des ersten Faktors verbleibenden Varianz usw.
Ziel der explorativen Faktorenanalyse zur Analyse von Verständlichkeits- bzw. Variationsfaktoren ist die Feststellung der dimensionalen Struktur der Textmerkmalsmenge. Hierbei ist die Konzentration auf zentrale Faktoren und die Identifikation von Textmerkmalen entscheidend, die möglichst nur auf einen Faktor abgebildet werden (Wolff & Bacher, 2010). Das Verfahren der explorativen Faktorenanalyse bzw. von multivariaten Verfahren wird zur Bildung von Verständlichkeits- bzw. Variationsfaktoren in unterschiedlichen Zusammenhängen verwendet (Biber et al., 2002, 2016; Biber & Gray, 2013a, 2013b, 2016; Conrad, 2015; Finegan & Biber, 2001; Langer et al., 1974; Pause, 1984). Die Systematisierung der Textmerkmale auf unterschiedlichen Faktoren ermöglicht die Beschreibung von latenten Textstrukturen in mathematischen Textaufgaben. Die nicht erkennbaren Textstrukturen variieren in mathematischen Textaufgaben und sind impliziter Bestandteil der Textverständlichkeit einer Textaufgabe. Daher bietet es sich zur Konzeptualisierung eines Instruments zur sprachlichen Variation an, die latenten sprachlichen Faktoren als Grundlage für Variationen zu nutzen.

7.2.2 Prüfung der Voraussetzungen

Zur Verwendung eines Datensatzes für die Faktorenanalyse müssen gewisse Voraussetzungen geprüft werden, um die prinzipielle Eignung festzustellen. Allgemein werden bei einer Faktorenanalyse zum einen der Bartlett-Test (test of sphericity) und zum anderen der KMO-Wert bestimmt.
Gemäß Backhaus et al. (2016) prüft der Bartlett-Test, ob die Korrelationsmatrix des Rohdatensatzes von einer Identitätsmatrix verschieden ist. Wenn der Bartlett-Test Signifikanz anzeigt, sind Korrelationsmatrix und Identitätsmatrix verschieden.
Für die Korrelationsmatrix der quantifizierten Textmerkmale wird der Bartlett-Test signifikant mit \({\chi }^{2}\) = 1672.36 (p < 0.001). Damit ist die vorhandene Korrelationsmatrix signifikant unterschiedlich von einer Identitätsmatrix.
Nach Backhaus et al. (2016) dient das Kaiser-Meyer-Olkin-Kritierium (KMO) als weiteres Kriterium zur Prüfung der Eignung des Datensatzes. Das KMO setzt sich aus den Einzelwerten für Variablen, der Prüfgröße measure of sampling adequacy (MSA), zusammen. Mittels KMO und MSA kann geprüft werden, inwieweit eine Faktorenanalyse für alle Variablen (KMO) bzw. eine Ausgangsvariable (MSA) sinnvoll ist. Die Betrachtung der KMO- bzw. MSA-Werte wird als geeignetstes Verfahren zur Prüfung der Korrelationsmatrix betrachtet und sollte zwingend vor der Durchführung einer Faktorenanalyse geprüft werden. Der gesamte KMO-Wert für die vorliegenden Daten zur Faktorisierung beträgt 0.67 und liegt damit im oberen Bereich von mittlerer Eignung (\(\ge\)0.6 mittel, \(\ge\)0.70 ziemlich gut). Die MSA-Werte aller Variablen liegen bei \(\ge\)0.50 und damit im ausreichenden Bereich. Durch das Entfernen von Variablen mit geringen MSA-Werten könnte der globale KMO-Wert erhöht und die Eignung der Korrelationsmatrix verbessert werden. Da inhaltlich besonders relevante Variablen, beispielsweise die Gebräuchlichkeit des Wortschatzes, einen geringen MSA-Wert aufweisen, wird die Faktorenanalyse aus inhaltlichen Abwägungen mit den vorhandenen Variablen weiter durchgeführt.

7.2.3 Anzahl der Faktoren

Es existieren unterschiedliche Verfahren, die Anzahl der Faktoren zu bestimmen. Die zwei gängigen Verfahren sind das VSS-Kriterium und die Parallelanalyse. Die beiden Verfahren werden nachfolgend durchgeführt und anschließend wird aufgrund von inhaltlichen Abwägungen diskutiert, welche Faktorenanzahl extrahiert wird.
Revelle & Rocklin (1979) konzipierten das Very-Simple-Struture(VSS)-Kriterium als Verfahren zur Bestimmung der optimalen Anzahl an Faktoren. Durch die Verwendung des VSS-Kriteriums wird die Passung einer bestimmten Anzahl an Faktorenladungen mit der Ladungsmatrix bestimmt, indem alle bis auf die c größten Ladungen pro Item gelöscht werden, wobei c ein Maß für die Faktorenkomplexität ist. Dadurch wird ermöglicht, ein vereinfachtes Modell mit den originalen Korrelationen zu vergleichen, wobei das VSS-Kriterium bei einer optimalen Anzahl von Faktoren den höchsten Wert zwischen 0 und 1 erreicht. In Abb. 7.1 sind die Ergebnisse des VSS-Kriteriums dargestellt. In Abb. 7.1 ist zu erkennen, dass bei einer VSS-Komplexität von c = 1 der höchste VSS-Fit-Wert bei zwei Faktoren erreicht wird. In der Abbildung ist zu erkennen, dass die höchsten VSS-Fit-Werte bei einer Drei-Faktorenlösung mit einer Komplexität von c = 3 und bei einer Fünf-Faktorenlösung bei einer Komplexität von c = 4 erreicht werden. Der höchste VSS-Fit bei drei Faktoren VSS (3) = 0.70 ist genauso hoch wie der für fünf Faktoren mit VSS (4) = 0.70. Die Ergebnisse des VSS-Kriteriums deuten tendenziell auf eine Drei- oder Fünf-Faktorenlösungen hin.
Um die Ergebnisse des VSS-Fit zu vergleichen, wird eine Parallelanalyse als weiteres Kriterium herangezogen. Dadurch bietet sich ein weiterer Indikator an, zu prüfen, welche Anzahl an Faktoren für die weiteren Analyse extrahiert werden sollten, und damit eine eindeutigere Anzahlbestimmung zu ermöglichen.
Bei der Parallelanalyse wird der vorhandene Datensatz mit Lösungen von Zufallsdaten, die die gleichen Eigenschaften wie der existierende Datensatz besitzen, verglichen. Das Bootstrap-Verfahren zieht 1000 Bootstrapstichproben aus dem vorhandenen Datensatz, um die Faktorenstruktur durch eine Sekundärstichprobe zu reproduzieren, um so eine empirische Stichprobenkennwerteverteilung zu erhalten.
In Abb. 7.2 wird durch die untere, nicht geradlinige horizontale Linie das Ergebnis der Parallelanalyse gekennzeichnet. Nach dem Kriterium der Parallelanalyse ist eine Lösung mit fünf Faktoren optimal. Dieses Ergebnis deckt sich mit dem VSS-Fit mit fünf Faktoren bei einer Faktorkomplexität von c = 4.
In Anbetracht und im Vergleich der beiden Verfahren scheint die Extraktion von fünf Faktoren die optimale Wahl. Bei der Wahl der Anzahl der Faktoren ist zu beachten, dass bei einer zu hohen Anzahl an Faktoren die Gefahr besteht, dass nicht alle Faktoren sinnvoll interpretiert werden können. Bei einer zu geringen Anzahl an Faktoren besteht hingegen die Gefahr, dass Informationen bezüglich relevanter Strukturen verlorengehen. Aus diesem Grund wurden sowohl drei als auch fünf Faktoren extrahiert, um zu prüfen, welche der Faktorenlösungen sich sinnvoll interpretieren lassen und relevante Strukturen zeigen. Die Fünf-Faktorenlösung zeichnet sich durch spezifische Strukturbildung der letzten beiden Faktoren aus. Diese Strukturbildung ermöglicht eine verbesserte Interpretation aller Faktoren. Daneben werden inhaltlich relevante Variablen auf den letzten beiden Faktoren abgebildet, die bedeutsam für eine inhaltliche Interpretation sind (vgl. Abschnitt 7.2.4 und Abschnitt 7.2.5). Aus den objektiven und inhaltlichen Kriterien erscheint eine Fünf-Faktorenlösung als besonders erklärungsstark für das zu konzipierende Instrument. Aus diesem Grund werden fünf Faktoren extrahiert und für die weitere Analyse verwendet.

7.2.4 Ergebnisse

Die erklärte Varianz nach Durchführung einer explorativen Faktorenanalyse mittels Hauptachsenmethode mit fünf Faktoren ist in Tabelle 7.2 dargestellt. In der ersten Zeile der Varianz aller Variablen im Faktor ist zu erkennen, wie erklärungsstark die einzelnen Faktoren sind. Der erste Faktor erklärt soviel Varianz wie 2.42 Variablen. Der fünfte Faktor, der die geringste Varianz auf sich vereint, kann die Varianz von 1.14 Variablen erklären. In der zweiten Zeile ist die durch die Faktoren erklärte Gesamtvarianz dargestellt. Wie zu erwarten, kann der erste Faktor die meiste Gesamtvarianz erklären, während jeweils die letzten beiden Faktoren nur noch die Hälfte der Gesamtvarianz des ersten Faktors erklären können. In der letzten Zeile sind die kumulierten Gesamtvarianzen aus der zweiten Zeile dargestellt. Insgesamt 45 % (letzte Spalte) der Varianz können durch die fünf Faktoren erklärt werden, bei einer Variablenreduktion von 70 %. Der Vergleich der kumulierten Gesamtvarianz im Vergleich zur prozentualen Reduktion der Variablen indiziert, dass trotz hoher Reduktion der Variablen ein höherer Anteil der Gesamtvarianz durch die Faktoren abgebildet wird.
Tabelle 7.2
Erklärte Varianz der Variablen je Faktor
 
Faktor 1
Faktor 2
Faktor 3
Faktor 4
Faktor 5
Varianz aller Variablen im Faktor
2.42
1.58
1.36
1.17
1.14
Erklärte Gesamtvarianz je Faktor (in %)
0.14
0.09
0.08
0.07
0.07
Kumulierte Varianz (in %)
0.14
0.24
0.32
0.38
0.45
Das Ergebnis der unrotierten Fünf-Faktorenlösung ist in Abb. 7.3 über einen Korrelationsplot dargestellt. Auf der linken Seite der Abb. 7.3 ist der Korrelationsplot mit der Höhe der Ladungen als numerischer Wert dargestellt, die Stärke der Färbung markiert die Höhe und die Richtung der Ladungen: Rot bedeutet eine negative korrelative Beziehung und Blau bedeutet eine positive korrelative Beziehung zwischen Variable und Faktor. Auf der rechten Seite der Abb. 7.3 befindet sich eine Kreisdarstellung der Ladungen. Je höher eine Ladung ist, desto dunkler und größer ist der Kreis. Die Färbung markiert, wie bei den numerischen Darstellungen, die Richtung der korrelativen Beziehungen.
Unklare Zuordnungen durch Mehrfachladungen für die unrotierten Faktorenlösung, zeigen sich für einige Variablen. Besonders hohe Nebenladungen haben die Variablen Präpositionen mit der Hauptladung auf dem ersten Faktor und hohen Nebenladungen auf dem fünften Faktor, Nominalisierung mit der Hauptladung auf Faktor 1 und einer hohen Nebenladung auf dem zweiten Faktor, lexikalische Vielfalt mit der Hauptladung auf dem zweiten Faktor und hohen Nebenladungen auf dem dritten und fünften Faktor, mathematische Begriffe mit der Hauptladung auf dem ersten Faktor und einer hohen Nebenladung auf dem fünften Faktor, Modalverben mit der Hauptladung auf dem ersten Faktor, einer fast gleich hohen Nebenladung auf dem dritten Faktor und einer weiteren hohen Nebenladung auf dem zweiten Faktor, propositionaler Gehalt mit einer Hauptladung auf dem vierten Faktor und einer hohen Nebenladung auf Faktor 2 und Zahlen mit der Hauptladung auf Faktor 1 und hohen Nebenladungen auf den Faktoren 3 und 5. Trotz der bisweilen unklaren Zuordnung einzelner Variablen zu einem bestimmten Faktor zeigt bereits die unrotierte Faktorenlösung eine Systematisierung der Variablen. Die zum Teil sehr hohen Nebenladungen der Variablen auf den verschiedenen Faktoren erschweren die Interpretation der Faktoren jedoch deutlich. Um die Interpretation der Faktorenladungen zu verbessern, wird neben der vorhandenen sogenannten Loading Matrix (Abb. 7.3) durch Rotationsverfahren eine Structure Matrix (Abb. 7.4) erzeugt. Zur Rotation werden insbesondere die Varimax- und Promax-Rotationstechniken genutzt (Backhaus et al., 2015; Bortz & Schuster, 2010). Die Varimax-Rotation ist eine orthogonale Technik, die die lineare Unabhängigkeit der Faktoren beibehält. Die Annahme bei diesem Rotationsverfahren ist die Unabhängigkeit der Faktoren.
Bei der Promax-Rotationtechnik können die Faktoren korrelativ in Beziehung stehen. Die Promax-Rotation ist eine Oblique-Technik zur Rotation (Bortz & Schuster, 2010; Handl & Kuhlenkasper, 2018; Wolff & Bacher, 2010). Gemäß Biber (2006) ist für multivariate Analysen von Sprache die Promax-Rotation die geeignete Wahl für ein Rotationsverfahren, da die zugrundeliegenden sprachlichen Faktoren unter theoretischer Perspektive miteinander in Beziehung stehen können. Jedoch ergeben sich für die Interkorrelationen von Faktoren bei einer Promax-Rotation im Allgemeinen eher geringe Ausprägungen. Die geringe Interkorrelation zwischen den Faktoren zeigt sich, in Tabelle 7.​3 zusammengefasst, ebenfalls bei den Faktorkorrelation der fünf extrahierten Faktoren nach der Promax-Rotation. Die höchste Interkorrelation liegt bei r = 0.42 zwischen den Faktoren 1 und 5.
Tabelle 7.3
Faktorenkorrelation der fünf Faktorenlösung nach Promax-Rotation
 
Faktor 1
Faktor 2
Faktor 3
Faktor 4
Faktor 5
Faktor 1
1.00
Faktor 2
0.36
1.00
Faktor 3
0.35
0.06
1.00
Faktor 4
−0.11
0.03
0.06
1.00
Faktor 5
0.42
0.20
0.26
−0.26
1.00
Weitere substanzielle korrelative Beziehungen bestehen zwischen Faktor 1 und den Faktoren 2 und 3 mit jeweils r = 0.36 und r = 0.35. Die geringste interkorrelative Beziehung besteht zwischen Faktor 2 und den Faktoren 3 und 4 mit jeweils r = 0.06 und r = 0.03, sowie zwischen Faktor 3 und 4 mit r = 0.06.
Die Ergebnisse der Promax-Rotation sind in Abbildung 7.4 als Structure Matrix dargestellt. Die Abbildung ist analog zu Abbildung 7.3 aufgebaut. Auf der linken Seite der Abbildung ist die numerische Darstellung und rechts die Kreis-Darstellung abgezeichnet. Durch die Structure Matrix nach Rotation der Fünf-Faktorenlösung ist in Abbildung 7.4 deutlich zu erkennen, dass Nebenladungen bei den Variablen durch Rotation zu einem großen Teil reduziert wurden. Es existieren nur noch vier Nebenladungen, die \(\ge\) 0.3 sind, bei den Variablen lexikalische Vielfalt, mathematische Begriffe, Modalverben und propositionaler Gehalt.
In Abbildung 7.4 ist zu erkennen, dass sich einzelne Variablen auf den Faktoren systematisieren und Variablengruppen bilden, die mit den jeweiligen Faktoren durch ihre Ladungen in Beziehung stehen. Die Variablen bilden Ladungsstrukturen auf den Faktoren. In Tabelle 7.4 sind die Ergebnisse der explorativen Faktorenanalyse nach der Promax-Rotation dargestellt.
Tabelle 7.4
Ergebnisse der explorativen Faktorenanalyse in einer standardisierte Ladungsmatrix (structure matrix)
 
Faktor 1
Faktor 2
Faktor 3
Faktor 4
Faktor 5
h2
u2
Konjunktion
0.73
−0.14
0.03
0.23
0.02
0.52
0.48
Unpersönliche Sprache
0.63
−0.03
0.02
0.25
−0.15
0.38
0.62
Präpositionen
0.52
0.05
0.09
−0.05
0.20
0.50
0.50
Nominalisierung
0.50
0.26
0.04
−0.20
−0.08
0.43
0.57
Füllwörter
0.41
0.04
0.16
0.09
0.03
0.27
0.73
Ø Silbenanzahl
−0.17
0.81
−0.17
−0.03
−0.11
0.61
0.39
Passiv
0.21
0.42
−0.33
0.01
−0.10
0.32
0.68
Lexikalische Vielfalt
−0.07
0.45
0.36
0.17
0.21
0.45
0.55
Diskontinuierlicher Text
0.21
0.42
−0.33
0.01
−0.10
0.32
0.68
Direkte Anaphorik
0.09
−0.06
0.59
−0.03
0.02
0.39
0.61
Mathematische Begriffe
0.48
0.04
−0.50
−0.04
0.33
0.50
0.40
Modalverben
0.31
0.25
0.42
−0.20
−0.12
0.47
0.53
Perfekt
0.12
−0.12
0.35
0.12
0.00
0.18
0.82
Gebräuchlichkeit des Wortschatzes
0.25
−0.15
0.06
0.63
−0.10
0.46
0.54
Propositionaler Gehalt
0.25
−0.15
0.06
0.63
−0.10
0.46
0.54
Zahlen
0.42
−0.21
0.29
−0.45
0.09
0.61
0.39
Symbole
−0.03
−0.16
0.05
−0.08
0.91
0.84
0.16
Die Ergebnisse der Faktorenanalyse lassen sich für die einzelnen Faktoren wie folgt zusammenfassen:
1.
Faktor: Auf den ersten Faktor laden acht Variablen mit r \(\ge\) 0.4 (Konjunktionen, unpersönliche Sprache, Präpositionen, Nominalisierung und Füllwörter, mathematische Begriffe, Modalverben, Zahlen). Eine Variable erreicht eine Ladung von r \(\ge\) 0.3–0.39 (Modalverben). Die restlichen Variablen erreichen für den ersten Faktor Ladungen mit r \(<\) 0.3.
 
2.
Faktor: Vier Variablen haben eine Ladung mit r \(\ge\) 0.4 auf den zweiten Faktor (durchschnittliche Silbenanzahl, Passiv, lexikalische Vielfalt, diskontinuierlicher Text). Eine weitere Variable besitzt eine Ladung von r \(\ge\) 0.3–0.39. Für den zweiten Faktor bleiben die restlichen Variablen unter r \(<\) 0.3.
 
3.
Faktor: Für den dritten Faktor ergibt sich ein Muster aus drei positiv stark korrelierten Variablen mit r \(\ge\) 0.4 (direkte Anaphorik, Modalverben und Perfekt) und eine negativ korrelierte Variable (mathematische Begriffe). Durch die negativen Ladungen differenziert sich der dritte Faktor vom ersten Faktor durch die Variable mathematische Begriffe. Zwei Variablen erreichen ein r \(\ge\) 0.3–0.39 (lexikalische Vielfalt, Perfekt) und eine negativ korrelierte Variable (diskontinuierlicher Text). Damit ergibt sich eine Unterscheidungstendenz zwischen dem dritten und zweiten Faktor. Die restlichen Variablen erreichen nur eine geringe korrelative Beziehung zum dritten Faktor mit r \(<\) 0.3.
Die korrelative Beziehung sinkt zwischen Variablen und Faktor für den vierten und fünften Faktor, was an dem in Abschnitt 7.2.1 erläuterten Algorithmus der explorativen Faktorenanalyse liegt.
 
4.
Faktor: Auf den vierten Faktor laden zwei Variablen mit r \(\ge\) 0.4 (Gebräuchlichkeit des Wortschatzes und propositionaler Gehalt), darüber hinaus hat die Variable Zahlen eine negativ korrelative Beziehung mit r \(\ge\) 0.4. Die restlichen Variablen erreichen Ladungen von r \(<\) 0.3.
 
5.
Faktor: Der letzte Faktor zeigt eine Einfachstruktur mit einer Ladung von r \(\ge\) 0.4 (Symbole) und einer weiteren geringeren Ladung mit r \(\ge\) 0.3 (mathematische Begriffe). Auf den letzten Faktor sind die restlichen Ladungen gering mit r \(<\) 0.3.
 
Ausblick: Neben der Ergebnispräsentation der explorativen Faktorenanalyse mit dem Ziel, die Strukturbildung der sprachlichen Variablen zu verdeutlichen, ist ein weiteres Ziel des Verfahrens, aufgrund der korrelativen Beziehungen der Variablen die Faktoren zu interpretieren und mit einem Label zu bezeichnen, das die Variablenbeziehungen auf den Faktor kennzeichnet.

7.2.5 Interpretation

Die Interpretation der Faktoren geschieht durch die Betrachtung der Strukturbildung der Variablen. Die Interpretation der Strukturbildung basiert auf Grundlage der sprachlichen Funktionen, die die Variablen miteinander teilen, und wird mithilfe der in Abschnitt 6.​4 gemachten funktionalen Gruppierung der Textmerkmale (Variablen) durchgeführt. Die Bezeichnung für den Faktor leitet sich durch die Ausprägung der sprachlichen Funktionen und die Ausprägung der Variablen ab, die Abbild für spezifische und bekannte Textmuster bzw. Vertextungsmuster sind. Für die Ausprägung der Variablen wird die Höhe der Ladungen der einzelnen Variablen auf den Faktoren betrachtet. Variablen mit einer hohen Ladung auf einen Faktor haben eine höhere korrelative Beziehung zu dem Faktor. Je stärker also die Ladungen, desto höher ist die Bedeutung der Variable für den Faktor (Wolff & Bacher, 2010). Bortz und Schuster (2010) nennen als Grenze einer interpretierbaren Ladung r \(\ge\) 0.40, wenn die Stichprobe mindestens N = 300 beträgt. In Anbetracht der vergleichbaren Anwendung der Faktorenanalyse zur Analyse von sprachlichen Variablen fällt die Höhe der Ladungen im Schnitt geringer aus als bei anderen methodischen Verwendungen der Faktorenanalyse, beispielsweise bei der Analyse von psychologischen Konstrukten (Biber, 1985, 2006; Biber et al., 2002; Biber & Gray, 2013b). Besonders für den letzten Faktor – da die erklärte Gesamtvarianz ab dem ersten Faktor abnimmt – können Korrelationen unter diesem Schwellenwert jedoch eine Hilfestellung für die Interpretation darstellen. Aus diesem Grund werden aus theoretischen, aber auch empirischen Überlegungen insbesondere für den letzten Faktor, der geringere Ladungen von Variablen aufweist, zur Verbesserung der Interpretation insgesamt auch Ladungen mit r \(\ge\) 0.3 berücksichtigt.
In Tabelle 7.5 ist die Interpretation der Ladungen mit einer Bedeutungszuschreibung verdeutlicht. Die geringste noch zu bewertende Ausprägung liegt bei r \(\ge\) 0.3 mit einer sehr geringen Bedeutung. Ladungen von Variablen mit r \(\ge\) 0.4 haben eine geringe Bedeutung für den Faktor. Eine Ladung von r \(\ge\) 0.5 wird als mittlere Bedeutung eingeordnet. Eine hohe Bedeutung haben Ladungen mit r \(\ge\) 0.7.
Tabelle 7.5
Interpretation der Bedeutung der Ausprägungen der Variablen zur Verdeutlichung der Relevanz der Variablen für den Faktor
Ladung
Bedeutung
\(\ge\) 0.7
Hoch
\(\ge\) 0.5 – \(<\) 0.7
Mittel
\(\ge\) 0.4 – \(<\) 0.5
Gering
\(\ge\) 0.3 – \(<\) 0.4
Sehr gering
Die in Tabelle 7.5 geleistete Bedeutungszuschreibung und die Zuordnung der funktionalen Gruppierung aus Abschnitt 6.​4 in sprachliche Funktionen, Sprecherstrategie und Textmerkmale ermöglichen eine Interpretation der Strukturbildung der Variablen auf den Faktoren. Dadurch wird ermöglicht, eine passende Bezeichnung für die Faktoren zu finden, die die strukturelle Gestalt der Textmerkmale widerspiegelt.
Interpretation des ersten Faktors: In Tabelle 7.6 ist die Zusammenfassung der Ergebnisse für die Interpretation des ersten Faktors dargestellt. Die Variable Konjunktionen hat als einzige Variable eine hohe Bedeutung für den Faktor. Drei weitere Variablen (unpersönliche Sprache, Präpositionen und Nominalisierung) haben eine mittlere Bedeutung. Bei den Variablen mit hoher oder mittlerer Bedeutung kommen zwei Variablen mit der Sprecherstrategie Relatoren und der sprachlichen Funktion Textaspekt vor, die damit im oberen Bereich der Bedeutungszuschreibung besonders repräsentativ für diesen Faktor sind. Für diesen Faktor sind demnach Textmerkmale charakteristisch, die Verknüpfungs- und Verhältnismöglichkeiten herstellen.
Tabelle 7.6
Inhaltliche Interpretation der Faktoren durch Zuordnung funktionaler und strategischer Aspekte der Textmerkmale des ersten Faktors
Faktor 1
Gemeinsames Vorkommen der Textmerkmale
Sprachliche Funktion
Sprecherstrategie
Bedeutung
 
Konjunktionen
Textaspekt
Relatoren
Hoch
 
Unpersönliche Sprache
Beziehungsaspekt
Verallgemeinern
Mittel
 
Präpositionen
Textaspekt
Relatoren
Mittel
 
Nominalisierung
Inhaltsaspekt
Verdichten
Mittel
 
Mathematische Begriffe
Inhaltsaspekt
Explizieren
Gering
 
Zahlen
Inhaltsaspekt
Explizieren
Gering
 
Füllwörter
Beziehungsaspekt
Diskutieren
Gering
Die zwei weiteren Variablen mit einer mittleren Bedeutung (unpersönliche Sprache und Nominalisierung) sind jeweils unterschiedlichen sprachlichen Funktionen und Sprecherstrategien zugeordnet. Die Variable unpersönliche Sprache ist dem Beziehungsaspekt und der Sprecherstrategie Verallgemeinern zugeordnet, während die Variable Nominalisierung zum Inhaltsaspekt und zur Sprecherstrategie Explizieren gruppiert wurde. Bezüglich der sprachlichen Funktion Inhaltsaspekt sind zwei weitere Variablen (mathematische Begriffe und Zahlen) mit geringer Bedeutung für diesen Faktor charakteristisch. Die drei Variablen, die der sprachlichen Funktion Inhaltsaspekt zugeordnet sind, weisen auf eine Akzentuierung des ersten Faktors auf begriffliche bzw. objektbezogene Aspekte hin. Die Bedeutung von Relatoren und objekt- bzw. begriffsbezogenen Aspekten lässt sich als im Text hierarchiehohe Substantive deuten (Nominalisierung und mathematische Begriffe), die durch Relatoren (Konjunktionen und Präpositionen) mit weiteren hierarchieniedrigen Bedeutungseinheiten verknüpft werden (Jahr, 2008). Nach Jahr (2008) sind der Aufbau von hierarchiehohen und -niedrigen Strukturen und die dazu verwendeten Textmerkmale typisch für erklärende Texte. Erklärungstexte haben die Funktion der Wissensvermittlung, wobei die inhaltlichen Elemente die Verwendung von anderen Indikatoren wie Konjunktionen und Präpositionen bestimmen. Ziel eines erklärenden Textes ist die Verknüpfung von Handlungen, Behauptungen, Zuständen und Ereignissen, um daraus Ableitungen zur Rechtfertigung, Widerlegung und Zurückführung herzustellen. Gemäß Neumann (2013) kann vermutet werden, dass in erklärenden Texten eine Häufung von relationalen Prozessen vorzufinden ist. Biber (2006) subsumiert unter erklärenden Texten ein hohes Vorkommen von Substantiven und Nominalisierungen.
Die Sprecherstrategie Explizieren deutet auf die Vermittlung der mathematischen (bedeutsamen) Inhalte hin, während die Nominalisierung die Vermittlung auf die wesentlichen Inhalte verdichten soll. Dahingehend ist ebenfalls die Bedeutung der Variable unpersönliche Sprache zu interpretieren; da für den ersten Faktor die Vermittlung von inhaltlichen und objektbezogenen Aspekten so zentral ist, werden keine subjektbezogenen Spezifika bei der Vermittlung des Textes verwendet. Nach Neumann (2013) kann von einer häufigen Verwendung der dritten Person durch das Pronomen es für erklärende Texte ausgegangen werden, um eine objektive Perspektive einzunehmen. Der erste Faktor lässt sich als geprägt von der Vermittlung von fachlichen und objektbezogenen Aspekten, die sich im Text durch Verknüpfungs- und Verhältnisstrukturen auszeichnen, interpretieren.
Bezeichnung der ersten Dimension: Die geschilderte Interpretation des Zusammenhangs der Verknüpfung und das In-Verhältnis-Setzen von inhaltlichen und objektbezogenen Gegenständen ist, wie erläutert, typisch für erklärende Texte. Es werden (mathematische) Begriffe, objektivierte Handlungen (Nominalisierung) oder Objekte durch Konjunktionen oder Präpositionen in Beziehung und Verhältnis gesetzt. Die ausgeführte Interpretation der ersten Dimension lässt sich damit deuten, dass der Begriff der Erklärung das gemeinsame Vorkommen der Textmerkmale am besten beschreibt. Aus diesem Grund wird der erste Faktor mit dem Label erklärend bezeichnet (vgl. Tab. 7.11).
Interpretation des zweiten Faktors: In Tabelle 7.7 ist die Zusammenfassung der Zuordnungen für den zweiten Faktor dargestellt. Für den zweiten Faktor hat die Variable Ø Silbenanzahl eine hohe Bedeutung. Die durchschnittliche Silbenanzahl ist der sprachlichen Funktion des Inhaltsaspekts und der Sprecherstrategie Verdichten zugeordnet. Dieser sprachlichen Funktion und der Sprecherstrategie ist eine weitere Variable zugeordnet (propositionaler Gehalt), jedoch mit einer sehr geringen Bedeutung. Trotz dessen ist von einer hohen Bedeutung der Sprecherstrategie Verdichten auszugehen, mit einer Akzentuierung auf die Realisierung durch die Variable durchschnittliche Silbenanzahl. Die hohe Bedeutung der Sprecherstrategie des Verdichtens lässt sich auch aufgrund der restlichen drei Variablen ableiten, die eine geringe Bedeutung für den zweiten Faktor aufweisen. Zwei Variablen (lexikalische Vielfalt und diskontinuierlicher Text) sind der sprachlichen Funktion Textaspekt und der Sprecherstrategie Referenzen zugeordnet. Damit haben in geringem Ausmaß die Verwendung von Text-Text-Referenzen (lexikalische Vielfalt) und Bild-Text-Referenzen (diskontinuierlicher Text) eine Bedeutung für den zweiten Faktor.
Tabelle 7.7
Inhaltliche Interpretation der Faktoren durch Zuordnung funktionaler und strategischer Aspekte der Textmerkmale des zweiten Faktors
Faktor 2
Gemeinsames Vorkommen der Textmerkmale
Sprachliche Funktion
Sprecherstrategie
Bedeutung
 
Ø Silbenanzahl
Inhaltsaspekt
Verdichten
Hoch
 
Passiv
Beziehungsaspekt
Verallgemeinern
Gering
 
Lexikalische Vielfalt
Textaspekt
Referenzen
Gering
 
Diskontinuierlicher Text
Textaspekt
Referenzen
Gering
 
Propositionaler Gehalt
Inhaltsaspekt
Verdichten
Sehr gering
In Anbetracht der hohen Bedeutung der Sprecherstrategie des Verdichtens und der sprachlichen Funktion Inhaltsaspekt lässt sich die Referenzstrategie interpretieren. Die Verwendung der lexikalischen Vielfalt als Herstellung von Text-Text-Referenzen deutet unter der Perspektive einer hohen Bedeutung des Verdichtens darauf hin, dass die Kohärenz im Text durch synonyme Textverweise hergestellt wird. Daher ist die Verwendung der lexikalischen Vielfalt, im Vergleich zum expliziten Verweis, als Tendenz des Verzichts von gleichartigen Informationen zu interpretieren. Die Vermeidung zusätzlicher Verweise lässt sich auch für Text-Bild-Referenzen interpretieren. Durch Abbildungen, Tabellen und andere Darstellungen werden Informationen zusammengefasst. Darüber hinaus hat eine weitere Variable (Passiv), die der sprachlichen Funktion Beziehungsaspekt und der Sprecherstrategie Verallgemeinern zugeordnet ist, eine geringe Bedeutung für den zweiten Faktor. Die Verwendung des Passivs in Hinsicht der bereits gemachten Interpretation lässt sich als Fokussierung auf die Handlungen und Zustände interpretieren.
Die Textmerkmale des zweiten Faktors weisen auf eine objektive Vermittlung von Gegenständen hin. Gemäß Heinemann (2008) ist die objektive Vermittlung von Gegenständen typisch für beschreibende Texte, die eine Sachbetonung mit einer Beschreibungsabfolge aufweisen. In Hinblick auf die Bedeutsamkeit der Verdichtung (durchschnittliche Silbenanzahl) und Reduktion (lexikalische Vielfalt und diskontinuierlicher Text) kommt das beschreibende Textmuster verstärkt komprimierend auf die Sachbetonung vor.
Bezeichnung des zweiten Faktors: Der zweite Faktor ist besonders durch die bedeutsame Variable durchschnittliche Silbenanzahl ausgezeichnet. In Hinblick auf die sprachlichen Funktionen und die Sprecherstrategie ergeben sich die Vermeidung von expliziten Verweisen, die Zusammenfassung von Informationen und eine deutliche Sachbetonung. Das gemeinsame Vorkommen der Variablen im zweiten Faktor verweist auf eine beschreibende Vertextung, jedoch mit Fokus auf die komprimierende Nutzung von Textmerkmalen zur Verstärkung der Sachbetonung. Aus diesem Grund wird der zweite Faktor mit dem Label komprimierend bezeichnet (vgl. Tab. 7.11).
Interpretation des dritten Faktors: Für den dritten Faktor ist die Zusammenstellung der Variablen in Tabelle 7.8 dargestellt. Die Variable direkte Anaphorik hat eine hohe Bedeutung für den dritten Faktor. Die Variable direkte Anaphorik ist der sprachlichen Funktion Textaspekt und der Sprecherstrategie Referenzen zugeordnet. Die restlichen Variablen, die eine positive Beziehung zum dritten Faktor haben, haben eine geringe (Modalverben) bzw. sehr geringe (lexikalische Vielfalt und Perfekt) Bedeutung. Genau wie die Variable direkte Anaphorik mit ihrer hohen Bedeutung ist die Variable lexikalische Vielfalt der sprachlichen Funktion Textaspekt und der Sprecherstrategie Referenzen zugeordnet. Ebenfalls auffällig ist, dass die beiden Variablen Modalverben und Perfekt vorkommen die jeweils der sprachlichen Funktion Beziehungsaspekt und der Sprecherstrategie Diskutieren zugeordnet sind.
Tabelle 7.8
Inhaltliche Interpretation der Faktoren durch Zuordnung funktionaler und strategischer Aspekte der Textmerkmale des dritten Faktors
Faktor 3
Gemeinsames Vorkommen der Textmerkmale
Sprachliche Funktion
Sprecherstrategie
Bedeutung
 
Direkte Anaphorik
Textaspekt
Referenzen
Hoch
 
Modalverben
Beziehungsaspekt
Diskutieren
Gering
 
Lexikalische Vielfalt
Textaspekt
Referenzen
Sehr gering
 
Perfekt
Beziehungsaspekt
Diskutieren
Sehr gering
Negative Korrelation
Mathematische Begriffe
Inhaltsaspekt
Explizieren
Mittel
 
Diskontinuierlicher Text
Textaspekt
Referenzen
Sehr gering
Da die lexikalische Vielfalt nur eine sehr geringe Bedeutung hat, werden für die direkte Anaphorik weniger Pronomen und Adverbien verwendet, sondern eher Eigennamen zur Herstellung von direkten anaphorischen Bezügen. Darüber hinaus weisen die hohen Bedeutungen der Variablen, die der Sprecherstrategie zugeordnet sind, auf Wiederaufnahmestrukturen hin. Unter dieser Perspektive lassen sich die Variablen Modalverben und Perfekt mit der geringen bzw. sehr geringen Bedeutung interpretieren. Die Wiederaufnahme von Satzteilen durch Referenzen weist für die Modalität und die Verwendung des Perfekts auf Aspekte hin, die es zu beurteilen gilt.
Neben der positiven Beziehung besitzen zwei Variablen (mathematische Begriffe und diskontinuierlicher Text) eine negative Beziehung zum dritten Faktor. Die Variable mathematische Begriffe ist der sprachlichen Funktion Inhaltsaspekt und der Sprecherstrategie Explizieren zugeordnet und hat eine mittlere negative Bedeutung für den Faktor. Die negative Beziehung der Variable mathematische Begriffe macht deutlich, dass sich die Ausführungen durch die Referenzen nicht hauptsächlich auf Begriffe beziehen, sondern eine Ausprägung auf Handlungen und Beurteilungen besteht, repräsentiert durch die Variablen Modalverben und Verben im Perfekt. Die zweite negative Variable diskontinuierlicher Text, die der sprachlichen Funktion Textaspekt und der Sprecherstrategie Referenzen zugeordnet ist, hat eine sehr geringe negative Bedeutung. Die negative Beziehung der Variable diskontinuierlicher Text mit dem dritten Faktor lässt sich als eine Fokussierung von direkten Text-Text-Bezügen und die beschreibende Vermittlung von Informationen durch Wiederaufnahmestrukturen interpretieren.
Die deutliche Ausprägung von Wiederaufnahmestrukturen weist auf eine partikuläre sequenzielle Ordnung hin. Nach Beaugrande und Dressler (1981) ist das partikuläre sequenzielle Ordnen in Texten typisch für narrative Texte. Gemäß Halliday (2014a) lassen sich für narrative Textformen eine Erhöhung von Verben und eine Reduktion von Substantiven und Nominalisierungen feststellen. Dies wird in Faktor 3 deutlich; so kommen Modalverben und Verben im Perfekt vor, während mathematische Begriffe negativ korrelieren. Laut Biber (2006) ist ebenfalls die Erhöhung von Personalpronomen zu erwarten. In Hinblick auf den dritten Faktor werden statt Personalpronomen frequentiert Eigennamen als Textmerkmale genutzt. Werlich (1976) nennt die abgeschlossene Vergangenheit als Kennzeichen für narrative Texte. Dies steht im Gegensatz zur Verwendung von Verben im Perfekt als bedeutendes Textmerkmal für den dritten Faktor. Hatim und Mason (1990) verweisen jedoch auf die Beziehung zwischen narrativen Texten und beschreibenden Texten, die als Subtyp von narrativen Texten kategorisiert werden kann. Dagegen spricht die häufige Darstellung von beschreibenden Texten als möglichst objektive Darstellung von Gegenständen, beispielsweise durch Textmerkmale wie das Passiv (Heinemann, 2008). Die objektive Darstellung lässt sich jedoch in Hinblick auf die diskutierenden Textmerkmale interpretieren, die die persönlichen Darstellungen relativieren und für ein beschreibenden Text sprechen.
Bezeichnung des dritten Faktors: Für den dritten Faktor sind besonders die sprachlichen Funktionen Textaspekt und Beziehungsaspekt und die Sprecherstrategien Referenzen und Diskutieren bedeutend. Aus der Interpretation des dritten Faktors und der geschilderten Bedeutung von sowohl Referenzen als auch diskutierenden Textmerkmalen können Teil-Ganzes-Beziehungen mit den geschilderten Wiederaufnahmestrukturen als typisch erachtet werden. Dahingehend sind die bedeutenden Textmerkmalsmuster typisch für das Beschreiben. Aus den Ausführungen erhält der dritte Faktor die Bezeichnung beschreibend (vgl. Tab. 7.11).
Interpretation des vierten Faktors: Die Zuordnung des gemeinsamen Vorkommens der Variablen des vierten Faktors ist in Tabelle 7.9 abgebildet. Alle Variablen, die eine relevante Bedeutung für den Faktoren haben, lassen sich der sprachlichen Funktion Inhaltsaspekt zuordnen. Zwei Variablen (Gebräuchlichkeit des Wortschatzes und propositionaler Gehalt) haben eine mittlere Bedeutung für den Faktor. Die Variable Gebräuchlichkeit des Wortschatzes, die der Sprecherstrategie Explizieren zugeordnet ist, verweist darauf, dass zur Vermittlung der Inhalte im Text tendenziell Standardvokabular mit einer hohen Wiedererkennung verwendet wird. Die Variable propositionaler Gehalt, die der Sprecherstrategie Verdichten zugeordnet ist, lässt Rückschlüsse auf die Art der Informationsvermittlung der in der Tendenz gebräuchlichen Verwendung von Wörtern zu. So lässt sich die Verbindung von der Gebräuchlichkeit des Wortschatzes und dem propositionalen Gehalt des Textes als die Vermittlung von vielen Inhalten mithilfe von leicht verständlichem Vokabular auslegen. Die Variable Zahlen, die zu der sprachlichen Funktion Inhaltsaspekt und der Sprecherstrategie Explizieren gruppiert wurde, hat eine geringe Bedeutung für den vierten Faktor. Die negative Bedeutung der Variable Zahlen lässt sich dahingehend deuten, dass die Vermittlung der Inhalte nur explizit durch Wörter stattfindet und keine numerische Explikation der Daten und Informationen erforderlich ist.
Tabelle 7.9
Inhaltliche Interpretation der Faktoren durch Zuordnung funktionaler und strategischer Aspekte der Textmerkmale des vierten Faktors
Faktor 4
Gemeinsames Vorkommen der Textmerkmale
Sprachliche Funktion
Sprecherstrategie
Bedeutung
 
Gebräuchlichkeit des Wortschatzes
Inhaltsaspekt
Explizieren
Mittel
 
Propositionaler Gehalt
Inhaltsaspekt
Verdichten
Mittel
Negative Korrelation
Zahlen
Inhaltsaspekt
Explizieren
Gering
Gemäß Jahr (2008) können alltagssprachliche von wissenschaftssprachlichen Erklärungstexten unterschieden werden. Alltagssprachliche Texte haben das Ziel, zu informieren, während bei wissenschaftlichen Texten die wissensvermittelnde Funktion im Vordergrund steht. In Hinblick auf die Variablen Gebräuchlichkeit des Wortschatzes und propositionaler Gehalt sind von Erklärungstexten auszugehen, die aufgrund der Orientierung an alltagssprachlicher Kommunikation eine informierende Funktion erfüllen.
Bezeichnung des vierten Faktors: Die Gebräuchlichkeit des Wortschatzes verweist auf das Explizieren von Handlungen und Gegenständen mit bekannten Wörtern bei einer hohen Vermittlungsdichte, repräsentiert durch die mittlere Bedeutung des propositionalen Gehalts. Dieses Textmuster des Erklärens mit bekannten Wörtern bei hoher Vermittlungsleistung zeichnet sich zur Vermittlung von Informationen aus. Außerdem lässt sich die negative Bedeutung der Variable Zahlen als die Fokussierung auf die Versprachlichung durch Wörter interpretieren, durch die keine numerische Quantifizierung erfolgt. Die Textmerkmalsmuster weisen aufgrund der Ausführungen und Interpretationen auf eine informationsbezogene Verwendung des Textes hin, infolge dessen der vierte Faktor als informativ bezeichnet wird (vgl. Tab. 7.11).
Interpretation der fünften Dimension: Die Zusammenfassung der Textmerkmalsmuster des fünften Faktors sind in Tabelle 7.10 abgebildet. Für den fünften Faktor hat die Variable Symbole eine hohe Bedeutung und ist der sprachlichen Funktion Inhaltsaspekt und der Sprecherstrategie Verdichten zuzuordnen. Die zweite Variable (mathematische Begriffe), die dem fünften Faktor zugeordnet wird, hat nur eine sehr geringe Bedeutung für den Faktor und ist in der sprachlichen Funktion Inhaltsaspekt und der Sprecherstrategie Explizieren gruppiert. Für die fünfte Dimension ist damit eine funktionale Ausrichtung in Bezug auf den Inhaltsaspekt festzustellen.
Tabelle 7.10
Inhaltliche Interpretation der Faktoren durch Zuordnung funktionaler und strategischer Aspekte der Textmerkmale des fünften Faktors
Faktor 5
Gemeinsames Vorkommen der Textmerkmale
Sprachliche Funktion
Sprecherstrategie
Bedeutung
 
Symbole
Inhaltsaspekt
Verdichten
Hoch
 
Mathematische Begriffe
Inhaltsaspekt
Explizieren
Sehr gering
Das Textmuster deutet damit auf die inhaltliche und zum hohen Anteil verdichtende Vermittlung hin. Die zwei bedeutsamen Variablen deuten auf eine instruktive Vertextung hin, da nach Möhn (1991) für instruktive Texte typisch ist, dass neben der Anleitung oder Aufforderung selbst nur notwendige Informationen, die für die Durchführung der Handlung benötigt werden, vermittelt werden.
Bezeichnung der fünften Dimension: Die Fokussierung auf den Inhaltsaspekt, besonders durch die hohe Bedeutung der Verdichtung durch Symbole und der Bedeutung der Explikation durch mathematische Begriffe, deutet damit auf eine instruktive Verwendung des Textes hin. Wird ergänzend zu der Faktorenlösung die nichtrotierte Lösung in Abbildung 7.3 zur Interpretation mitbetrachtet, verstärkt sich diese Deutung. Neben der Variable Zahlen erreichen die Variablen Präpositionen und lexikalische Vielfalt bedeutsame Ausprägungen. Das deutet darauf hin, dass die Inhalte des Textes auf die zentralen Elemente des Textes kondensiert werden. Dadurch wird auf die notwendigen Informationen im Text mit dem nötigen Textmerkmal bei gleichzeitigem Weglassen aller unnötigen Informationen referiert. Aus diesem Grund wird der fünfte Faktor mit dem Label instruktiv bezeichnet (vgl. Tab. 7.11).
Aus der Interpretation der Faktoren ergeben sich Vertextungszusammenhänge zwischen den Faktoren. So wurden durch die Faktorenanalyse im ersten und vierten Faktor Textmerkmale systematisiert, die zur Explikation verwendet werden und unter der Bezeichnung erklärend und informativ differenziert wurden. Darüber hinaus wurden Textmerkmale in den zweiten und dritten Faktor empirisch zusammengefasst, die dem Vertextungsmuster Deskription dienen. Die Deskription wird durch die interpretierten Bezeichnungen komprimierend und beschreibend unterschieden. Separiert ist das Vertextungsmuster Instruktion, das sich mit den zusammengefassten Textmerkmalen des fünften Faktors in Beziehung deuten lässt und mit der Bezeichnung instruktiv gekennzeichnet wurde (Abbildung 7.5).

7.3 Zusammenfassung

Das Potenzial von korpusbasierten Verarbeitungen von Sprache kann durch neue computerbasierte Methoden als besonders hoch eingeschätzt werden. Es können die im Mathematikunterricht vorkommenden Texte analysiert und zentrale Charakteristika beschrieben werden. Neben der manuellen Annotation von sprachlichen Merkmalen dient die automatische Annotation als mächtiges Werkzeug zur Quantifizierung von Textmerkmalen in einem großen Textkorpus.
Die explorative Faktorenanalyse bietet eine methodische Möglichkeit, die systematische Variation von Textmerkmalen zu untersuchen. Es kann das gemeinsame Vorkommen von Textmerkmalen auf den Faktoren bestimmt werden. Dies bietet die Möglichkeit, die Faktoren in einer sprachbezogenen Perspektive zu interpretieren. Aufgrund der Testkriterien und inhaltlichen Abwägungen ist eine Extraktion von fünf Faktoren besonders erklärungsstark. Die Faktoren zeichnen sich durch die charakteristischen Gruppierungen der Variablen aus. Die Gruppierung entwickelt sich aufgrund der unterschiedlich hohen korrelativen Beziehungen (Ladungen) zwischen Variablen und Faktoren. Damit lassen sich die Faktoren voneinander unterscheiden. Die Unterscheidbarkeit kann durch eine Promax-Rotation verbessert werden; so lassen sich die Faktoren besser interpretieren.
Tabelle 7.11
Zusammenfassung der Bezeichnung der Faktoren nach der Interpretation und Zusammenhang mit den interpretierten Vertextungsmustern
Faktor
Bezeichnung
Vertextungsmuster
Definition
1
Erklärend
Explikation
Unter den erklärenden sprachlichen Faktor in mathematischen Textaufgaben kann eine explikative sprachliche Verwendung zur Formulierung von Aufgaben verstanden werden. Die explikative sprachliche Verwendung bezieht sich auf die inhaltliche Vermittlung und die Beziehung der Inhalte und zeichnet sich durch die Nutzung von begrifflich geprägten und relationalen Textmerkmalen aus.
2
Komprimierend
Deskription
Unter den komprimierenden sprachlichen Faktor in mathematischen Textaufgaben kann eine deskriptive sprachliche Verwendung zur Formulierung von Aufgaben verstanden werden. Die deskriptive sprachliche Verwendung bezieht sich auf eine verdichtende Vermittlung der Wörter in einem allgemeinen Zusammenhang unter der Nutzung von Referenzstrukturen und zeichnet sich durch die Nutzung von durchschnittliche Silbenzahl, diskontinuierliche Texte, Passiv und lexikalische Vielfalt als Textmerkmale aus.
3
Beschreibend
Deskription
Unter den beschreibenden sprachlichen Faktor in mathematischen Textaufgaben kann eine deskriptive sprachliche Verwendung zur Formulierung von Aufgaben verstanden werden. Die deskriptive sprachliche Verwendung bezieht sich auf textuelle Referenzen in einem diskursiven Zusammenhang und zeichnet sich durch die Nutzung von direkten anaphorischen Bezügen, Modalverben und der lexikalischen Vielfalt als Textmerkmale aus.
4
Informativ
Explikation
Unter den informativen sprachlichen Faktor in mathematischen Textaufgaben kann eine explikative sprachliche Verwendung zur Formulierung von Aufgaben verstanden werden. Die explikative sprachliche Verwendung bezieht sich auf eine hohe Informationsübertragung und zeichnet sich durch die Verwendung von vielen Propositionen pro Satz und einem gebräuchlichen Wortschatz aus.
5
Instruktiv
Instruktion
Unter den instruktiven sprachlichen Faktor in mathematischen Textaufgaben kann eine nutzbringende sprachliche Verwendung zur Formulierung von Aufgaben verstanden werden. Die nutzbringende sprachliche Verwendung bezieht sich auf das intendierte Ziel einer Aufgabenstellung und zeichnet sich durch die Nutzung von fachlichen Symbolen und mathematischen Begriffen als Textmerkmale aus.
Durch die sprachlich-funktionale Gruppierung der Textmerkmale und der Bedeutungszuschreibung der Ladungen sind die Interpretation und die Bezeichnung der Faktoren möglich, indem das gemeinsame Vorkommen der Textmerkmale in Beziehung zu bekannten Vertextungsmustern gesetzt wird. Die Bezeichnungen nach der Interpretation für die fünf Faktoren sind in Tabelle 7.11 zusammengefasst.
Durch die empirische Bildung von sprachlichen Faktoren wurde die dritte Zielsetzung zur Entwicklung eines Instruments zur sprachlichen Variation von mathematischen Textaufgaben realisiert. Die Faktoren lassen sich als die sprachlichen Variationen von Textaufgaben deuten, die tatsächlich in den Textaufgaben im Mathematikunterricht vorkommen und unterschiedliche Funktionen erfüllen, die sich durch die Charakterisierung von typischen Funktionen und Vertextungsmustern abbilden.
Ausblick: Die Extraktion der sprachlichen Faktoren war der erste Teil des Studiendesigns. Die extrahierten Faktoren werden in den weiteren parallelen Studiendesigns dafür genutzt, in einem zweiten quantitativen Studienteil den Effekt auf die Aufgabenschwierigkeit festzustellen. Die Ermittlung des Effekts auf die Aufgabenschwierigkeit erlaubt Rückschlüsse auf die sprachlichen Anforderungen, die mit den sprachlichen Faktoren verbunden sind.
Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://​creativecommons.​org/​licenses/​by/​4.​0/​deed.​de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
Metadaten
Titel
Erste quantitative Studie
verfasst von
David Bednorz
Copyright-Jahr
2021
DOI
https://doi.org/10.1007/978-3-658-33003-3_7