1 Einleitung

Lernstrategien wird eine hohe Bedeutung für den Lernprozess zugesprochen. Dies ist theoretisch in einer kognitiv-konstruktivistischen Perspektive begründet, die Lernen als einen aktiven Informationsverarbeitungsprozess auffasst, der von Lernenden durch den Einsatz gewisser Verhaltensweisen und Gedanken beeinflusst werden kann. Solche Verhaltensweisen und Gedanken, die Lernende zur Beeinflussung ihres Wissenserwerbs einsetzen, definiert man als Lernstrategien (Mandl und Friedrich 2006; Weinstein und Mayer 1986; Wild 2005). Empirisch finden sich in fachübergreifenden Metastudien niedrige bis mittlere positive Korrelationen zwischen bestimmten Lernstrategien und Klausurleistungen (z. B. Broadbent und Poon 2015; Dent und Koenka 2016; Richardson et al. 2012) und mittlere bis hohe Korrelationen zwischen einigen Lernstrategien und motivationalen Faktoren wie intrinsischer Zielorientierung, Selbstwirksamkeitserwartung, Aufgabenwert oder Studienzufriedenheit (z. B. Credé und Phillips 2011; Künsting und Lipowsky 2011).

Zur empirischen Untersuchung von Lernstrategien werden sowohl Beobachtungsverfahren als auch Selbstberichtsverfahren wie Fragebögen, Interviews, lautes Denken oder Lerntagebücher eingesetzt, die alle ihre spezifischen Vor- und Nachteile haben (Boekaerts und Corno 2005; Roth et al. 2016; Spörer und Brunstein 2006). Oft werden Lernstrategien über Fragebögen erfasst, wobei der „Motivated Strategies for Learning Questionnaire“ (MSLQ; Pintrich et al. 1991) das am häufigsten eingesetzte Instrument ist (Roth et al. 2016; Dinsmore et al. 2008; Wehner 2019). Eine deutschsprachige Adaption davon ist das „Inventar zur Erfassung von Lernstrategien im Studium“ (LIST; Schiefele und Wild 1994), das Grundlage des hier vorgestellten Fragebogens ist. Übergeordnet werden darin (a) kognitive Strategien, (b) metakognitive Strategien und (c) ressourcenbezogene Strategien unterschieden.

Kognitive Strategien sind solche, die unmittelbar der Aufnahme, Verarbeitung und Speicherung von Information dienen. Wird neues Wissen in die bestehende Wissensstruktur integriert, z. B. durch die Formulierung in eigenen Worten oder das Bilden von Zusammenhängen und Analogien, spricht man von Elaborationsstrategien. Lerntätigkeiten, die Wissen z. B. durch das Herausarbeiten wichtiger Fakten und Argumentationslinien in eine leichter zu verarbeitende Form transformieren, werden Organisationsstrategien genannt. Beim Wissensaufbau durch aktives Wiederholen einzelner Fakten, Zusammenhänge oder Regeln, spricht man von Wiederholungsstrategien (z. B. Schiefele und Wild 1994).

Metakognitive Strategien steuern und kontrollieren den Einsatz der kognitiven Strategien. Man unterscheidet dabei in der Regel die drei Phasen Planen, Überwachen und Regulieren, in denen der Einsatz kognitiver Strategien geplant, der resultierende Lernerfolg evaluiert, und dementsprechend das weitere Vorgehen angepasst wird (z. B. Schiefele und Wild 1994).

Unter ressourcenbezogenen Strategien werden Selbstmanagementaktivitäten verstanden, welche die Lernaktivitäten insgesamt organisieren. Dies umfasst die Bereitstellung und Kontrolle interner Ressourcen wie der eigenen Anstrengung, Aufmerksamkeit, Konzentration und des eigenen Zeitbudgets, sowie die Nutzung externer Ressourcen wie Literatur oder der Zusammenarbeit mit anderen (z. B. Schiefele und Wild 1994).

Die Zusammenhänge zwischen Lernstrategien und Leistungen fallen empirisch oft geringer aus als theoretisch erwartet (z. B. Cho und Heron 2015; Griese 2017; Schiefele et al. 2003). Verschiedene Messverfahren können insbesondere bei jüngeren Befragten verschiedene Ergebnisse liefern (z. B. Artelt 2000; Souvignier und Rös 2005). Mögliche Gründe dafür sind, dass für die Beantwortung von Fragebogenitems in der Regel stark von konkreten Anwendungsbedingungen abstrahiert werden muss und die Antworten somit nur begrenzt valide sind (Artelt 2000). Außerdem sind die Prüfungsverfahren an Hochschulen möglicherweise nicht geeignet, qualitativ hochwertige Lernresultate zu erfassen (Schiefele et al. 1995; Wild 2005). Allerdings zeigen auch andere Erhebungsverfahren oft keine deutlicheren Zusammenhänge zu Leistungen (Jamieson-Noel und Winne 2003; Schiefele 2005). Wesentlicher ist die Passung von eingesetzten Lernstrategien, Erhebungsinstrument und Leistungsmessung. Etwa finden sich bei aufgabennaher Erfassung von Lernstrategien, z. B. mittels lautem Denken, die höchsten Korrelationen (z. B. Dent und Koenka 2016). Leopold und Leutner (2002) zeigen zudem, dass auch per Fragebogen erhobene Lernstrategien mit Leistung hoch korrelieren, wenn die Lernstrategieitems passend zur konkreten Lernsituation formuliert sind und Leistung verständnisorientiert erfasst wird.

Solche Befunde zeigen sich in Studien speziell zum Lernen von Mathematik noch deutlicher: In der Regel entsprechen die Korrelationsmuster zwischen Klausurleistung und metakognitiven bzw. ressourcenbezogenen Strategien denen anderer Fachrichtungen (z. B. Dent und Koenka 2016). Allerdings sind fachunspezifisch erhobene kognitive Lernstrategien und Mathematikleistungen meistens unkorreliert (z. B. Cho und Heron 2015; Dent und Koenka 2016; Griese 2017). Wenn Lernstrategien dagegen fachspezifisch erhoben werden, zeigen sich teils deutliche positive Zusammenhänge zwischen Mathematikleistungen und elaborierteren Strategien (Eley und Meyer 2004; Kolter et al. 2018; Rach und Heinze 2013) und negative Zusammenhänge zwischen Mathematikleistung und Wiederholungsstrategien (Eley und Meyer 2004; Kolter et al. 2018).

Die Erfassung der fachspezifischen Feinheiten erfolgreichen Lernens scheint also besonders für die kognitiven Lernstrategien wichtig. Dies wird durch die Ratgeberliteratur zum Lernen von Hochschulmathematik unterstützt. Demnach sollten fachmathematische Texte nicht wie andere Texte gelesen, sondern vielmehr, nachdem sie kurz überflogen wurden, Stück für Stück mithilfe einer bewussten Aktivierung des Vorwissens erschlossen werden (z. B. Alcock 2017; Hilgert et al. 2015; Houston 2012; Stewart 2008). Das Generieren von Beispielen, Diagrammen und Skizzen zum Nachvollziehen von Definitionen, Aussagen und Beweisen wird dabei als zentrales Hilfsmittel angesehen (Beutelspacher 2004; Hilgert et al. 2015; Houston 2012; Mason et al. 2008; Rogler et al. 1975). Solche Elaborationsstrategien sind allerdings in Lernstrategiefragebögen bisher nicht abgebildet (siehe Abschn. 3).

Lernstrategien haben also eine große Bedeutung für das Lernen. Allerdings werden ihre Besonderheiten in der Hochschulmathematik derzeit von keinem Instrument effizient erfasst. Dies soll der hier vorgestellte Fragebogen leisten.

In den folgenden Abschnitten wird dementsprechend darauf eingegangen, was diese fachlichen Besonderheiten sind (Abschn. 2) und inwiefern diese von bestehenden Fragebögen schon erfasst werden (Abschn. 3). Für eine zeitökonomische Erhebung wurden Kurzskalen mit drei bis vier Items pro Skala entwickelt (vgl. Griese et al. 2015 für dieses Anliegen). Die dafür nötigen empirischen Arbeiten werden in den Abschn. 4 und 5 beschrieben. In Abschn. 6 wird die Güte des Instruments reflektiert und sein möglicher Einsatz sowie Grenzen werden diskutiert. Die Skalen und Items finden sich im Online-Supplement. Der vorliegende Artikel liefert damit eine Übersicht über die Instrumentenentwicklung und ihr Ergebnis, zu dem Teile bereits früher vorgestellt wurden (Göller et al. 2013; Liebendörfer et al. 2014).

2 Lernstrategische Besonderheiten der Hochschulmathematik

Die Hochschulmathematik ist unter einigen Gesichtspunkten ein besonderer Lerngegenstand (vgl. Liebendörfer 2018, Kapitel 2), für den sich besondere Lernstrategien empfehlen. Durch den deduktiven Aufbau der Inhalte ist für das Verständnis ein Abgleich mit zuvor gelernten Inhalten notwendig (Houston 2012). Die Texte und Vorlesungen sind in der Regel klar strukturiert in Definitionen, Aussagen, Beweise und Beispiele. Sie sind dabei meist so kompakt geschrieben, dass sie erst durch das Hinzuziehen von Beispielen, Gegenbeispielen, verwandten Begriffen und Aussagen und deren logischen Beziehungen untereinander verstanden werden können (z. B. Alcock 2017; Houston 2012; Mejia-Ramos et al. 2012; Stewart 2008). Daher sind Elaborationsstrategien besonders wichtig, insbesondere das Vernetzen neuer Inhalte mit der bestehenden Wissensstruktur und das Generieren von Beispielen, Diagrammen und Skizzen zum Nachvollziehen von Inhalten (Beutelspacher 2004; Hilgert et al. 2015; Houston 2012; Mason et al. 2008; Rogler et al. 1975). Studierende angewandter Fächer können zur Elaboration zudem über außermathematische Anwendungen nachdenken (Büchter und Henn 2015; Eley und Meyer 2004).

Neben mathematikspezifischen Elaborationsstrategien werden auch Organisationsstrategien für das mathematikhaltige Studium empfohlen: Alcock (2017, S. 143 ff.) empfiehlt z. B. das Anfertigen von Listen mit Definitionen und Sätzen, Mind-Maps und das Schreiben von Zusammenfassungen, um erlangte Einsichten auch später wieder abrufen zu können (vgl. Houston 2012, S. 24). Eine Besonderheit der Mathematik liegt in der Bedeutung von Voraussetzungen und Spezialfällen, die oft zu komplizierten Formulierungen führen. Dadurch geht das Zusammenfassen solcher Aussagen oft mit einer inhaltlichen Verkürzung oder Verfälschung einher (vgl. Liebendörfer 2018, S. 14 für das Beispiel der stochastischen Unabhängigkeit). Zur groben Orientierung können solche Verkürzungen aber hilfreich sein.

Beweise sind als zentrales Mittel der Erkenntnissicherung einerseits das Herz der Mathematik (Beutelspacher 2004; Grieser 2015) und haben im Fachstudium und der Lehramtsausbildung eine große Bedeutung. Andererseits sind sie in der Lehre für angewandte Disziplinen (z. B. Papula 2018) wie schon in der Schule nicht immer präsent und werden beim Lernen auch von Fach- und Lehramtsstudierenden manchmal ausgespart (Göller 2017; Liebendörfer 2014). Die Fokussierung von Beweisen wird als Organisationsstrategie eingeordnet, weil beim Beweisen Argumentationslinien und damit Strukturen im Theoriegebäude herausgearbeitet werden und auch das bewusste Weglassen von Beweisen eine Neustrukturierung der Inhalte in eine leichter zu verarbeitende Form darstellt.

Wiederholungsstrategien werden in der Mathematik einerseits eingesetzt, um sich deklaratives Wissen wie Definitionen, Aussagen und auch Beweise zu merken und andererseits, um prozedurales Wissen durch Üben aufzubauen (Göller 2020). In der Literatur wird das Üben zum Aufbauen von Routinen empfohlen (z. B. Alcock 2017), wohingegen ein Auswendiglernen deklarativen Wissens als „Zeitverschwendung“ (Alcock 2017, S. 154) angesehen wird. Diese Unterscheidung wurde in empirischen Erhebungen noch nicht aufgegriffen. Offen ist z. B., ob der eingangs erwähnte negative Zusammenhang von Wiederholungsstrategien und Leistung (Eley und Meyer 2004; Kolter et al. 2018) für beide Formen gilt.

Für Lernen von Mathematik wird die Anstrengungsbereitschaft als interne Ressource in Form von „Durchhaltevermögen“ (Carlson 1999) beim Lösen von Aufgaben und „Frustrationstoleranz“ (z. B. Neumann et al. 2017, S. 30–31) bei schwer verständlichen Inhalten hervorgehoben. Als externe Ressource haben andere Studierende eine besondere Bedeutung, mit denen oft Lösungsansätze zu Übungsaufgaben entwickelt oder diskutiert werden (Göller 2020; Liebendörfer 2018, Kapitel 9.3.3; Metzger 2011). Dies wird zumindest in gewissem Ausmaß auch empfohlen (z. B. Alcock 2017, Kapitel 10.8).

3 Grenzen bestehender Lernstrategiefragebögen

Fachübergreifend werden zwei grundlegende Ansätze zur Klassifikation von Lernstrategien in Fragebögen operationalisiert (vgl. Tab. 1). Im ersten werden Strategien basierend auf der von Weinstein und Mayer (1986) eingeführten kognitionspsychologischen Klassifikation erfasst, die in der Einleitung beschrieben wurde. Der zweite Ansatz geht auf Studien von Marton und Säljö (1976a, 1976b) zurück, die einen tiefenorientierten (Deep Approach) und einen oberflächenorientierten Zugang (Surface Approach) unterscheiden.

Tab. 1 Übersicht bestehender Fragebögen zu Lernstrategien

Fachunspezifische Instrumente scheinen nur teilweise geeignet, um kognitive Strategien in der Mathematik zu erfassen. Etwa finden sich im LIST zur Elaboration drei Items zu Alltagsbezügen, wie „Ich überlege mir, ob der Lernstoff auch für mein Alltagsleben von Bedeutung ist“. Die Herstellung solcher Bezüge scheint bei vielen mathematischen Inhalten kaum möglich. Auch das Item „Ich stelle mir manche Sachverhalte bildlich vor“ könnte in manchen Veranstaltungen für zu wenige Inhalte passen, um elaborierendes Lernen passend abzubilden. Der Einsatz des LIST-Fragebogens in der Ingenieursmathematik führte dementsprechend zu teils unbefriedigenden Modellgüteparametern in der konfirmatorischen Faktoranalyse (CFI < 0,85; Griese et al. 2015), was Ausdruck mangelnder Homogenität oder Abgrenzung der Skalen sein kann. Zudem werden im LIST Besonderheiten der Mathematik wie die Rolle des Beweisens, des Übens von Verfahren, der Frustrationstoleranz und der Übungsaufgaben nicht berücksichtigt (vgl. Abschn. 2).

Für die Schule wurden bereits Lernstrategieskalen im Zuge der PISA-Studie stärker für die Mathematik angepasst (OECD 2005; Mang et al. 2018). Beim Elaborieren und Wiederholen haben hier einzelne Items Bezüge zu Aufgaben und dem Üben von Verfahren. Ähnliche Anpassungen finden sich bei Berger und Karabenick (2011), die Items des MSLQ umformuliert haben. Zur Erreichung einer guten Modellgüte mussten sie allerdings einige Items aufgrund von Querladungen ausschließen. Sie sahen die Ursache in der überlappenden Bedeutung der Items, z. B. weil derselbe Ausdruck „the formulas or definitions“ in ihnen auftauchte. Die Items beschreiben allerdings einen unterschiedlichen Umgang mit Formeln und Definitionen. Hier deutet sich die Fokussierung gewisser Lerninhalte als weitere Strategie an, die sich in die Items mischt. Beide Instrumente zeigen, dass die fachspezifische Operationalisierung von Lernstrategien gelingen kann. Aufgrund unterschiedlicher Inhalte, z. B. der Beweise, lassen sie sich aber nicht einfach auf die Hochschulmathematik übertragen.

Speziell für die Hochschulmathematik konzipierte Instrumente existieren bisher nur von Rach und Heinze (2013), die sich auf fünf Einzelitems zum Bearbeiten von Übungsaufgaben beschränken, und von Eley und Meyer (2004), die faktorenanalytisch fünf Skalen erhalten, welche nicht alle klar zu interpretieren sind.

Die lernstrategischen Besonderheiten des Mathematiklernens zeigen sich vor allem in kognitiven Strategien. Die Rolle von speziellen Inhalten wie Beweisen oder des Übens von Verfahren wird in hochschulbezogenen Instrumenten bisher allerdings nicht berücksichtigt. Zur Entwicklung eines passenden Instruments bietet sich die Einordnung in den Ansatz der allgemeinen Kognitionspsychologie an. Die dort verwendete Gliederung scheint gut für eine weitere, fachspezifische Ausdifferenzierung geeignet. Mit dem LIST-Fragebogen liegt zudem bereits ein deutschsprachiges Instrument vor, an dem sich die hier vorgestellte Entwicklung orientieren konnte. Der entwickelte Fragebogen fokussiert auf kognitive Lernstrategien für die Mathematik an Hochschulen. Zudem wird die Anstrengung betrachtet, weil sowohl beim Lernen von Inhalten als auch beim Bearbeiten von Übungsaufgaben eine hohe Anstrengungsbereitschaft in Form von Frustrationstoleranz erforderlich ist. Da das Lernen mit anderen Personen ein wesentlicher Teil des Mathematiklernens ist, wird außerdem die Skala zum Lernen mit anderen Studierenden überarbeitet. Die Skala selbst ist konzeptionell passend, nicht aber einzelne Items (etwa, wenn vom Bearbeiten von Texten die Rede ist), zudem ist das Bearbeiten von Aufgaben nicht berücksichtigt.

Eine fachliche Ausdifferenzierung metakognitiver Strategien könnte sich ebenfalls als sinnvoll erweisen, wurde aber in einem frühen Stadium der Entwicklung zurückgestellt. Dieser Punkt wird mit Blick auf den Entwicklungsprozess in der Diskussion aufgegriffen.

4 Datenerhebung und Methoden der Datenauswertung

Die Testkonstruktion kombinierte deduktive und induktive Schritte (Bühner 2011, S. 93–94), die beschriebene Taxonomie von Lernstrategien (Schiefele und Wild 1994) wurde dabei als deduktiver Rahmen genutzt. Eine schematische Übersicht der Entwicklungsschritte und empirischen Untersuchungen findet sich in Abb. 1. Für die mathematikspezifische Ausschärfung von Elaborations‑, Organisations- und Wiederholungsstrategien wurden zunächst induktiv Items entwickelt und qualitativ pilotiert, zudem wurden für Skalen zur Anstrengung und zum Lernen mit anderen Studierenden Items formuliert (Schritt 1). Alle Items wurden dann quantitativ erprobt, um mittels explorativer Faktoranalysen mögliche Subskalen zu bestimmen und Items zu modifizieren oder zu ergänzen (Schritt 2). Dafür wurden sukzessive vier Erhebungen durchgeführt, die zu Studie 1 zusammengefasst wurden (vgl. Tab. 2). Am Ende von Studie 1 waren die Skalen und die zugehörigen Items festgelegt. Anschließend wurden durch Reduktion der Items eindimensionale Skalen mit trennscharfen Items gebildet und daraus für das Kurzinstrument Items selektiert (Schritt 3). Die so erhaltenen Kurzskalen wurden bezüglich ihrer Faktorstruktur modellvergleichend getestet (Schritt 4). Für diese beiden Schritte waren neue Daten notwendig, so wurden die Erhebungen 5–8 durchgeführt, die Studie 2 bilden. Zur Prüfung der Validität des Instruments wurden die Daten der Erhebungen 1–8 bezüglich Mittelwertunterschieden und Korrelationsmustern analysiert (Schritt 5). Daneben wurde für ausgewählte Skalen eine kognitive Validierung mittels qualitativer Befragungen durchgeführt (Schritt 6). Im Weiteren werden diese Schritte dargestellt. Vorab werden Rahmendaten der empirischen Erhebungen und der Datenanalyse angegeben.

Abb. 1
figure 1

Entwicklungsschritte und qualitative wie quantitative Erhebungen im zeitlichen Verlauf (schematisch)

Tab. 2 Rahmendaten zu Studie 1 (Erhebungen 1–4) und Studie 2 (Erhebungen 5–8)

4.1 Datenerhebung

4.1.1 Rahmendaten der empirischen Erhebungen

Die acht quantitativen Erhebungen wurden gemäß dem Anspruch an das Instrument, nicht nur in einer spezifischen Mathematikveranstaltung einsetzbar zu sein, in unterschiedlichen Veranstaltungen durchgeführt. In beiden Studien wurden jeweils Veranstaltungen mit überwiegend beweisender Mathematik (Fachstudium, Lehramtsausbildung) und Service-Veranstaltungen abgedeckt. Erhebung 8 diente außerdem dazu, die Skalen auch bei Lernenden in höheren Semestern zu erproben. Die konkrete Auswahl der Veranstaltungen und Orte folgte dann nach praktischen Gesichtspunkten wie dem Zugriff auf die Veranstaltung. Zeit und Ort der Erhebungen, die Veranstaltung und das im Regelstudium vorgesehene Semester sowie die Anzahl der Befragten, die Geschlechterverhältnisse und der Anteil fehlender Werte sind in Tab. 2 angegeben. Die Studierenden waren stark überwiegend in dem Fachsemester, für das die jeweilige Veranstaltung vorgesehen war. Die Veranstaltung zu Erhebung 8 war als Wahlpflichtveranstaltung keinem Semester zugeordnet, die Befragten verteilten sich auf das vierte (17 Personen), sechste (15) und achte (2) Semester. Die Veranstaltungen zu den Erhebungen 2, 6 und 8 bedienten vorrangig das Fachstudium und das Gymnasiallehramtsstudium.

4.1.2 Durchführung der Erhebungen

Zur Durchführungsobjektivität (Döring und Bortz 2016, S. 442–443) ist festzuhalten, dass der Fragebogen eigenständig, vor Ort mit Stift und Papier und ohne Zeitdruck eingesetzt wurde. Die Items wurden zur Vermeidung der Ausrichtung einer Antwort an der Antwort auf eine vorherige Frage randomisiert angeordnet (Jonkisz et al. 2012, S. 68). Das Antwortformat wurde sechsstufig festgelegt, hat also eher viele Stufen, die mit höherer Reliabilität und Validität verbunden werden, zudem gibt es keine Mittelkategorie, die z. B. als Enthaltung interpretiert werden kann (Bühner 2011, S. 111–116). Zur Erhöhung der Validität wird außerdem die Beschriftung der einzelnen Antworten empfohlen. Gefragt wurde nach der Zustimmung zu Aussagen über das eigene Lernverhalten. Die Antworten wurden beschriftet mit den Möglichkeiten „trifft gar nicht zu“, „trifft nicht zu“, „trifft eher nicht zu“, „trifft eher zu“, „trifft zu“ und „trifft völlig zu“. Bei den Erhebungen 5–7 war aus technischen Gründen nur eine Beschriftung der beiden Pole möglich.

4.2 Methoden der Datenauswertung

4.2.1 Umgang mit fehlenden Werten

Der Anteil fehlender Werte variiert in den Befragungen zwischen 0,4 und 7 %, siehe Tab. 2. Für spezifische Items schwankt er zwischen 0 und 15,5 %, im gesamten Datensatz zwischen 0,5 und 5,4 %. Dieser Anteil ist für Bildungsforschung gering (Peugh und Enders 2004). Fehlende Werte erschienen in den Erhebungen überwiegend unsystematisch, etwa bei vereinzelten nicht beantworteten Items oder unzulässigen Angaben (z. B. Markieren zweier Antwortoptionen). Daher wurde angenommen, dass das Fehlen einer Variable nicht mit ihrem spezifischen Wert zusammenhängt („missing at random“; MAR), sodass die Schätzung abgeleiteter Daten mithilfe von Maximum-Likelihood-Methoden (ML) unter Einbezug der unvollständigen Datensätze adäquat ist (Graham 2009). Folglich wurden in der Strukturgleichungsmodellierung die unvollständigen Daten einbezogen und ML-Schätzungen verwendet. Für die explorativen Faktoranalysen wurden der Einfachheit halber nur Fälle mit vollständigen Daten berücksichtigt, ebenso bei der Berechnung von Cronbachs α als Reliabilitätsmaß.

4.2.2 Explorative Faktoranalysen

Die explorativen Faktoranalysen folgten den Empfehlungen von Costello und Osborne (2005). Die Faktoranalyse wurde der Hauptkomponentenanalyse vorgezogen, die Faktorextraktion wurde mittels Maximum-Likelihood-Schätzung vorgenommen und die Anzahl der Faktoren wurde auf Basis der gleichzeitigen Betrachtung des Scree-Plots und der Eigenwerte größer 1 bestimmt. Bei der Durchführung der Analysen deutete der Scree-Plot in der Regel auf einen oder zwei Faktoren, das Eigenwertkriterium dagegen auf bis zu sieben Faktoren. In diesen Situationen wurden auch Modelle zu allen Zwischenwerten betrachtet. Aufgrund möglicherweise korrelierter Faktoren wurde eine Varimax-Rotation mit Kappa-Wert 4 durchgeführt, welche die Orthogonalität der Achsen nicht notwendigerweise erhält und eine klarere Interpretation erlaubt.

Für die Zuordnung eines Items zu einem Faktor sollte die Faktorladung mindestens 0,32 betragen und es sollte keine zweite Ladung („Querladung“) oberhalb von 0,32 vorliegen. Zur Identifikation von bedeutsamen Faktoren sollten mindestens drei Items auf einen Faktor laden, anzustreben sind fünf Items mit einer Ladung ab 0,50. Alternativ werden von Bortz und Schuster (2010, S. 422) vier Items mit Ladungen ab 0,60 oder zehn Items mit Ladungen ab 0,40 angegeben; sollten diese Kriterien nicht erreicht werden, kann man Faktoren auch dann interpretieren, wenn die Stichprobe mindestens 300 Personen umfasst oder die Faktoren in mehreren Studien repliziert wurden.

4.2.3 Konfirmatorische Faktoranalysen

Für eine zuverlässige Parameterschätzung bei Strukturgleichungsmodellen mit drei bis vier Indikatoren pro latenter Variable und Faktorladungen, die überwiegend zwischen 0,40 und 0,80 liegen, werden in der Literatur schon bei zwei oder drei latenten Variablen Daten von mindestens 200–400 Personen empfohlen (Wolf et al. 2013). Für die untersuchten Modelle mit mindestens zehn Faktoren wurden daher keine einzelnen Erhebungen betrachtet.

Zur Einschätzung der Modellgüte wird die Betrachtung verschiedener Kennwerte empfohlen (Jackson et al. 2009): Der Wert des \(\chi ^{2}\)-Anpassungstests und die Anzahl der Freiheitsgrade (\(df\)), ein inkrementeller Fit-Index wie der Tucker-Lewis-Index (TLI) oder der Comparative-Fit-Index (CFI) und ein Residuen-basierter Wert wie der Root Mean Square Error of Approximation (RMSEA). Der \(\chi ^{2}\)-Anpassungstest verwirft in aller Regel die Annahme, die Daten würden aus dem spezifizierten Modell resultieren, insbesondere bei großen Stichproben. Stattdessen wird daher der Quotient \(\chi ^{2}/df\) betrachtet. Dieser wächst zwar auch mit der Stichprobengröße, oft wird dennoch ein Wert unter 2 empfohlen, Werte unter 3 gelten noch als akzeptabel (Moosbrugger und Schermelleh-Engel 2012). Für TLI und CFI gelten Werte ab 0,90 als akzeptabel (Weiber und Mühlhaus 2014, Kapitel 9), oft wird der Wert 0,95 empfohlen (Bühner 2011; Moosbrugger und Schermelleh-Engel 2012; Werner et al. 2016). Für den RMSEA werden Obergrenzen von 0,08 (Moosbrugger und Schermelleh-Engel 2012) oder 0,06 (Bühner 2011; Werner et al. 2016) genannt, idealerweise sollten Werte unter 0,05 erreicht werden (Moosbrugger und Schermelleh-Engel 2012). Bei der Interpretation der Fit-Indizes ist zu beachten, dass der RMSEA für große Modelle oft etwas besser ausfällt, der TLI und der CFI dagegen etwas schlechter. Große Modelle sollten daher auch dann akzeptiert werden, wenn TLI und CFI die angestrebten Werte nicht ganz erreichen, sofern der RMSEA sehr gut ausfällt (Kenny und McCoach 2003). Sämtliche Strukturgleichungsmodelle wurden in AMOS 24 berechnet, alle weiteren Berechnungen wurden mit SPSS 24 durchgeführt.

5 Schritte der Instrumentenentwicklung

5.1 Schritt 1: Itemgenerierung und qualitative Pilotierung

Das Ziel der Skalenerstellung war, kognitive und ressourcenbezogene Strategien bezüglich ihres Gebrauchs in der Hochschulmathematik zu spezifizieren und auszudifferenzieren. Dafür wurden einzelne Items aus dem LIST-Fragebogen übernommen und ggf. angepasst und weitere Items von den Autorinnen und Autoren formuliert. Dabei wurden entsprechend den Überlegungen aus Abschn. 2 Formulierungen gewählt, welche die Arbeit mit Definitionen, Aussagen, Beweisen und Beispielen beschreiben, wobei letztere sowohl inner- als auch außermathematisch sein konnten. Zudem wurden das Verkürzen von Aussagen und Generieren von Merkregeln bedacht. Weil sie inhaltlich schwer abzugrenzen waren, wurden die 28 Items zu Elaborations- oder Organisationsstrategien als ein Itempool gemeinsam analysiert, um Teilskalen auf Basis der empirischen Ergebnisse zu festzulegen. In Erhebung 4 wurden außerdem zwölf Items zu Wiederholungsstrategien eingesetzt, die typische Formen wiederholenden Lernens im Studium wie das Üben von Verfahren abbilden sollten. Zur Anstrengung wurde die entsprechende Skala aus dem LIST um drei Items ergänzt, die nicht hohen Zeiteinsatz, sondern das Durchhalten trotz Frustration abbilden sollten (Carlson 1999). In Erhebung 2 wurden daneben noch sechs Items eingesetzt, die Anstrengung bei Übungsblättern erfassen sollten. Die Skala zum Lernen mit anderen Studierenden wurde inhaltlich aus dem LIST übernommen, es wurden aber für Erhebung 2 fünf neue Items erzeugt, die durch Einbezug von Aufgaben und Lösungen an das Lernen von Mathematik angepasst sind. Hier wurde keine Unterteilung der Skala angestrebt. Die Formulierungen der finalen Items finden sich im Online-Supplement.

Vor der ersten quantitativen Erhebung wurde in drei Fokusgruppen geprüft, inwieweit Studierende die Fragen verstehen und mit den Antwortkategorien zurechtkommen (vgl. Bühner 2011, S. 89–90; Jonkisz et al. 2012, S. 70). Die ersten beiden Gruppen bestanden aus je vier Studierenden aus einer Analysis-2-Vorlesung an der Universität Paderborn, die im zweiten Fachsemester Mathematik, Technomathematik oder Mathematik für das Gymnasiallehramt studierten. Die dritte Gruppe bestand aus fünf Studierenden der Wirtschaftspädagogik mit Unterrichtsfach Mathematik im zweiten bzw. vierten Fachsemester, die aus einer Vorlesung zur Geometrie an der Leuphana Universität Lüneburg gewonnen wurden. Das Alter der Befragten streute zwischen 20 und 27 Jahren, neun der 13 Befragten waren weiblich. Die Studierenden hatten die Aufgabe, jeweils für sich den Fragebogen auszufüllen und dabei unverständliche Fragen zu markieren oder anderweitige Unklarheiten zu notieren. Im Anschluss sollten sie diese Punkte in der Gruppe ansprechen. Die Gespräche wurden digital aufgezeichnet und die Fragebögen mit den Notizen einbehalten und analysiert. Die große Mehrheit der Items war für die Studierenden verständlich, einzelne Items wurden kritisch diskutiert und daraufhin umformuliert.

5.2 Schritt 2: Skalenfestlegung

Zu den verschiedenen Lernstrategien ergaben oder bestätigten sich in den vier Erhebungen der ersten Studie insgesamt zehn Skalen, die Strategien stärker ausdifferenzieren oder für die Hochschulmathematik kontextualisieren, siehe Abb. 2.

Abb. 2
figure 2

Struktur der neu entwickelten Skalen

5.2.1 Ausdifferenzierung des Itempools zu Elaboration und Organisation

Bereits in Erhebung 1 zeigte sich bei der Analyse des Itempools ein klarer Faktor aus sieben Items, die das Analysieren und Nachvollziehen, d. h. die Nutzung von Beweisen beschreiben (z. B. „Ich versuche, die Beweise der Sätze nachzuvollziehen“). Sie luden mit mindestens 0,60 auf diesen Faktor und mit höchstens 0,23 auf andere Faktoren, entsprechend den Empfehlungen für die Interpretation eines Faktors. Auf ein Item wurde im Weiteren verzichtet, weil es sich nicht explizit auf Beweise bezieht. Die Nutzung von Beweisen wurde definiert als die Strategie, Beweise inhaltlich nachzuvollziehen. Das beinhaltet die Analyse sowohl der Argumente, bei der (Schritt für Schritt) die Gültigkeit des Beweises nachgeprüft wird, als auch der Argumentation, bei der die Form der Begründung herausgearbeitet wird. Beweise können beim Lernen ausgelassen werden, insofern spiegelt die Beschäftigung mit ihnen eine strategische Entscheidung für die Erarbeitung von Inhalten entlang ihres fachlichen Zusammenhangs wider.

In den Erhebungen 1 und 2 wurde außerdem in Modellen mit unterschiedlich vielen Faktoren jeweils ein Faktor aus vier Items zur Herstellung von Beziehungen des Lernstoffes zu Anwendungen sichtbar (Praxisbezug herstellen). Alle Ladungen waren größer als 0,40 und bei drei Items war die Ladung stets oberhalb von 0,60. Die größte Nebenladung war kleiner als 0,30. Da die Empfehlungen von Bortz und Schuster (2010) fast erreicht waren und sich dieser Faktor wiederholt gezeigt hatte, wurde er als Skala festgelegt. Die Items enthalten durchweg Begriffe, die explizit auf außermathematisches Wissen verweisen, mit dem neue Inhalte vernetzt werden sollen (z. B. „reale Welt“ oder „Alltagsleben“). Die Strategie Praxisbezug herstellen wurde so definiert, dass Inhalte (z. B. beim Modellieren) mit der außermathematischen Realität verbunden werden, z. B. mit physikalischen oder alltäglichen Begriffen. Dabei geht es nicht darum, ob die Modellierung hilfreich oder aus Anwendersicht überhaupt sinnvoll ist. Zentral ist die Illustration des Stoffes in einem Kontext außerhalb der Fachmathematik, ähnlich wie schon bei einer Skala von Eley und Meyer (2004).

In den Erhebungen 1 und 2 wurde außerdem ein Faktor zum Vernetzen von Inhalten sichtbar, wobei Querladungen mit anderen Faktoren auftraten. Daraufhin wurden Items modifiziert und ergänzt. In Erhebung 3 bestätigte sich der Faktor zum Vernetzen mit sechs Items mit Hauptladungen ab 0,39 und Querladungen unter 0,20, sodass er festgelegt wurde. Zu diesem Faktor bündelten sich Items, die eher abstrakte Beschreibungen von Vernetzung enthalten (z. B. „Ich versuche zu verstehen, wie neue Inhalte mit dem zuvor Gelernten zusammenhängen“). Das Vernetzen beschreibt Lerntätigkeiten, um Zusammenhänge zwischen den neuen Inhalten und anderen Themen und Wissensbereichen herzustellen, also das Herausarbeiten von Verbindungen zu bestehendem Wissen. Es ist am wenigsten spezifisch für Mathematik und entspricht dem, was im LIST-Fragebogen als Elaboration operationalisiert ist. Es ist seiner Natur nach ein breites Konstrukt, weil es viele Wege zur Vernetzung gibt.

In den Erhebungen 1 und 2 zeigte sich dazu eine Gruppierung von Items zur Nutzung von Beispielen. Die Itemzuordnung in den verschiedenen Modellen war nicht für alle Items konsistent und es traten Querladungen auf. Zur inhaltlichen Ausschärfung wurden daher einzelne Items modifiziert. Die sechs Items zur Nutzung von Beispielen hatten dann in Erhebung 3 Trennschärfen von mindestens 0,37. Allerdings zeigten sich teils hohe Nebenladungen oder Vermischungen mit den Items zum Vereinfachen von Inhalten (s. unten). Beide Strategien sind inhaltlich ähnlich, da die Betrachtung eines Beispiels oft auch eine Vereinfachung darstellt. Von einer weiteren explorativen Analyse der Items wurde aufgrund des klaren Konstrukts abgesehen; eine vergleichbare Skala findet sich schon bei Eley und Meyer (2004). Zur weiteren Nutzung wurden zwei neue Items anhand der Skalenbeschreibung ergänzt. Die Strategie der Nutzung von Beispielen besteht darin, zu lernende Inhalte durch Beispiele anzureichern. Ob diese dafür neu erzeugt oder recherchiert werden oder bereits bekannt sind, spielt keine Rolle. In dieser Skala bildet sich die eingangs beschriebene Besonderheit der Hochschulmathematik ab, dass Beispiele ein zentrales Hilfsmittel beim Lernen sind.

Zudem zeigte sich in den Erhebungen 1 und 2 eine Gruppe von Items zum Vereinfachen von Inhalten. Sie spiegeln die Strategie einer Transformation von komplizierten Inhalten auf eine weniger komplizierte Variante wider. Da mathematische Inhalte in der Regel schon so kompakt wie möglich präsentiert werden, müssen bei solchen Vereinfachungen Verfälschungen in Kauf genommen werden. Die Itemzuordnung in den verschiedenen Modellen war nicht für alle Items konsistent und es tauchten Querladungen auf, insbesondere zur Skala der Nutzung von Beispielen. Daraufhin wurden einzelne Items modifiziert. In Erhebung 3 hatte der Faktor aus drei Items Trennschärfen ab 0,38 und immer noch einzelne Querladungen. Von einer weiteren explorativen Analyse der Items wurde abgesehen, da sich inhaltlich wiederholt Hypothesen zur Strategie des Vereinfachens gezeigt hatten. Ergänzend wurden für diese Skala zwei neue Items formuliert. Das Vereinfachen besteht darin, komplexe Inhalte in weniger komplexe, ähnliche Inhalte zu überführen und sie dadurch auf ein überschaubares Niveau zu transformieren. Dabei sind Verfälschungen möglich und werden akzeptiert.

Die Skala zum Vernetzen und die Skalen zur Nutzung von Beispielen sowie zum Herstellen von Praxisbezug als spezifische Formen der Vernetzung werden als Elaborationsformen eingeordnet. Die letzten beiden Skalen verweisen auf die besondere Natur der abstrakten und a‑priori nicht angewandten Hochschulmathematik. Die beiden Faktoren Nutzung von Beweisen und Vereinfachen beziehen sich auf die innere Organisation des Stoffes bzw. auf Transformationen des Stoffes und werden den Organisationsstrategien zugeordnet.

5.2.2 Ausdifferenzierung der Items zum Wiederholen

Die Items zum Wiederholen zerfielen in drei klare Faktoren mit Hauptladungen größer 0,40 und Nebenladungen kleiner 0,30. Der erste Faktor bestand aus drei Items zum Üben von Verfahren und Rechenaufgaben, der zweite aus vier Items zum Wiederholen von Inhalten. Die Trennung dieser Faktoren lässt sich durch die Unterscheidung von prozeduralem und deklarativem Wissen theoretisch klar nachvollziehen. Beim Auswendiglernen wird deklaratives Wissen aufgebaut, indem man versucht, sich Inhalte durch Wiederholen zu merken. Beim Üben wird prozedurales Wissen aufgebaut, indem Inhalte wie Algorithmen und Rechenverfahren wiederholt durchgeführt werden, um sie sich besser merken zu können. Die Abgrenzung zum Auswendiglernen wird z. B. daran deutlich, ob man die Schritte eines Verfahrens wiederholt aufsagt oder ob man das Verfahren wiederholt durchführt. Der dritte Faktor schien inhaltlich dem zweiten Faktor ähnlich und beinhaltete fünf Items, von denen vier den Ausdruck „auswendig“ enthielten. Daher wurde er als Artefakt der Itemformulierungen angesehen und verworfen. Für die ersten beiden Skalen wurden neue Items formuliert, sodass für die weiteren Untersuchungen fünf Items zum Üben und sechs Items zum Auswendiglernen vorlagen.

5.2.3 Ausdifferenzierung der Items zur Anstrengung

In der explorativen Faktoranalyse der Items zur Anstrengung zeigten sich in Erhebung 1 die neuen Items mit Bezug auf das Aushalten von Frustration als eigener Faktor aus drei Items mit Ladungen oberhalb von 0,60 und ohne Querladungen. Auch wenn gemäß den Empfehlungen von Bortz und Schuster (2010) ein viertes Item für die Interpretation notwendig wäre, wurde dieser Faktor extrahiert, weil er inhaltlich klar ist. Diese Strategie der Frustrationsresistenz beschreibt die hartnäckige und wiederholte Auseinandersetzung mit Inhalten, die bisher als frustrierend erlebt wurde. Dagegen zeigt sich in den restlichen Items, die fast alle aus dem LIST-Fragebogen stammten, Anstrengung vor allem über den Einsatz von Zeit. Dieser zweite Faktor wurde nicht weiter betrachtet, da sich die Skala aus dem LIST dafür verwenden lässt.

Die in Erhebung 2 eingesetzten Items zur Anstrengung bei Übungsblättern wurden nicht faktoranalytisch untersucht, weil die Skala theoretisch bestimmt war. Sie beschreibt einen hohen Zeiteinsatz, eine hohe Toleranz von Frustration und die Ausrichtung auf möglichst vollständige Lösungen bei Übungsaufgaben. Die Kennzahlen zur Reliabilität sind zufriedenstellend, die geringste Trennschärfe ist 0,37 und Cronbachs α liegt bei 0,81. Aus ökonomischen Gründen wurde ein Item für die weiteren Erhebungen gelöscht, das inhaltlich redundant schien.

5.2.4 Lernen mit anderen Studierenden

Die Skala zum Lernen mit anderen Studierenden erhebt, inwieweit diese als externe Ressource genutzt werden, beispielsweise für die Diskussion offener Fragen oder das gemeinsame Bearbeiten von Übungsaufgaben. Diese Skala wurde konzeptionell aus dem LIST übernommen und ebenfalls nicht faktoranalytisch untersucht. Die Items haben sehr gute Trennschärfen ab 0,64 und die Skala erweist sich als intern konsistent (Cronbachs α = 0,86).

5.3 Schritt 3: Skalenreduktion

Die Skalen aus Studie 1 wurden unverändert in den vier Erhebungen von Studie 2 eingesetzt, um einen größeren Datenbestand für die Analyse und Itemselektion zu haben (vgl. Simms 2008). Vor der Testung der behaupteten Skalenstruktur mittels konfirmatorischer Faktoranalysen wurden die einzelnen Skalen separat analysiert.

5.3.1 Trennschärfe und Item-Korrelationen

Zunächst wurden die Trennschärfen, d. h. die korrigierten Item-Skala-Korrelationen, der Items bei allen acht Erhebungen betrachtet, sofern die jeweilige Skala dort vollständig eingesetzt worden war. Es wurden drei Items gestrichen, deren Trennschärfe unter der von Costello und Osborne (2005) zitierten Mindestanforderung von 0,32 lag. Bezüglich der Eindimensionalität der Skalen wurde geprüft, ob die paarweisen Korrelationen aller Items einer Skala mindestens bei 0,15 liegen (Simms 2008). Gemäß diesem Kriterium wurden je zwei Items zum Auswendiglernen, zur Nutzung von Beispielen und zum Vereinfachen gelöscht. Eine Korrelation zwischen zwei Items zum Vernetzen lag in Erhebung 8 nur bei 0,05; bei allen anderen Untersuchungen aber zwischen 0,25 und 0,61. Da die Teilnehmerzahl in Erhebung 8 relativ gering war, wurde vorläufig kein Item ausgeschlossen. Bei allen weiteren Skalen liegen die Korrelationen mindestens bei 0,15.

5.3.2 Ausschluss querladender Items

Zur Identifikation von querladenden Items wurde erneut eine explorative Faktoranalyse durchgeführt (Weiber und Mühlhaus 2014, Kapitel 7.2.1). Um mögliche Passungsprobleme bei einzelnen Stichproben zu erkennen, wurden die Daten von Erhebung 5, 6 und 7 getrennt analysiert, bei Erhebung 8 war der Stichprobenumfang für eine Analyse zu klein. Es wurden außer der Skala zur Anstrengung auf den Übungsblättern, die in den Erhebungen 5 und 7 nicht eingesetzt worden war, alle neun Skalen verwendet. Die Anzahl der Faktoren gemäß Eigenwertkriterium variierte zwischen acht und neun und wurde auf neun festgesetzt. Die Faktorstruktur ließ sich klar wiederfinden, einzig die beiden Wiederholungsformen waren zu einem Faktor kollabiert; dadurch entstand ein weiterer Faktor ohne klare Interpretation. Die Ergebnisse zeigten Passungsprobleme eines Items zur Nutzung von Beispielen und eines Items zum Vernetzen, die beide gestrichen wurden.

5.3.3 Selektion

Für die Entwicklung von Kurzskalen benennen Bortz und Döring (2016, S. 270) die Strategie, diejenigen Items mit den höchsten Trennschärfen auszuwählen. Allerdings kann die Verkürzung auf hochreliable Items die Validität einschränken, wenn eine zu enge Konstrukterfassung resultiert (Simms 2008). Angestrebt wurden jeweils Skalen mit vier Items. Bei den Skalen zum Beweisen, zum Üben und zum Lernen mit anderen Studierenden wurde angesichts der hohen Reliabilitätskoeffizienten und des klaren Inhalts eine Reduktion auf drei Items vorgenommen, bei den Skalen zum Praxisbezug, Vereinfachen und zur Frustrationsresistenz waren nach dem vorangegangenen Ausschluss nur drei Items übrig.

Bei den Skalen zum Beweisen, Vernetzen, zur Nutzung von Beispielen und zum Üben wurden jeweils die Items mit der höchsten Faktorladung ausgewählt. Bei der Skala zur Anstrengung bei Übungsaufgaben wurde ein Item mit minimal besserer Ladung jedoch gestrichen („Wenn ich die Aufgabenstellung nicht auf Anhieb verstehe, bearbeite ich die Aufgabe nicht“), weil es inhaltlich sehr ähnlich zu einem ausgewählten Item ist (vgl. Item 29, Online-Supplement). Bei der Skala zum Lernen mit anderen Studierenden zeigten sich zwischen den Items einige Korrelationen oberhalb von 0,70, die für eine hohe Redundanz der Items sprechen. Daher wurden zwei von vier Items gestrichen, die den Austausch in Gruppen zur Aufgabenbearbeitung adressieren.

Ausschluss und Selektion betrafen teils Items, die erst für spätere Erhebungen ergänzt worden waren. Dadurch ergab sich, dass einige Skalen in ihrer finalen Version bereits ab der ersten Erhebung verwendet worden waren (vgl. Tab. 4 für Werte der finalen Skalen in den entsprechenden Untersuchungen).

5.4 Schritt 4: Vergleichende konfirmatorische Faktoranalyse

Mit den ausgewählten Items wurde eine vergleichende, konfirmatorische Faktoranalyse durchgeführt. Da sich in der Literatur bisher keine bedeutungsvollen empirischen Strukturen oberhalb einzelner Lernstrategien zeigten (Blickle 1996; Baumert 1993; Boerner et al. 2005), wurden im präferierten Modell 1 freie Korrelationen zwischen den latenten Variablen erlaubt (vgl. auch Griese 2017; Pintrich et al. 1993). Die Items wurden als Indikatoren ihrem latenten Konstrukt zugeordnet. Weitere Zuordnungen wurden nicht vorgenommen, siehe Abb. 3.

Abb. 3
figure 3

Modell 1 der konfirmatorischen Faktoranalyse

Eine alternative Struktur geben die Dimensionen des LIST-Fragebogens. Deshalb wurde Modell 2 betrachtet, das abweichend von Modell 1 je einen zentralen Faktor für Elaboration, Organisation, Wiederholung und inneres Ressourcenmanagement enthält und bei dem die neuen Strategien unterhalb dieser Faktoren ausdifferenziert werden, siehe Abb. 4.

Abb. 4
figure 4

Modell 2 der konfirmatorischen Faktoranalyse

Zudem wurde Modell 3 betrachtet, bei dem nur diese Oberfaktoren gegeben sind, die direkt mit den zugehörigen Items verbunden sind, siehe Abb. 5. Diese drei Modelle wurden in je zwei Varianten geprüft. In Modellvariante (a) wurden nur die Daten aus Studie 2 verwendet, bei der die Skalen bereits festgelegt waren. Daten zur Skala zur Anstrengung bei Übungsaufgaben sind hier allerdings für nur knapp 200 Befragte enthalten. Daher wurden in Variante (b) die Daten der Studien 1 und 2 komplett einbezogen. Die Fit-Indizes finden sich in Tab. 3.

Abb. 5
figure 5

Modell 3 der konfirmatorischen Faktoranalyse

Tab. 3 Fit-Indizes der konfirmatorischen Faktoranalysen verschiedener Modelle

Die Passung von Modell 1 ist gut. Der eher hohe \(\chi ^{2}/df\)-Wert ist aufgrund der großen Stichprobe gerechtfertigt und die Werte für TLI und CFI sind unter Berücksichtigung des sehr guten RMSEA und der Modellgröße gut. Die Passung von Modell 2 ist akzeptabel, aber schlechter als die Passung von Modell 1. Die Passung von Modell 3 ist nicht akzeptabel. Die Güte der beiden Modellvarianten (a) und (b) ist dabei stets vergleichbar. Der RMSEA der Nullmodelle zu den getesteten Strukturgleichungsmodellen liegt mit Ausnahme von Modell 1 (a) stets unter 0,158; also passen die Nullmodelle bereits recht gut (Kenny 2015). Der Vergleich der drei spezifizierten Modelle zeigt, dass die übergeordnete Struktur nicht viel aufklärt, die neu ausdifferenzierten Strategien dagegen viel. Dadurch ist die Faktorstruktur auch im Vergleich zu anderen plausiblen Strukturen bestätigt.

5.5 Schritt 5: Konstruktvalidierung

Zur Validität wird zunächst die Konstruktvalidität betrachtet, die sich in theoretisch begründeten Korrelations- und Faktorstrukturen widerspiegelt (Bühner 2011, Kapitel 2.5). Dazu werden Mittelwertunterschiede und Korrelationsmuster zwischen Studiengruppen betrachtet.

5.5.1 Zusätzlich erhobene Konstrukte

Für Korrelationsmuster wurden zusätzlich Daten zur Organisation und Anstrengung erhoben. Zum Organisieren wurde eine Kurzskala aus drei Items des LIST-Fragebogens gebildet. Zur Anstrengung wurden aus der entsprechenden Skala des LIST vier Items ausgewählt, die den Einsatz von Zeit besonders betonen, und um ein fünftes Item ergänzt („Wenn es sein muss, verzichte ich für das Lernen auch auf meine Freizeitaktivitäten“).

Außerdem werden Zusammenhänge zum Interesse und zum mathematischen Selbstkonzept (MSK) betrachtet. Zum Interesse an Hochschulmathematik wurde der Fragebogen zum Studieninteresse (Schiefele et al. 1993) auf zehn Items reduziert (je drei zur gefühlsbezogenen Valenz und dem intrinsischen Charakter, vier zur wertbezogenen Valenz) und die Itemformulierungen wurden angepasst, indem „mein Studienfach“ und ähnliche Bezeichnungen durch den Ausdruck „Hochschulmathematik“ ersetzt wurden. Das mathematische Selbstkonzept wurde mit einer Skala aus SESSKO (Schöne et al. 2002) in der im LIMA- bzw. KLIMAGS-Projekt für Hochschulmathematik adaptierten Fassung erhoben (Kolter et al. 2018). Die Reliabilität der Organisation war in Erhebung 4 unerwartet gering, ansonsten sind die Werte akzeptabel bis sehr gut, siehe Tab. 4.

Tab. 4 Anzahl der Items und Reliabilitätskoeffizient Cronbachs α für ergänzende Skalen

5.5.2 Mittelwertunterschiede zwischen Gruppen

Da sich aus der Literatur keine Hypothesen zu Unterschieden zwischen der Verwendung mathematikbezogener Lernstrategien in verschiedenen Studiengängen ableiten lassen, müssen zunächst zu erwartende Unterschiede argumentativ hergeleitet werden. Wesentliche Unterschiede zwischen Studiengängen finden sich beim Beweisen, das im Lehramts- und Fachstudium prominenter als in den Anwendungsdisziplinen ist. Dagegen haben dort die Kalküle einen höheren Stellenwert. Insofern ist zu erwarten, dass die Nutzung von Beweisen in der Fach- und Lehramtsausbildung stärker ausfällt als in den Serviceveranstaltungen. Umgekehrt sollte die Strategie des Übens, das stark auf Kalküle ausgerichtet ist, bei den Serviceveranstaltungen stärker genutzt werden. Beide Vermutungen lassen sich anhand der vorliegenden Daten bestätigen. Die Mittelwerte in den Serviceveranstaltungen (Erhebungen 1, 3, 5 und 7) liegen bei der Nutzung von Beweisen stets niedriger, beim Üben stets höher als die Mittelwerte der Fach- und Lehramtsstudierenden (Erhebungen 2, 4, 6 und 8), siehe Tab. 5. Die Unterschiede werden durch t‑Tests bei paarweisen Vergleichen stets mit p < 0,001 bestätigt, mit Ausnahme von Erhebung 8 mit sehr kleiner Teilnehmerzahl.

Tab. 5 Mittelwerte M und Standardabweichungen (SD) der Lernstrategien und weiterer Skalen nach Erhebungen

5.5.3 Korrelationen

Einige Annahmen über Korrelationsmuster zwischen Lernstrategien lassen sich aus der Literatur ableiten. Zu manchen für die Hochschulmathematik spezifischen Strategien waren uns aber keine Ergebnisse bekannt (z. B. Üben oder Frustrationsresistenz), sodass hierfür Erwartungen theoretisch abgeleitet wurden.

In der Literatur finden sich geringe positive Zusammenhänge zwischen den Strategien der Elaboration, Organisation, Wiederholung, Anstrengung sowie der Strategie des Lernens mit anderen Studierenden. Anstrengung korreliert mit Wiederholung und Organisation sogar mittelhoch und zwischen Wiederholung und Organisation zeigen sich hohe Zusammenhänge (Baumert 1993; Griese 2017; Klostermann et al. 2014; Pintrich et al. 1993; Schiefele und Wild 1994). Außerdem sollten aufgrund ihrer Ähnlichkeit als Wiederholungsstrategien auch zwischen dem Üben und dem Auswendiglernen hohe Korrelationen zu beobachten sein. Des Weiteren sind zwischen den drei Formen von Anstrengung aufgrund ihrer Ähnlichkeit hohe Korrelationen zu erwarten. Daneben kann man Zusammenhänge zwischen der LIST-Skala zum Organisieren und den Skalen zur Nutzung von Beweisen und zum Vereinfachen erwarten, die der Organisation zugeordnet werden. Allerdings ist die Operationalisierung der Organisation im LIST stark auf technische Aspekte der Transformation von Wissen fokussiert, also z. B. auf das Anfertigen von Listen. Die Skalen zur Nutzung von Beweisen und zum Vereinfachen fokussieren stärker inhaltliche Transformationen des Wissens. Daher sind zwar positive, aber eher geringe Zusammenhänge zu erwarten. Zusammengefasst sind im gesamten Bereich der ersten zwölf Konstrukte, zu denen die Korrelationen in Tab. 6 angegeben sind, geringe positive Korrelationen zu erwarten, zwischen den Wiederholungsstrategien (Zeilen 6 und 7) und den Formen der Anstrengung (Spalten 8 und 12) mittelhohe und mit der LIST-Organisationsskala (Spalte 11) hohe Korrelationen, zudem hohe Korrelation innerhalb der beiden Wiederholungsstrategien (Zeile 6, Spalte 7) und zwischen den Formen der Anstrengung (Zeilen 8 und 9 mit Spalten 9 und 12).

Tab. 6 Niedrigster Korrelationskoeffizient, Median und höchster Korrelationskoeffizient eingesetzter Skalen in Erhebung 1–8

Diese Korrelationsmuster bestätigen sich fast durchgängig in den Daten der vorliegenden Erhebungen. Korrelationstabellen für die einzelnen Erhebungen finden sich als Online-Material (ESM_1.pdf). Eine Ausnahme findet sich bei der Skala zum Herstellen von Praxisbezügen, die nicht wie andere Elaborationsstrategien empirisch mit Üben, Auswendiglernen, Anstrengung, Lernen mit anderen Studierenden und Organisation zusammenhängt (Zeile 3). Praxisbezüge werden in hochschulmathematischen Lehrveranstaltungen selten hergestellt und in Prüfungen nicht verwendet. Diese Strategie könnte auf ein untypisches Lernverhalten, z. B. bei Überforderung, hindeuten, wenn aufgrund fehlenden Fachwissens außermathematische Bezüge für die Begriffsbildung an Bedeutung gewinnen. Eine Abweichung des Korrelationsmusters ist daher plausibel. Weitere Ausnahmen betreffen Erhebung 8, in der sich die erwarteten Zusammenhänge zwischen dem Lernen mit anderen Studierenden und Wiederholen sowie Anstrengung bei Übungsaufgaben nicht herstellen, ebenso der Zusammenhang zwischen Üben und der Frustrationsresistenz. Einzelne, unerwartet niedrige Zusammenhänge zeigen sich in Erhebung 8 außerdem zwischen den Elaborationsformen Vernetzen und Nutzung von Beispielen und dem Lernen mit anderen Studierenden. Auch die Zusammenhänge von Organisieren und den beiden Wiederholungsstrategien Üben und Auswendiglernen fallen hier etwas geringer aus als in der Literatur beschrieben. Dies mag einerseits am geringen Stichprobenumfang von Erhebung 8 liegen, bei dem schon einzelne Studierende mit untypischem Verhalten die Ergebnisse stark beeinflussen können. Erhebung 8 war aber auch die einzige in einem höheren Studiensemester. Da alle unerwarteten Ergebnisse hier durch besonders geringe Korrelationen gegeben sind, könnte auch das Lernverhalten in höheren Semestern stärker ausdifferenziert sein, sodass weniger Studierende überall eher hohe oder überall eher niedrige Werte angeben.

Die Literaturlage lässt außerdem erwarten, dass Interesse und Selbstkonzept mit der Nutzung inhaltlich anspruchsvoller Lernstrategien zusammenhängen (Helmke und Schrader 1999; Klostermann et al. 2014; Rach 2014). Dazu zählen insbesondere das Vernetzen und die Nutzung von Beweisen. Dagegen können kaum Zusammenhänge mit oberflächlichem Lernen, hier also Üben und Auswendiglernen, am Studienanfang erwartet werden, wohl aber im zweiten Jahr (Helmke und Schrader 1999). Interesse hängt außerdem positiv mit Anstrengung zusammen (Schiefele et al. 2003). Die Korrelationen unserer Erhebungen bestätigen diese Erwartungen (Spalten 13 und 14) mit einer Ausnahme: In Erhebung 8 fand sich kein positiver Zusammenhang zwischen dem Selbstkonzept und dem Vernetzen sowie dem Üben bzw. Auswendiglernen, obwohl die Studierenden mindestens im zweiten Studienjahr waren. Erneut könnte sowohl eine Verzerrung durch die kleine Stichprobe oder ein spezifisches Lernverhalten in höheren Semestern ursächlich sein.

5.6 Schritt 6: Kognitive Validierung

Die fünf Skalen, die aus dem Itempool zu Elaborations- und Organisationsstrategien explorativ gewonnen wurden (Vernetzen, Nutzung von Beispielen, Herstellen von Praxisbezügen, Nutzung von Beweisen, Vereinfachen), wurden zur Absicherung der Inhaltsvalidität kognitiv validiert (Berger und Karabenick 2016; Karabenick et al. 2007). Die Validierung klärt, inwieweit sich die Vorstellungen der Befragten bei der Beantwortung eines Items mit den Beschreibungen des dahinterstehenden Konstruktes decken. Teilgenommen an dieser Studie haben zehn Lehramtsstudierende der Universität Hannover im fünften und siebten Fachsemester. Sechs von ihnen waren weiblich, das Alter lag zwischen 20 und 25 Jahren.

Jeweils drei Items der Skalen wurden entsprechend dem Vorgehen von Berger und Karabenick (2016) analysiert. Den Studierenden wurde in Einzelinterviews jeweils ein Item gezeigt. Sie wurden gebeten, das Item laut vorzulesen und im Anschluss zu erläutern, auf welche Information das Item abzielt (Interpretation). Weiter sollten sie angeben, welche Antwortmöglichkeit sie markieren würden (Antwort) und erläutern, wie sie auf diese Antwort kamen (Erklärung). Die Interviews wurden aufgezeichnet und wörtlich transkribiert. Anschließend codierten zwei Personen unabhängig voneinander dichotom, ob die Interpretation zur Beschreibung der Skala passt, ob die Antwort zur Erklärung passt und ob diese Erklärung sich auf den Inhalt des Items bezieht. Die Urteile stimmten zu 96 % überein. Cohens Kappa als Maß der Intercoderübereinstimmung liegt für die drei codierten Fragen zwischen 0,68 und 0,72 und damit im guten Bereich (Döring und Bortz 2016, S. 346 f.). In Tab. 7 sind die durchschnittlichen Passungswerte für alle Items dargestellt. Sie liegen stets oberhalb des Wertes von 0,66, der für Berger und Karabenick (2016) die Grenze zu problematischen Items markiert. Verhältnismäßig problematisch war, die Passung der Interpretation der Items zu codieren. Den Befragten fiel es generell schwer, verschiedene Strategien zu beschreiben, ohne einfach die Formulierungen der Items zu wiederholen. Insgesamt zeigt sich eine hohe Inhaltsvalidität.

Tab. 7 Anteil passender Einschätzungen der Validitätsfacetten der Items in Erhebung 9

5.7 Reliabilitätsprüfung

Zur Reliabilität wird in Tab. 8 der Wert von Cronbachs α als Maß der internen Konsistenz der finalen Skalen angegeben. In der Literatur wird oft eine Untergrenze von 0,70 diskutiert (Cho und Kim 2015; Cortina 1993; Schmitt 1996). Geringere Werte können allerdings akzeptabel sein, wenn wie im vorliegenden Fall keine individuelle Diagnostik erfolgt, sondern die Daten nur auf Gruppenebene ausgewertet werden (Döring und Bortz 2016, S. 443). Zudem muss bedacht werden, dass Skalen mit größerer Zahl an Items bei gleicher mittlerer Korrelation ein höheres α erzielen (Cho und Kim 2015; Cortina 1993; Schmitt 1996). Die Reliabilitätswerte sind insgesamt zufriedenstellend, insbesondere bei Berücksichtigung der Kürze der Skalen.

Tab. 8 Reliabilitätskoeffizient Cronbachs α der Lernstrategie-Skalen aus Modell 3 für Erhebung 1–8

6 Diskussion

Im vorliegenden Beitrag haben wir ausgehend von bestehenden Taxonomien ein Instrument entwickelt, das die mathematikspezifische Erfassung von Lernstrategien im Studium erlaubt: Es berücksichtigt die besondere Rolle von Beispielen und Praxisbezügen bei der Elaboration, von Beweisen und Vereinfachungen bei der Organisation und das Üben als spezifische Form wiederholenden Lernens. Bezüglich der Ressourcen wird die Frustrationsresistenz als besondere Anstrengungsform herausgehoben, daneben wird Anstrengung noch spezifisch bezüglich der verbreiteten Übungsaufgaben erfasst. Das Lernen mit anderen Studierenden bezieht sich speziell auf Aufgaben als typische Lernanlässe im mathematikhaltigen Studium.

In zwei qualitativen und acht quantitativen Erhebungen erweisen sich die Skalen als valide, reliabel und eindimensional. Die Modellgüte der konfirmatorischen Faktoranalyse zeigt außerdem eine deutliche Verbesserung gegenüber anderen Fragebögen: Der Einsatz des LIST und MSLQ führte in anderen Studien beispielsweise zwar auf akzeptable Werte der Residuenbasierten Koeffizienten RMSEA, RMR und SRMR, aber die Werte für \(\chi ^{2}/df\) waren nur teilweise befriedigend und inkrementelle Indizes wie GFI, AGFI und CFI hatten die Grenzwerte klar verfehlt (vgl. Baumert 1993; Griese 2017; Griese et al. 2015; Pintrich et al. 1993). Das vorgelegte Modell zeigt trotz einer großen Stichprobe ein akzeptables Verhältnis für \(\chi ^{2}/df\), gute Werte für den CFI und einen sehr guten Wert für den RMSEA. Unter Berücksichtigung der Modellgröße ist auch der Wert für den TLI gut. Zudem liegt der RMSEA des Nullmodells bei Modell 1 (b) unter 0,158. CFI und TLI, die auf dem Vergleich zwischen dem Nullmodell und dem spezifizierten Modell basieren, gelten in dieser Situation als wenig aussagekräftig, weil schon das Nullmodell die Daten verhältnismäßig gut aufklärt (Kenny 2015). Insofern ist die Modellgüte insgesamt sehr gut. Modellvariante (b) beruht unter anderem auf den Daten von Studie 1, welche die Grundlage für die Skalenzuordnung und Itemselektion bildete. Sie hat stets vergleichbare Werte zu Variante (a), die nur auf den Daten von Studie 2 basiert. Die Skalen, die explorativ mithilfe der Daten aus Studie 1 gewonnen wurden, scheinen also nicht wesentlich auf Besonderheiten dieser Stichproben aufzubauen.

Eine weitere Stärke liegt in der Reduktion auf Kurzskalen, die dem Wunsch einiger Forschenden entspricht, mit wenig Zeitaufwand verschiedene Lernstrategien zu erheben (z. B. Griese et al. 2015). Das Ausdifferenzieren der Strategien scheint insbesondere durch die unterschiedliche Korrelationsstruktur gerechtfertigt.

Grenzen der vorgelegten Arbeit finden sich in der ausschließlichen Nutzung von Selbstberichten, die nicht immer mit Daten aus anderen Quellen übereinstimmen (Artelt 2000; Souvignier und Rös 2005). Insofern wäre die Validierung des Instruments anhand von Beobachtungen wünschenswert. Außerdem muss noch gezeigt werden, ob diese Differenzierungen zur Aufklärung von Lernprozessen bedeutsam sind. Insbesondere ist offen, inwieweit sich durch die fachnahe und differenzierte Erfassung von Lernstrategien die Leistung der Studierenden erklären lässt und welche Strategien hier entscheidend sind. Dies war in der Forschung zu Lernstrategien oft nicht befriedigend gelungen (Schiefele et al. 2003; Spörer und Brunstein 2006). Erste Ergebnisse deuten darauf hin, dass z. B. die Erfassung der Frustrationsresistenz hier einen Beitrag leisten kann (Kuklinski et al. 2020).

Die vorgestellten Skalen verweisen auf die Auswahl der Lerninhalte, die in der bisherigen Systematik von Lernstrategien keine Rolle spielt. Zur Frage, wie gelernt wird, kommt also die Frage, was gelernt wird. Beim Üben geht die Einschränkung auf gewisse Inhalte natürlich mit der Art des Lernens einher, zur Nutzung von Beispielen und Beweisen sind aber eigentlich verschiedene kognitive Lernstrategien möglich. Solche Auswahlentscheidungen für gewisse Inhalte haben sich auch schon bei Eley und Meyer (2004) in Form einer Skala zur Beispielnutzung gezeigt und bei Berger und Karabenick (2011) in Form von unerwünschten Querladungen von Items, die sich auf denselben Inhalt bezogen. Offen ist die Skalenbildung für die Fokussierung weiterer Inhaltsbereiche (z. B. Definitionen, Sätze, Formeln und Verfahren).

Offen bleibt zudem die mathematikspezifische Erhebung metakognitiver Strategien, die insbesondere für das Problemlösen als sehr wichtig angesehen werden (Heinze 2007; Pólya 1945; Schoenfeld 1985). Mit dem LIST-Fragebogen konnten diese in anderen Studien zur Hochschulmathematik aber allenfalls als Gesamtskala zur Metakognition reliabel gemessen werden, nicht jedoch die Teilskalen zum Planen, Überwachen und Regulieren (Griese 2017; Vogel 2001; vgl. Boerner et al. 2005; Schiefele und Wild 1994 für entsprechende Probleme außerhalb der Mathematik). Im Zuge der vorgestellten Instrumentenentwicklung wurden die Skalen aus dem LIST auch in den ersten beiden Erhebungen eingesetzt, ohne reliable Ergebnisse zu liefern (Cronbachs α < 0,70). Die Formulierung fachnaher Items wurde zunächst versucht, aber zurückgestellt, als keine kurzen, inhaltlich passenden und eindeutig zu interpretierenden Items gefunden werden konnten. Dies scheint auch in der Schulmathematik problematisch zu sein. So wurden in einer Arbeit von Berger und Karabenick (2016) zwei der fünf Items zum Planen aus dem an Schulmathematik angepassten MSLQ von weniger als der Hälfte der Befragten erwartungsgemäß interpretiert. Zunächst müssten also konkretere Beschreibungen metakognitiver Prozesse in der Hochschulmathematik erarbeitet werden. Allerdings hat sich empirisch gezeigt, dass zumindest Studierende in fachmathematischen Veranstaltungen beim Planen ihren Arbeitsprozess kaum voraussehen können, ihnen beim Überwachen das Wissen zur Bewertung von Zwischenergebnissen fehlt und ihnen für das Regulieren in vielen Situationen keine Handlungsalternativen bekannt sind (Liebendörfer 2018, Kapitel 10.3.1). Insofern ist die Erhebung metakognitiver Lernstrategien kein reines Problem der Operationalisierung, sondern vor allem der Konzeptualisierung passender Konstrukte.

Durch die Erprobung in unterschiedlichen Kontexten kann das Instrument für den Einsatz in verschiedenen mathematikhaltigen Studiengängen empfohlen werden. Allerdings sollte man prüfen, ob die abgefragten Strategien auf den jeweils angebotenen Stoff anwendbar wären. So scheint die Abfrage der Nutzung von Beweisen nur sinnvoll, wenn genügend Beweise präsentiert wurden, was gerade in der Service-Mathematik nicht immer der Fall ist (vgl. z. B. Papula 2018). Entsprechend könnte die Skala zur Herstellung von Praxisbezügen in einer anwendungsfernen Veranstaltung wie z. B. einer algebraischen Zahlentheorie fraglich sein, weil sich zu vielen Inhalten kaum Praxisbezüge finden lassen.