1 Einleitung

Die Erfassung der professionellen Kompetenz von berufstätigen wie zukünftigen Lehrerinnen und LehrernFootnote 1 ist für die Entwicklung einer empirisch gestützten Theorie des Lehrerberufs und der Lehrerausbildung sowie für die vergleichende Evaluation der Wirksamkeit verschiedener Modelle der Lehrerausbildung von grundlegender Bedeutung (Allemann-Ghionda & Terhart 2006). Entsprechende Forschung stellte lange Zeit ein gravierendes Defizit dar (Blömeke 2004; Baumert & Kunter 2006). Während Schulleistungsstudien, Vergleichsarbeiten oder zentrale Abschlussprüfungen auf der Schülerebene umfassend Daten bereitstellen, wird mit der standardisierten Erfassung des Wissens und der Überzeugungen ihrer Lehrkräfte gerade erst begonnen. Die Studien Mathematics Teaching in the 21st Century (MT21; Blömeke, Kaiser & Lehmann 2008), Teacher Education and Development: Learning to Teach Mathematics (TEDS-M; Tatto et al. 2008; Blömeke et al. 2009) und Professionswissen von Lehrkräften, kognitiv aktivierender Mathematikunterricht und die Entwicklung von mathematischer Kompetenz (COACTIV; Brunner et al. 2006) sind in Deutschland die prominentesten Beispiele hierfür.

Die Erfassung des fachübergreifenden, pädagogischen Wissens stellt eine besondere Herausforderung dar und ist mit Ausnahme der Studie MT21 bislang kaum Gegenstand der Kompetenzmessung gewesen. Dabei stellt es einen bedeutsamen Anteil professioneller Kompetenz von Lehrern dar. Fachübergreifende Lerngelegenheiten – als „erziehungswissenschaftliches Studium“ bzw. „Hauptseminar“ bezeichnet – bilden zudem national wie international einen substanziellen Anteil an institutionellen Lerngelegenheiten angehender Lehrkräfte (Schmidt et al. 2007).

Dieser Beitrag widmet sich daher dem pädagogischen Wissen angehender Lehrer. Es wird zunächst eine theoriegeleitete Konzeption zur Erfassung dieses Wissensbereichs präsentiert. Die Konzeptualisierung mündet in der Annahme, dass pädagogisches Wissen nicht homogen ist, sondern dass zwischen unterschiedlichen Wissensgebieten, die sich auf berufliche Anforderungen beziehen, differenziert werden muss. Diese Annahme wird an einer Gruppe von Lehramtsstudierenden aus Deutschland und Österreich empirisch überprüft.

1.1 Standards für die Lehrerausbildung und professionelle Kompetenz

Mit den „Standards für die Lehrerbildung“ der Kultusministerkonferenz (KMK 2004) haben die Bundesländer ein neues Steuerungsinstrument erhalten, das die globale Entwicklung von der input- zur output-Orientierung in Bildungssystemen auf den Bereich der Lehrerausbildung ausweitet. Zwar wurden die Standards dahingehend kritisiert, dass sie die Kriterien qualitativ hochwertiger Bildungsstandards, wie sie etwa von Klieme et al. (2003) genannt werden, nicht erfüllen (vgl. dazu im Detail Blömeke 2006). Jedoch liefern sie für Studien zur professionellen Kompetenz von Lehrpersonen einen wichtigen Ansatzpunkt, indem sie die beruflichen Aufgaben von Lehrern definieren: Lehrkräfte sind „Fachleute für das Lehren und Lernen“, deren „Kernaufgabe … die gezielte und nach wissenschaftlichen Erkenntnissen gestaltete Planung, Organisation und Reflexion von Lehr- und Lernprozessen sowie ihre individuelle Bewertung und systemische Evaluation“ ist (KMK 2004, S. 3). Eine Verknüpfung dieser staatlichen Festlegung mit dem pädagogisch-psychologischen Ansatz der Kompetenzorientierung, wie ihn Weinert (2001) ausgearbeitet und Bromme (1992, 1997; Bromme & Haag 2004) für den Lehrerberuf konkretisiert hat, führt zu einem Rahmenkonzept für die detaillierte Ausarbeitung der Anforderungen, die an Lehrkräfte in ihrem Beruf gestellt werden. In diesem Sinne wird auch in der vorliegenden Studie „professionelle Kompetenz“ von Lehrkräften als die erfolgreiche Bewältigung zentraler Anforderungen definiert, die typisch für den Lehrerberuf sind.

In Anlehnung an die Topologie von Wissensdomänen nach Shulman (1986) umfasst „professionelle Kompetenz“ verschiedene, für den Lehrerberuf spezifizierte Wissensbereiche: fachliches Wissen (content knowledge), fachdidaktisches Wissen (pedagogical content knowledge) und fachübergreifendes, pädagogisches Wissen (general pedagogical knowledge). Während zum fachbezogenen Wissen eine bescheidene Anzahl von empirischen Studien vorliegt (MT21, TEDS-M, COACTIV), ist bislang für den Bereich des pädagogischen Wissens theoretisch nicht vollständig und empirisch so gut wie gar nicht geklärt, was genau unter diesem Wissensbereich verstanden werden kann und wie er strukturiert ist. Zwar setzen hier einzelne Studien an (z.B. Baer et al. 2007; Schulte, Bögeholz & Watermann 2008), sie beschränken sich aber stets auf einzelne Standorte (z.B. Hochschulen; vgl. zu dieser Problematik Terhart 2002) und weisen nur sehr geringe Fallzahlen auf; empirisch gestützte Aussagen zur Struktur des pädagogischen Wissens angehender Lehrer lassen sich ihnen nicht entnehmen. Zudem erfasst die Mehrheit der Studien Kompetenzen lediglich über Selbstberichte (z.B. Oser & Oelkers 2001; Abs et al. 2005; Schubarth & Pohlenz 2006). Selbstbeurteilungsverfahren können zwar prinzipiell eine diagnostische Funktion übernehmen. In Hinblick auf die standardisierte Erfassung von Wissen werden sie jedoch kritisch diskutiert und testdiagnostische paper and pencil-Verfahren gefordert (vgl. Schaefers 2002; Terhart 2002).

1.2 Zur Struktur des pädagogischen Wissens von Lehrkräften

Eine wichtige Ausnahme stellt die Erfassung des fachübergreifenden Wissens in der Studie Mathematics Teaching in the 21st Century (MT21) dar, einer internationalen Vergleichsstudie zur Mathematiklehrerausbildung in sechs Ländern. Dort wird diese Wissenskomponente von angehenden Mathematiklehrkräften der Sekundarstufe I in Bulgarien, Deutschland, Mexiko, Südkorea, Taiwan und den USA mit offenen Aufgaben zur Unterrichtsplanung, zur Lernzielkontrolle und zum Umgang mit sozialer Ungleichheit bei 2.628 Testpersonen standardisiert erfasst. In Deutschland wurden vier Ausbildungsregionen in die Studie einbezogen, die wichtige Strukturmerkmale der hiesigen Lehrerausbildung widerspiegeln. In diesen vier Regionen wurde eine Vollerhebung an allen Universitäten und Studienseminaren durchgeführt (Blömeke, Kaiser & Lehmann 2008; Schmidt et al. 2007).

Die in MT21 fokussierte Aufgabe, Unterricht zu planen, bildet einen Kern der KMK-Anforderung „Unterrichten“; die darüber hinausgehende Aufgabe, zu kontrollieren, inwieweit Lernziele erreicht wurden, stellt einen Kern der KMK-Anforderung „Beurteilen“ dar (KMK 2004). Das ergänzend aufgenommene „Umgehen mit sozialer Ungleichheit“ ist ein Thema, das viele Länder zunehmend beunruhigt (Kozol 2006; Wiggan 2007). Der Umgang mit Heterogenität steht zudem an erster Stelle der KMK-Definition von Ausbildungszielen für alle Lehrämter (KMK 1997a, 1997b, 1997c). Die drei Anforderungen, Unterricht zu planen, das Erreichen von Lernzielen zu kontrollieren und mit sozialer Ungleichheit umzugehen, weisen gleichzeitig Berührungspunkte zu den Lehrschwerpunkten der am erziehungswissenschaftlichen Studium beteiligten Disziplinen Erziehungswissenschaft (in diesem Fall vor allem der Allgemeinen Didaktik), Psychologie (Pädagogische Psychologie) und Soziologie (Bildungssoziologie) auf, sodass ihre Auswahl als solide begründet gelten kann.

Blömeke, Felbrich und Müller (2008) untersuchen für die deutsche Stichprobe die Struktur des pädagogischen Wissens. In einer konfirmatorischen Faktorenanalyse wird deutlich, dass ein Modell, das zwischen den drei Wissensbereichen Unterrichtsplanung, Lernzielkontrolle und Umgang mit sozialer Ungleichheit unterscheidet, die Antworten der Studierenden und Referendare deutlich besser widerspiegelt als ein Modell, das davon ausgeht, pädagogisches Wissen sei homogen. Die Zusammenhänge zwischen dem erfassten Wissen in den drei Bereichen sind äußerst niedrig (04 ≤ f ≤ .34). Umfangreiches Wissen in einem der drei Bereiche geht also nicht notwendigerweise mit umfangreicherem Wissen in einem der anderen beiden Bereiche einher.

Dieses Ergebnis stützt langjährige wissenschaftstheoretische Diskussionen zur Struktur des pädagogischen Wissens. Oelkers (1989) und Tenorth (1989) haben wiederholt darauf hingewiesen, dass zwischen verschiedenen Bereichen und Funktionen des pädagogischen Wissens unterschieden werden muss, wenn man es differenziert beschreiben will. Sie führen dies auf den handlungsbezogenen Charakter der Disziplin zurück. Benner (1987) hebt als Eigenheit der Pädagogik ebenfalls hervor, dass sie sich funktional von der Logik der Praxis aus bestimme. Insofern wird auch aus allgemeinpädagogischer Perspektive das Herangehen gestützt, Kernanforderungen an Lehrkräfte zu identifizieren und entsprechendes Wissen zu erfassen – schon um zu klären, „ob und wie sie (die pädagogische Praxis und das sie regierende Wissen; d. Verf.) einer solchen prinzipientheoretischen Struktur entsprechen, die ihnen von außen zugeschrieben wird“ (Oelkers & Tenorth 1991, S. 27).

Aus institutioneller Perspektive bietet eine mehrdimensionale Modellierung des pädagogischen Wissens den Vorteil, differenzierte Erkenntnisse über den Prozess des Wissenserwerbs angehender Lehrkräfte während der Ausbildung erhalten zu können. Es ist nicht unplausibel anzunehmen, dass die Angebotsstruktur im erziehungswissenschaftlichen Studium zu unterschiedlichen Zeitpunkten unterschiedliche Wirkungen in Teilgebieten entfaltet. Das erziehungswissenschaftliche Studium setzt sich aus mehreren Disziplinen und Komponenten zusammen, deren Gewichtung, Vielfalt und Verbindlichkeit erheblich variieren können (Nolle 2004). Der Vorwurf inhaltlicher Beliebigkeit und mangelnder Systematik gehört zum wiederkehrenden Repertoire darauf ausgerichteter Reviews (Terhart 2000; Keuffer & Oelkers 2001; Schaefers 2002). Sofern mit der Erfassung des fachübergreifenden, pädagogischen Wissens angehender Lehrer der Anspruch verbunden ist, ausbildungsabhängiges Wissen abzubilden – und dieser Anspruch wird in der vorliegenden Studie verfolgt –, dürfte es wenig valide sein, pädagogisches Wissen in seiner Struktur ausschließlich als Einheit zu betrachten, da differenzielle Ausbildungswirkungen überdeckt werden würden. Im Folgenden wird daher das pädagogische Wissen angehender Lehrer mehrdimensional konzeptualisiert. Inhaltlich liegt der Mehrwert eines solchen Vorgehens gegenüber MT21 darin, das Wissen angehender Lehrkräfte extensiver beschreiben und damit einen differenzierteren Einblick in deren Wissensstruktur erhalten zu können. Methodisch liegt der Mehrwert gegenüber MT21 darin, Annahmen zur Mehrdimensionalität mithilfe einer Rasch-Skalierung (Rost 1996) prüfen zu können und damit anschlussfähig zu sein an einen forschungsmethodischen Standard, der mittlerweile in der Schulleistungsforschung selbstverständlich geworden ist.

2 Theoretischer Rahmen der Strukturierung des pädagogischen Wissens

Für eine detaillierte Ausarbeitung der beruflichen Anforderungen an Lehrkräfte greifen wir auf empirisch nachgewiesene Basisdimensionen von Unterrichtsqualität zurück und verknüpfen diese mit Modellen der Allgemeinen Didaktik. Während sich die Allgemeine Didaktik vornehmlich mit den Komponenten und Prozessen von Unterricht auseinander setzt, versucht die empirische Unterrichtsforschung die Qualität von Unterricht anhand von Merkmalen zu beschreiben, die mit Schülerleistungen in Zusammenhang stehen (Brophy 1999; Baumert et al. 2004). Die zahlreichen Untersuchungen zur Unterrichtsqualität haben in den vergangenen Jahrzehnten eine Fülle von Einzelergebnissen hervorgebracht. Ditton (2000) hat einen Modellrahmen zu wirksamen Faktoren des Unterrichts vorgeschlagen, dessen Struktur an den Ansatz Quality-Appropriateness-Incentives-Time (QAIT) von Slavin (1994) angelehnt ist. Dieser verknüpft vier Unterrichtsfaktoren, die sich in empirischen Studien wiederholt als bedeutsam erwiesen haben:

  • Qualität der Instruktion (Quality),

  • Angemessenheit des Anspruchsniveaus (Appropriateness),

  • Motivierung (Incentives) und

  • Unterrichtszeit (Time).

Da weitere Systematisierungen mit diesem Modell gut harmonieren (siehe z.B. Helmke 2003; Baumert et al. 2004; Good & Brophy 2007), kann die Eingrenzung von Unterrichtsqualität auf diese Basisdimensionen als relativ abgesichert gelten.

Unsere Konzeptualisierung des fachübergreifenden, pädagogischen Wissens angehender Lehrkräfte folgt diesem Diskurs. Allerdings kann eine Systematisierung zur Qualität von Unterricht, basierend auf Untersuchungsergebnissen zum Zusammenhang von Unterrichtsmerkmalen und Schülervariablen, nicht unverändert einer Modellierung von Lehrerkompetenzen zugrunde gelegt werden: Erstens legen überzeugende Modelle zur Beschreibung von Unterricht eine Trennung von Unterrichtsmerkmalen und Lehrerkompetenzen nahe (vgl. z.B. Helmke 2003). Zweitens reicht es nicht aus, allein Schülerleistungen als Kriterium für die Gestaltung von Unterricht zu verwenden, da auf der Seite der Lehrkräfte zahlreiche Überlegungen eine Rolle spielen – etwa zu Zielen, Inhalten und Methoden von Unterricht –, die in der Unterrichtsgestaltung berücksichtigt werden müssen (Blömeke, Herzig & Tulodziecki 2007). Solche Überlegungen werden in Modellen der Allgemeinen Didaktik beschrieben (vgl. z.B. Heimann, Otto & Schulz 1965; Klafki 1985; Tulodziecki, Herzig & Blömeke 2004). Im Folgenden beschreiben und begründen wir daher sowohl aus der Perspektive der empirischen Unterrichtsforschung als auch unter didaktischen Gesichtspunkten die Operationalisierung des fachübergreifenden, pädagogischen Wissens von Lehrkräften als „Fachleute für das Lehren und Lernen“ (KMK 2004, S. 3) anhand von fünf Dimensionen beruflicher Anforderungen:

  • Strukturierung von Unterricht,

  • Motivierung,

  • Umgang mit Heterogenität,

  • Klassenführung und

  • Leistungsbeurteilung.

2.1 Strukturierung von Unterricht

Anhand welcher Kriterien Unterricht strukturiert und geplant werden kann, ist zentraler Gegenstand der Allgemeinen Didaktik. Entsprechend ist die Planung von Unterricht wesentlicher Gegenstand der Lehrerausbildung. Untersuchungen zur Unterrichtsqualität verweisen ebenfalls auf die Bedeutung der Lehrerinstruktionen (z.B. Strukturiertheit der Darbietung des Stoffs, der Aufgabenstellungen und -folgen), welche in der Komponente „Qualität der Instruktion“ (Quality) im QAIT-Ansatz (Slavin 1994) ihren Niederschlag findet. Insofern kommt dem Wissen zur Strukturierung von Unterricht bei der Erfassung des fachübergreifenden Wissens von zukünftigen Lehrkräften ein besonderer Stellenwert zu.

Vor allem in den ersten Jahren des Berufslebens dürfte die Instruktionsqualität einer Lehrperson in hohem Maße durch ihre Analyse und Planung von Unterricht bedingt sein, da hierbei die Unterrichtsstruktur gedanklich antizipiert wird. Aufgrund dieses Mechanismus stellt die Unterrichtsplanung ein besonders geeignetes Themenfeld dar, das Strukturierungs- und Instruktionswissen von angehenden Lehrern zu testen. In Anlehnung an zentrale didaktische Modelle (insbesondere Heimann, Otto & Schulz 1965; Klafki 1985; Tulodziecki, Herzig & Blömeke 2004) und Erkenntnisse aus der empirischen Unterrichtsforschung fassen wir unter dieser Dimension die folgenden beruflichen Anforderungen an Lehrkräfte zusammen:

  • komponentenbezogene Planung und Analyse von Unterricht (z.B. Bedingungs- vs. Entscheidungsfelder),

  • prozessbezogene Planung und Analyse von Unterricht (z.B. Phasenmodelle von Unterricht, konkrete Strukturierungshilfen für Schüler im Unterricht) sowie

  • curriculare Strukturierung von Unterricht (z.B. Klassifikation von fachübergreifenden Lernzielen).

2.2 Motivierung

Schulische Lernprozesse können unter didaktischen Gesichtspunkten als „inszenierte“ Situationen betrachtet werden, in denen Schüler zur Auseinandersetzung mit Aufgabenstellungen angeregt werden sollen (vgl. Tulodziecki, Herzig & Blömeke 2004). Insofern handelt es sich um Lernarrangements, die vorbestimmt sind und von den Lernenden nicht vollständig eigenverantwortlich gestaltet werden können. Einer besonderen Motivierung kommt für schulische Lernprozesse insofern große Bedeutung zu. Nicht für alle Schüler kann Interesse im Sinne einer langfristig überdauernden und stabilen positiven Beziehung zwischen einer Person und einem Inhalt (vgl. Krapp 2001) vorausgesetzt werden. Die Incentive-Komponente des QAIT-Modells steht daher für die Ausprägung, inwieweit Lehrkräfte mit ihrem Unterricht eine Motivation von Schülern im Unterricht empirisch gewährleisten (vgl. Slavin 1994; Ditton 2000).

Zu berücksichtigen ist in diesem Zusammenhang, dass es nicht nur darum geht, einzelne Schüler für ihre Aufgaben im Unterricht zu motivieren, sondern dass parallel dazu die ganze Lerngruppe zur Mitarbeit bzw. selbstständigen Arbeit im Unterricht anzuregen ist (Good & Brophy 2007). Unter den möglichen Themen fokussieren wir in unserer Studie auf

  • die Leistungsmotivation (z.B. intrinsische vs. extrinsische Motivation) sowie

  • Motivierungsstrategien im Unterricht (z.B. Verknüpfung mit lebensweltlichen Erfahrungen der Schüler).

2.3 Umgang mit Heterogenität

Der Umgang mit einer heterogenen Schülerklientel gehört zu den größten Herausforderungen des Unterrichts (vgl. Helmke 2003; Horstkemper 2004). Dies gilt für die Grundschule ebenso wie für das gegliederte Sekundarstufenschulwesen. Eine auf einzelne Schüler oder auf Gruppen von Schülern bezogene Individualisierung der Lehr-Lernprozesse im Unterricht stellt insofern eine wichtige Aufgabe von Lehrkräften dar. Individualisierung wird durch didaktische Maßnahmen innerer Differenzierung ermöglicht, die sich auf unterschiedliche Methoden, Lerninhalte, Lernmaterialien, unterschiedliche Lernzielniveaus und Techniken der Motivierung von Schülern beziehen können (Weinert 1997; Bönsch 2004). Im Vergleich zu dieser Mikroebene sind auf einer Makroebene organisationssoziologische und schultheoretische Bezüge hervorzuheben, etwa die Organisation des Bildungswesens, die Institutionalisierung von Lernprozessen oder bildungspolitische Entwicklungen, welche in den Unterricht hineinwirken (Fend 1980, 2006; Bönsch 2004). Im QAIT-Ansatz werden entsprechende Maßnahmen der Differenzierung und Individualisierung schulischen Lernens unter der Komponente „Angemessenheit des Anspruchsniveaus“ subsumiert (vgl. Slavin 1994; Ditton 2000).

Für die Operationalisierung der Anforderung „Umgang mit Heterogenität“ fokussieren wir vor diesem Hintergrund auf zwei Themenbereiche:

  • Kenntnisse zu Differenzierungsmaßnahmen und deren Umsetzung im Unterricht (z.B. äußere vs. innere Differenzierung, Differenzierung von Aufgabenstellungen nach Lerntypen) sowie

  • Kenntnisse zur Methodenvielfalt und zu deren Einsatz im Unterricht (z.B. Vor- und Nachteile offener Unterrichtskonzepte, Methodenmuster konventionellen Unterrichts).

2.4 Klassenführung

Die Unterscheidung von quantitativen und qualitativen Merkmalen ist kennzeichnend für die Beschreibung von Unterricht in Modellen der empirischen Unterrichtsforschung (vgl. zusammenfassend z.B. Gruehn 2000). Der für aktives Lernen zur Verfügung stehenden Zeit kommt in Bezug auf Unterrichtseffektivität eine Schlüsselrolle zu (Doyle 1986; Weinert 1996; Helmke 2003). Im Rahmen der Testung professioneller Kompetenz von Lehrkräften steht nicht die bereitgestellte Lernzeit für die Schüler im Mittelpunkt, als vielmehr die Sicherung einer effektiven Nutzung dieser Zeit durch die Lehrkraft. Vom Gesichtspunkt der Klassenführung her ist dabei vornehmlich an Maßnahmen zu denken, mit denen eine Lehrkraft störungsarmen Unterricht ermöglicht (Kounin 1976; Doyle 1986). Auch Ditton (2000) führt die beiden Bereiche Klassenführung und Unterrichtszeit in seiner an den QAIT-Ansatz von Slavin (1994) angelehnten Darstellung zusammen. Unter dieser Dimension subsumieren wir daher die folgenden beiden Themen:

  • störungspräventive Unterrichtsführung (z.B. Planungsaspekte, konkretes Lehrerverhalten) und

  • effektive Nutzung der Unterrichtszeit (z.B. Unterrichtsroutinen).

2.5 Leistungsbeurteilung

Die Leistungsbeurteilung von Schülern bleibt im QAIT-Modell weitgehend unberücksichtigt. In der jüngsten Diskussion um die Diagnosekompetenz von Lehrkräften und in den Standards für die Lehrerausbildung ist sie jedoch sehr prominent (vgl. KMK 2004; Ziegenspeck 2004; Good & Brophy 2007). Aus didaktischer Sicht stellen die Überprüfung des Lernerfolgs und seine Bewertung ebenfalls wichtige Anforderungen an Lehrkräfte dar (Tulodziecki, Herzig & Blömeke 2004). Schon während des Unterrichtsverlaufs entsteht die Frage nach einer formativen Feststellung des Lernerfolgs. In Klassenarbeiten tritt die Leistungsbeurteilung ganz in den Mittelpunkt, wobei Gütekriterien eine angemessene Qualität der Messung sichern und Bezugsnormen beachtet werden müssen (Bohl 2004). Außerdem wird von Lehrern zunehmend eine Beteiligung an Parallel- oder Vergleichsarbeiten bzw. Lernstandserhebungen gefordert.

Für die Schüler hat die Leistungsbeurteilung eine große Bedeutung, entscheidet sie doch darüber, ob weitere Bildungschancen eröffnet oder verwehrt werden. Lehrkräfte handeln dabei vor dem Hintergrund einer spannungsreichen Diskussion (z.B. um die Widersprüchlichkeit von Fördern und Auslesen oder von Lernen und Leisten) und müssen unterschiedlichen Funktionen von Leistungsbeurteilungen gerecht werden (z.B. Diagnose, Orientierung, Prognose oder Legitimation; Ziegenspeck 1999). Wir fokussieren vor diesem Hintergrund auf

  • Funktionen und Formen der Leistungsbeurteilung (z.B. Ziffernzeugnisse vs. alternative Formen),

  • zentrale Kriterien (z.B. Gütekriterien) und

  • Urteilsfehler (z.B. Voreingenommenheiten von Lehrern).

2.6 Formen des pädagogischen Wissens von Lehrkräften

Bei der Konzeptualisierung des pädagogischen Wissens aus der Perspektive beruflicher Anforderungen ist zu beachten, dass dieses in zwei Formen vorliegt: in Form deklarativen und in Form prozeduralen Wissens. Prozedurales Wissen stellt dabei jene Form dar, die besonders handlungsrelevant ist, während das ausschließliche Vorliegen deklarativen Wissens Schwierigkeiten bei der Umsetzung von Wissen in die Praxis mit sich führen kann (Gruber & Renkl 2000; Anderson et al. 2001). Prozedurales Wissen ist dadurch gekennzeichnet, dass es situations- und ablauforientiert organisiert ist („Handlungsschemata“). Das heißt in Bezug auf Lehrpersonen, dass sie Unterricht schrittweise anhand typischer Abfolgen wahrnehmen, planen und durchführen (Aebli 1983; Putnam 1987). Wir streben mit unserem Leistungstest an, durch eine entsprechende Gestaltung der Testaufgaben beiden Wissensformen gerecht zu werden.

3 Fragestellung

Anliegen des vorliegenden Beitrags ist die Untersuchung der Struktur des fachübergreifenden, pädagogischen Wissens angehender Lehrpersonen. Wir gehen in einem ersten Schritt der Frage nach, ob dieses Wissen anhand der fünf theoretisch herausgearbeiteten beruflichen Anforderungen organisiert ist oder ob es eine homogene Struktur aufweist. In einem zweiten Schritt stellen wir die Frage, welche Zusammenhänge diese verschiedenen inhaltlichen Wissensbereiche – so sie sich denn als unterschiedlich erweisen – aufweisen.Footnote 2 Entsprechende Erkenntnisse tragen sowohl zur Klärung theoretischer Grundfragen der Erziehungswissenschaft und Bildungsforschung als auch zur Klärung der Wirksamkeit von Lehrerausbildung bei.

Ausgehend von unserem kompetenzorientierten Ansatz sowie in Übereinstimmung mit wissenschaftstheoretischen Überlegungen, dass sich pädagogisches Wissen funktional von der Logik der Praxis aus bestimme, und institutionenbezogenen Reviews des erziehungswissenschaftlichen Studiums nehmen wir an, dass sich im fachübergreifenden, pädagogischen Wissen von angehenden Lehrkräften die Dimensionen Strukturierung von Unterricht, Motivierung, Umgang mit Heterogenität, Klassenführung und Leistungsbeurteilung unterscheiden lassen. Demgegenüber steht die Annahme, dass nicht die praktischen beruflichen Anforderungen, mit denen sich Lehrkräfte konfrontiert sehen, ihr pädagogisches Wissen strukturieren, sondern dass dieses eine homogene Struktur aufweist. Technisch würde dies bedeuten, dass sämtliche Items auf einem Generalfaktor laden. Abbildung 1 verdeutlicht die beiden, sich gegenüberstehenden Annahmen.

Abb. 1
figure 1

Schematische Darstellung des eindimensionalen Modells (links) und des fünfdimensionalen Modells (rechts) pädagogischen Wissens

Hinsichtlich der Verknüpfung der fünf Wissensbereiche erwarten wir einerseits einen vergleichsweise engen Zusammenhang zwischen den Dimensionen Strukturierung von Unterricht und Umgang mit Heterogenität. Diese beiden Anforderungen stehen sich inhaltlich relativ nahe. Beispielsweise dürften Kenntnisse zur Methodenvielfalt – ein Themenbereich der Dimension Umgang mit Heterogenität – eng an Kenntnisse zur Strukturierung von Unterricht gekoppelt sein. Zum anderen erwarten wir einen engen Zusammenhang zwischen den Dimensionen Motivierung und Leistungsbeurteilung, da beispielsweise Formen der Leistungsbeurteilung in großer Nähe zu Kenntnissen zur Leistungsmotivation von Schülern stehen.

Unsere Annahmen zur Zusammenhangsstruktur der Wissensbereiche sehen wir gestützt durch die institutionelle Struktur der Lerngelegenheiten im erziehungswissenschaftlichen Studium. Diese sind institutionell verschiedenen akademischen Disziplinen zugeordnet (insbesondere der Erziehungswissenschaft und der Psychologie). Während die Strukturierung von Unterricht und der Umgang mit Heterogenität Kernfragen der Allgemeinen Didaktik darstellen, also Bestandteil von Lehrveranstaltungen in der Erziehungswissenschaft sind, gehören Motivierung und Leistungsbeurteilung – sowie partiell auch die Klassenführung – zu den klassischen Themen der Pädagogischen Psychologie. Angesichts der Schwierigkeiten mit der Abstimmung der Lehre über Fakultätsgrenzen hinweg (Terhart 2000; Keuffer & Oelkers 2001; Horstkemper 2004) sowie des multidisziplinären Charakters des erziehungswissenschaftlichen Studiums (Baumert & Roeder 1990) nehmen wir jeweils größere Konsistenz für die Lehrangebote innerhalb der beteiligten akademischen Disziplin an, welche mit einem konsistenteren Wissenserwerb aufseiten der angehenden Lehrer einhergehen sollte.

4 Untersuchungsmethode

4.1 Stichprobe

Die dargelegte Fragestellung wird im Rahmen einer Pilotstudie zur Erfassung des fachübergreifenden, pädagogischen Wissens von angehenden Lehrkräften für die internationale Vergleichsstudie Teacher Education and Development Study – Learning to Teach Mathematics (TEDS-M) untersucht. TEDS-M ist die erste Studie der International Association for the Evaluation of Educational Achievement (IEA) im tertiären Bereich sowie die erste international-vergleichende large-scale Studie zur Lehrerausbildung, die mit repräsentativen Stichproben arbeitet (Tatto et al. 2008; Blömeke et al. 2009). In TEDS-M werden das fachliche und das fachdidaktische Wissen angehender Lehrkräfte getestet; die Zielpopulation stellen angehende Mathematiklehrerinnen und -lehrer dar, die sich im letzten Jahr ihres Referendariats bzw. Vorbereitungsdienstes befinden. Die vorliegende Pilotstudie diente der Entwicklung eines Tests für das fachübergreifende, pädagogische Wissen angehender Lehrkräfte.

Um den Zugang für TEDS-M zum Feld der zweiten Ausbildungsphase unberührt zu lassen, wurde entschieden, die Pilotstudie in der ersten Ausbildungsphase durchzuführen. Unter forschungsökonomischen Gesichtspunkten war diese Entscheidung vorteilhaft. Auf Anfrage erklärten sich Hochschullehrkräfte von zehn Hochschulen in Deutschland und Österreich bereit, die Testung in ihren Lehrveranstaltungen zu Beginn des Wintersemesters 2007 / 08 durchzuführen.Footnote 3 Damit konnte einerseits gewährleistet werden, dass der Test unter Aufsicht durchgeführt wurde; andererseits ermöglichte der institutionelle Feldzugang zu Lehramtsstudierenden im Vergleich zu einem individuellen Zugang, Mechanismen der Selbstselektion entgegenzuwirken. Allerdings handelt es sich aus diesem Grund auch nicht um eine Gruppe von Personen, die durch zufällige Ziehung für die Teilnahme an der Studie ausgewählt wurden. Vielmehr stellen sie eine Gelegenheitsstichprobe von Lehramtsstudierenden dar, die einfach und kurzfristig zu erreichen waren. Für die vorliegende Studie stellt dies insofern kein Problem dar, als nicht die Gewinnung deskriptiver Erkenntnisse, sondern die Struktur des pädagogischen Wissens im Vordergrund steht.

An der Pilotstudie nahmen 802 Lehramtsstudierende teil, davon 310 (38,7%) von sechs Hochschulen in fünf deutschen Bundesländern und 492 (61,3%) von vier Hochschulen in Österreich. 679 (84,7%) der Befragten waren weiblich, 123 (15,3%) männlich. Der höchste Bildungsabschluss von 587 (73,2%) der Befragten war die Allgemeine Hochschulreife, die Fachhochschulreife oder die fachgebundene Hochschulreife, 183 (22,8%) verfügten über eine Zwischenprüfung, ein Vordiplom oder einen Bachelor-Abschluss und 30 (3,7%) besaßen bereits einen (Fach-)Hochschulabschluss.Footnote 4 In der ersten Gruppe befinden sich neben deutschen Studierenden im Grund- bzw. Bachelorstudium österreichische Lehramtsstudierende aller Semester, da in Österreich keine Zwischenprüfungen durchgeführt werden. Insgesamt können 264 (32,9%) Personen als „fortgeschrittene Lehramtsstudierende“ identifiziert werden, da sie sich zum Zeitpunkt der Befragung entweder im Haupt- bzw. Masterstudium oder in einem deutlich höheren Ausbildungssemester befanden. Als Ausbildungsgang verfolgten 397 (49,5%) der Befragten das Grundschullehramt (Klasse 1 bis 4), 94 (11,7%) ein stufenübergreifendes Lehramt (Grund-, Haupt-, Realschule), 123 (15,3%) das Lehramt für die Sekundarstufe I, 119 (14,8%) das Lehramt für die Sekundarstufen I und II und weitere 64 (8,0%) verfolgten entweder das Lehramt für die Sonderschule oder die Berufsschule.Footnote 5

4.2 Instrumente

Zur Erfassung des fachübergreifenden Wissens wurde unter der Leitung des deutschen TEDS-M-Teams von Erziehungswissenschaftlern und Psychologen aus Deutschland, Taiwan und den USA – teilweise auch unter Aufgreifen von Anregungen durch parallel laufende Initiativen im Bereich der pädagogisch-psychologischen Testentwicklung (vgl. z.B. Schulte, Bögeholz & Watermann 2008)Footnote 6 – ein umfangreicher Pool an Testaufgaben theoriegeleitet und unter besonderer Berücksichtigung von Erkenntnissen der Allgemeinen Didaktik sowie der empirischen Unterrichtsforschung entwickelt. Für jede der fünf beruflichen Anforderungen wurden sowohl geschlossene als auch offene Antwortformate konzipiert (vgl. exemplarisch die Aufgaben in den Abb. 2 bis 6). Nur vereinzelt konnte dabei auf vorhandene Testaufgaben zurückgegriffen werden (vgl. die Testaufgabe in Abb. 3 oder die Endnote 6).Footnote 7

Dieser erste deduktive Entwicklungsschritt wurde um einen induktiven Schritt ergänzt. In einer intensiven Erprobung wurden sämtliche Testaufgaben von angehenden und berufstätigen Lehrern sowie Lehrerausbildnern, Erziehungswissenschaftlern und Psychologen probeweise ausgefüllt und diskutiert. Auf dieser Basis erfolgte eine erste Überarbeitung der theoriegeleitet entwickelten Testaufgaben, wobei vor allem Fragen der Verständlichkeit im Vordergrund standen. Anschließend wurden die Testaufgaben durch externe nationale und internationale Experten für Fragen der Lehrerausbildung unterschiedlicher Fachrichtungen (u.a. Matthias Baer, Jere Brophy, Gabriele Kaiser) hinsichtlich verschiedener Kriterien begutachtet. Bei diesem Schritt standen vor allem Fragen der inhaltlichen Validität, der Zugehörigkeit der Items zu einer der fünf Dimensionen und des Schwierigkeitsgrads im Vordergrund. Testaufgaben, die einem oder mehreren dieser Kriterien nicht genügten, wurden ausgeschlossen.

Auf der Basis des verbleibenden Testaufgaben-Pools wurde die Entscheidung über die endgültige Teststruktur erneut theoriegeleitet vorgenommen. Alle fünf beruflichen Anforderungen sollten mit einer Zahl an Items vertreten sein, die Rasch-Skalierungen ermöglichen würden. Dabei war unser Ziel, die Anforderungen angesichts ihrer gleichermaßen hohen Bedeutung für die Gestaltung von Lehrprozessen annähernd gleichgewichtig im Test durch Items zu repräsentieren, die allen genannten Kriterien genügen. Für den Bereich Klassenführung ist dies in dem engen Zeitrahmen, der von der internationalen Projektleitung für TEDS-M vorgegeben war, allerdings nur begrenzt gelungen, sodass hier weniger Items zu finden sind.

Angesichts der speziell bei der Erfassung von pädagogischem Wissen bestehenden Schwierigkeit, bei Testaufgaben mit geschlossenem Antwortformat a priori richtige und falsche Antworten so wenig wie möglich simplifizierend und schematisierend festzulegen, kam eine relativ große Anzahl von Testaufgaben mit offenem Antwortformat zum Einsatz. Im Vergleich zu geschlossenen Aufgaben gewährleisteten diese zudem in höherem Maße, nicht nur deklaratives, sondern anteilig auch prozedurales Wissen zu erfragen. Die folgenden Analysen basieren vor diesem Hintergrund auf 50 Testaufgaben, in denen insgesamt 136 Punkte erreicht werden konnten:

  • 5 Aufgaben (35 Punkte), mit denen das pädagogische Wissen zur Strukturierung von Unterricht erfasst wird (vgl. das Aufgabenbeispiel in Abb. 2),

    Abb. 2
    figure 2

    Beispielaufgabe mit offenem Antwortformat zur Erfassung des deklarativen und anteilig prozeduralen Wissens zur beruflichen Anforderung Strukturierung von Unterricht (Antwortkasten in verkleinerter Darstellung) sowie Originalantworten mit Punktevergabe

  • 13 Aufgaben (28 Punkte) zur Motivierung (vgl. Abb. 3),

    Abb. 3
    figure 3

    Beispielaufgabe mit geschlossenem Antwortformat zur Erfassung des deklarativen Wissens zur beruflichen Anforderung Motivierung (in Anlehnung an Edelmann 2000, S. 269) sowie korrekte Lösungen (jeweils 1 Punkt pro richtiger Antwort)

  • 15 Aufgaben (39 Punkte) zum Umgang mit Heterogenität (vgl. Abb. 4),

    Abb. 4
    figure 4

    Beispielaufgabe mit offenem Antwortformat zur Erfassung des deklarativen und anteilig prozeduralen Wissens zur beruflichen Anforderung Umgang mit Heterogenität (Antwortkasten in verkleinerter Darstellung) sowie Originalantworten mit Punktvergabe

  • 7 Aufgaben (12 Punkte) zur Klassenführung (vgl. Abb. 5) und

    Abb. 5
    figure 5

    Beispielaufgabe mit offenem Antwortformat zur Erfassung des deklarativen und anteilig prozeduralen Wissens zur beruflichen Anforderung Klassenführung (Antwortkasten in verkleinerter Darstellung) sowie Originalantworten mit Punktevergabe

  • 10 Aufgaben (22 Punkte) zur Leistungsbeurteilung (vgl. Abb. 6).

    Abb. 6
    figure 6

    Beispielaufgabe mit geschlossenem Antwortformat zur Erfassung des deklarativen Wissens zur beruflichen Anforderung Leistungsbeurteilung mit korrekter Lösung (1 Punkt)

34 Aufgaben weisen ein offenes (vgl. die Aufgabenbeispiele in den Abb. 2, 4 und 5), 16 Aufgaben ein geschlossenes Antwortformat auf (vgl. Abb. 3 und 6). 28 Testfragen erfragen eher deklaratives Wissen (vgl. Abb. 3 und 6). 22 Testfragen schildern dagegen eine typische Unterrichtssituation, mit denen spezifische Anforderungen, die an eine Lehrkraft gestellt werden, verbunden sind, und erfragen unterschiedliche Handlungsoptionen (vgl. Abb. 2, 4 und 5). Mit diesem Fragetyp wird nicht nur deklaratives, sondern auch anteilig prozedurales Wissen erfasst, da die Erfragung unterschiedlicher Handlungsoptionen die potenzielle Situationsflexibilität einer angehenden Lehrperson berücksichtigt. Im Folgenden findet jedoch keine analytische Trennung von deklarativen und prozeduralen Wissensformen Anwendung, da das vorrangige Erkenntnisinteresse dieses Beitrags auf der inhaltlichen Wissensstruktur liegt.

Die Kodierung offener Antworten erfolgte mithilfe von Kategoriensystemen, die im mehrfachen Wechsel zwischen deduktiver und induktiver Herangehensweise entwickelt worden waren. Dies gewährleistete einerseits theoretisch begründete Kategorien und andererseits die erschöpfende Nutzung der in den Antworten vorzufindenden Informationen. Bei der Entwicklung der Kategoriensysteme wurden die Antworten aus rund 20 Prozent der Fragebögen einbezogen. Anschließend erfolgte eine Begutachtung der Kategoriensysteme durch Experten für Allgemeine Didaktik und empirische Unterrichtsforschung aus Deutschland, Taiwan und den USA. Die Kodierungen der Antworten der restlichen Fragebögen erfolgten letztlich jeweils durch zwei geschulte Rater,Footnote 8 die unabhängig voneinander die offenen Antworten kodierten. Als Übereinstimungsmaß wurde Cohen’s Kappa berechnet (Wirtz & Caspar 2002). Werte größer .75 gelten als sehr gute Übereinstimmung. Die für unser Anliegen berechneten Kappa-Werte variieren zwischen .69 und .98 mit einem Mittelwert von M = .85 (SD = .08). Unterhalb der Grenze von .75 liegen lediglich drei Testfragen, sodass die für die Kodierung entwickelten Kategoriensysteme als bewährt gelten können. Bei fehlender Übereinstimmung wurden in gemeinsamer Diskussion – auch unter Hinzuziehung von Experten – Einigungen erzielt. Schwierig zu kodierende Antworten wurden als „Grenzfälle“ dokumentiert, um im Anschluss ein konsistentes Vorgehen mit ähnlichen Antworten zu gewährleisten.

4.3 Datenanalyse

Jedem Befragten lagen rund zwei Drittel der Testaufgaben vor. Ein vollständig ausbalanciertes Testdesign, in dem die Testaufgaben ausgewogen nach den fünf beruflichen Anforderungen, eingeschätzter Item-Schwierigkeit, Antwortformat (offen/geschlossen) und erwarteter Bearbeitungszeit auf sechs Testhefte verteilt wurden, ermöglichte große Überschneidungen der eingesetzten Testaufgaben und eine hinreichende Verknüpfung der Daten.

Bei einem solchen Design hat man es im Zuge der Datenanalyse aufgrund des Rotationsdesigns und der Nichtbeantwortung von einzelnen Fragen mit verschiedenen Formen an fehlenden Werten zu tun. Im Zuge einer Skalierung nach den Methoden der Item-Response-Theorie sind beide Formen unproblematisch, da auf Itemebene angemessene Wege des Einbezugs von Fällen mit fehlenden Werten gefunden werden können. Die Skalierung der Daten erfolgt im vorliegenden Fall auf der Grundlage des dichotomen Raschmodells (Rost 1996). Testhefte, die über gemeinsame Items verbunden sind und ansonsten aus unterschiedlichen Items bestehen, können so auf eine gemeinsame Skala gebracht werden.

Die für die Skalierung genutzte Software Conquest (Wu, Adams & Wilson 1997; Wu 1997) weist jedem Item aufgrund seiner Lösungsquote einen Schwierigkeitsparameter und jeder befragten Person entsprechend der gezeigten Leistung einen Fähigkeitsparameter zu. Mit dem mehrdimensionalen Random Coefficient Multinomial Logit-Modell, das ebenfalls in Conquest implementiert ist, können mehrere Fähigkeiten gleichzeitig berücksichtigt werden, deren Zusammenhänge messfehlerbereinigt ausgegeben werden (Rost 1996; Wu & Adams 2006).

In die empirische Überprüfung der Struktur des pädagogischen Wissens wurden 136 dichotome Items einbezogen. Ausgeschlossen wurden jene Items, die bei einer der angestrebten Skalierungen keinen zufrieden stellenden Fit aufwiesen (Weighted Mean Square < 0.80 bzw. > 1.20; vgl. Adams 2002 ). Einzelne Items, die Werte zwischen 0.75 und 0.79 bzw. zwischen 1.21 und 1.25 annahmen, verblieben im Test, wenn ein Ausschluss aus theoretischen Gründen nicht angemessen erschien, um zu gewährleisten, dass ein möglichst breites inhaltliches Spektrum an Testfragen für jede der fünf beruflichen Anforderungen in den Analysen Berücksichtigung finden konnte (vgl. z.B. die Passung von Item 91 in Tab. 1). Die Streuung der Itemschwierigkeiten in Relation zu den Personenfähigkeiten kann als gut bezeichnet werden (vgl. Abb. 7). Trotz der Häufung von Items in der Mitte des Spektrums folgt die Verteilung der Itemschwierigkeiten gut der Streuung der Personenfähigkeiten. Insofern ist mit unserem Test über den ganzen Bereich hinweg eine präzise Schätzung des fachübergreifenden Wissens von angehenden Lehrkräften gegeben.Footnote 9

Abb. 7
figure 7

Streuung der Itemschwierigkeiten in Relation zu den Personenfähigkeiten (Zahlen 1 bis 136: Items, ein X entspricht 1.1 Personen). Die Markierungen verdeutlichen die Items der fünf in den Abb. 2 bis 6 aufgeführten Beispielaufgaben (vgl. zur Zuordnung Tab. 1).

Tab. 1 Itemschwierigkeitsparameter der eindimensionalen Skalierung für die fünf in den Abb. 2 bis 6 aufgeführten Beispielaufgaben sowie Angaben zum Weighted Item Fit (Mean Square, Konfidenzintervall, T-Wert)

5 Ergebnisse

Entsprechend der grafischen Veranschaulichung in Abb. 1 wurde für das pädagogische Wissen angehender Lehrkräfte die Passung eines Modells, das eine homogene Wissensstruktur, und die Passung eines Modells, das zwischen Wissen in den fünf Anforderungsbereichen unterscheidet, geschätzt. Der Vergleich der Anpassung beider Modelle an den Datensatz wurde über einen Index aus Likelihood und Parameteranzahl vorgenommen (vgl. Tab. 2). Die Differenz der beiden Indizes zeigt, dass das fünfdimensionale Modell die Antworten der Studierenden im Vergleich zum eindimensionalen Modell deutlich besser widerspiegelt (vgl. zum methodischen Vorgehen z.B. Rost 1996). Der Unterschied wird auch statistisch signifikant. Dieses Ergebnis deutet darauf hin, dass es wichtig ist, von einer anforderungsbezogenen Struktur des pädagogischen Wissens auszugehen und nicht Homogenität anzunehmen.

Tab. 2 Statistik zu den ein- und fünfdimensionalen Modellen

Für die Überprüfung der internen Konsistenz der fünf Testdimensionen ziehen wir die Expected A Posteriori Estimation (EAP) heran, die eine unverzerrte Beschreibung der Population liefert und die mehrdimensionale Modellstruktur berücksichtigt (vgl. Wu 1997). Das eindimensionale Modell zeigt mit einem Wert von .91 eine sehr hohe Reliabilität. Die Dimensionen des differenzierten Modells besitzen aufgrund der geringeren Itemanzahl in jedem Anforderungsbereich unterschiedlich hohe Reliabilitäten (vgl. Tab. 3). Sie liegen jedoch für vier der fünf Dimensionen in einem guten und selbst für die Anforderung der Klassenführung, für die das pädagogische Wissen mit nur 12 Items erfasst werden konnte, in einem akzeptablen Bereich.

Tab. 3 Reliabilitäten des fünfdimensionalen Modells

Neben Kennwerten zur Reliabilität geben die Zusammenhänge der fünf Anforderungsbereiche einen wichtigen Einblick in die Struktur des fachübergreifenden Wissens. Tab. 4 zeigt die Ergebnisse. Insgesamt fallen die latenten Korrelationen niedrig aus, d.h. höheres Wissen in Bezug auf eine Anforderung geht nicht unbedingt systematisch mit höherem Wissen in Bezug auf eine andere Anforderung einher. Über die bessere Modellanpassung hinaus spricht auch dies für eine Ausdifferenzierung des pädagogischen Wissens.

Tab. 4 Messfehlerbereinigte Zusammenhänge zwischen den fünf Wissensbereichen

Die höchsten Zusammenhänge (≥ .65) bestehen wie erwartet zwischen dem Wissen zu den beiden didaktischen Anforderungen Strukturierung von Unterricht und Umgang mit Heterogenität einerseits sowie zwischen dem Wissen zu den beiden pädagogisch-psychologisch ausgerichteten Anforderungen Motivierung und Leistungsbeurteilung andererseits. Zwischen didaktischen und pädagogisch-psychologischen Wissensbereichen fallen die Zusammenhänge wie erwartet deutlich niedriger aus (.48 bzw. .49). Die niedrigsten latenten Korrelationen (≤ .42) gehen mit der Dimension Klassenführung einher, die entgegen unserer Annahme – von der Dimension Motivierung abgesehen – nur lose mit den anderen Dimensionen verknüpft ist.

Zusammenfassend lässt sich festhalten, dass sowohl die Modellanpassung als auch die Reliabilitäten und die Zusammenhänge der Wissensbereiche deutlich auf die angenommene fünfdimensionale Struktur des pädagogischen Wissens angehender Lehrkräfte hinweisen. Das Zusammenhangsmuster spiegelt die angenommene Gruppierung in didaktische und pädagogisch-psychologische Subdimensionen des Wissens, wobei Klassenführung mit beiden nur lose assoziiert ist. Die Interkorrelationen können somit als Beleg für die Konstruktvalidität angesehen werden.

Für eine genauere Untersuchung der Struktur des pädagogischen Wissens ist eine wichtige Frage, inwieweit dieses Ergebnis nicht nur für die gesamte Stichprobe angehender Lehrer in Deutschland und Österreich gilt, sondern auch für Subgruppen, denen aus Sicht der deutschen Lehrerausbildung ein bedeutsamer Stellenwert zugeschrieben werden kann. In unserem Fall stellt sich diese Frage für die Subgruppe der deutschen Lehramtsstudierenden (n = 310) sowie für die Subgruppe der fortgeschrittenen Lehramtsstudierenden (n = 264). Auch wenn die Stichprobengröße durch die Aufteilung jeweils deutlich reduziert wird, was mit Reliabilitätseinbußen einhergeht, die wiederum geringere Interkorrelationen nach sich ziehen, soll abschließend der Frage nachgegangen werden, inwieweit das pädagogische Wissen in diesen beiden Gruppen dieselbe Struktur aufweist.

Die Itemstatistiken zeigen für die Testitems auch in diesen beiden Subgruppen eine sehr gute Modellanpassung. Maximal zwei Items überschreiten die Grenze eines Weighted Mean Square-Wertes von 1.25 in einer der Modellierungen. Tabelle 5 kann darüber hinaus entnommen werden, dass erneut das differenziertere Modell die Antworten der Studierenden signifikant besser widerspiegelt als das eindimensionale Modell. Dies gilt sowohl in der Subgruppe der deutschen als auch in jener der fortgeschrittenen Lehramtsstudierenden.

Tab. 5 Statistik zu den ein- und fünfdimensionalen Modellen in den Gruppen der deutschen und der fortgeschrittenen Lehramtsstudierenden

Trotz Verringerung der Stichprobengröße liegen die EAP-Reliabilitäten für das eindimensionale Modell bei hohen .88 für die deutschen und bei hohen .89 für die fortgeschrittenen Lehramtsstudierenden. In der fünfdimensionalen Modellierung wird mit unserem Test auch das Wissen in den beiden didaktischen Anforderungsbereichen für beide Subgruppen sehr präzise erfasst, da die jeweiligen Reliabilitäten über .8 liegen (vgl. Tab. 6). Die Reliabilitäten für die drei Dimensionen Klassenführung, Motivierung und Leistungsbeurteilung liegen für die Fortgeschrittenengruppe noch in einem akzeptablen Bereich (> .6), die Reliabilität für die Dimension Klassenführung entspricht sogar der für die gesamte Stichprobe. Dagegen liegen diese Reliabilitäten für die deutsche Subgruppe, die sich aus Anfängern und Fortgeschrittenen zusammensetzt, deutlich niedriger (< .6). Für diese Subgruppe kann somit eine weniger homogene Struktur des pädagogischen Wissens zur Motivierung und zur Leistungsbeurteilung angenommen werden.

Tab. 6 Interne Konsistenzen des fünfdimensionalen Modells (deutsche Lehramtsstudierende/ fortgeschrittene Lehramtsstudierende)

Die Zusammenhänge fallen aufgrund der Reliabilitätseinbußen zum Teil etwas niedriger aus. Sie weisen aber ein strukturell vergleichbares Muster wie in der Gesamtstichprobe auf, das im Hinblick auf die Einordnung des Wissens zur Klassenführung sogar noch erwartungsgemäßer ausfällt (vgl. Tab. 7). Die beiden didaktischen Dimensionen und die drei pädagogisch-psychologischen Dimensionen hängen sowohl bei deutschen Lehramtsstudierenden als auch bei Fortgeschrittenen untereinander jeweils deutlich stärker zusammen (≥ .49, in der deutschen Gruppe mit einer Ausnahme sogar ≥ .55) als über die Dimensionen hinweg (≤ .42, in der deutschen Gruppe sogar ≤ .30). Insgesamt ist festzustellen, dass die Zusammenhänge in der Fortgeschrittenengruppe deutlich homogener ausfallen als in der deutschen Stichprobe, die sich aus Anfängern und Fortgeschrittenen zusammensetzt. Dies kann als weiterer Indikator für die Angemessenheit unserer Teststruktur gewertet werden, die im Hinblick auf Ergebnisse der Lehrerausbildung konzipiert wurde.

Tab. 7 Messfehlerbereinigte Zusammenhänge der fünf Wissensbereiche (deutsche Lehramtsstudierende/fortgeschrittene Lehramtsstudierende)

6 Zusammenfassung und Diskussion

Die Forschungslage zum fachübergreifenden, pädagogischen Wissen von angehenden und praktizierenden Lehrkräften ist äußerst schmal. Lässt man die Studien mit Skalen zur Selbsteinschätzung außer Acht, liegt praktisch kein geeigneter theoretischer Ansatz zur Erfassung des pädagogischen Wissens vor. Eine empirische Erfassung wurde bislang ebenfalls kaum angegangen. Der vorliegende Beitrag begegnet diesem Forschungsdefizit, indem ein Testkonzept vorgestellt und die Struktur des damit erfassten pädagogischen Wissens an einer Stichprobe von 802 Lehramtsstudierenden untersucht wurde.

Lehrkräfte werden von uns unter Bezug auf die Standards für die Lehrerausbildung der KMK (2004, S. 3) als „Fachleute für das Lehren und Lernen“ verstanden, deren „Kernaufgabe … die gezielte und nach wissenschaftlichen Erkenntnissen gestaltete Planung, Organisation und Reflexion von Lehr- und Lernprozessen sowie ihre individuelle Bewertung und systemische Evaluation“ ist. Unter Bezug auf die empirische Forschung zu Basisdimensionen der Unterrichtsqualität und auf Modelle der Allgemeinen Didaktik wurden fünf zentrale berufliche Anforderungen an Lehrkräfte theoretisch begründet, die den Ausgangspunkt für die Testentwicklung bildeten.

Leitende Annahme unserer Studie war, dass das pädagogische Wissen von Lehrkräften in sich keine vollständig homogene Struktur aufweist, sondern dass es anhand dieser fünf Anforderungen der beruflichen Praxis strukturiert werden kann. Die Testfragen bezogen sich nicht allein auf deklaratives Wissen, sondern erfragten auch anteilig prozedurales Wissen, wobei offene und geschlossene Antwortformate zum Einsatz kamen.

Die angenommene Mehrdimensionalität des pädagogischen Wissens wurde mittels des Rasch-Modells überprüft, indem ein eindimensionales Modell, das die Homogenitätsannahme repräsentiert, einem fünfdimensionalen Modell, das die differenzierte Wissensstruktur widerspiegelt, gegenüber gestellt wurde. Die Ergebnisse machen deutlich, dass letztere Annahme angemessener ist, und zwar sowohl in Bezug auf die gesamte Stichprobe als auch in Bezug auf die beiden Subgruppen der deutschen Lehramtsstudierenden und der fortgeschrittenen Studierenden.

Unter wissenschaftstheoretischen Gesichtspunkten stützen unsere Daten damit die These von Benner (1987), dass sich das pädagogische Wissen funktional von der Logik der Praxis aus bestimmt. Sie rechtfertigt auch die Orientierung an der Kompetenztheorie, für die ein Ausgehen von beruflichen Anforderungen konstitutiv ist (Bromme 1992, 1997; Bromme & Haag 2004; Weinert 2001). Für zukünftige Studien zur Lehrerausbildung bedeutet unser Ergebnis, dass die Erfassung von Ergebnissen des pädagogischen Anteils der Ausbildung sehr differenziert erfolgen muss, möchte man nicht entscheidende Wirkungen übersehen. In Ergänzung zu einer eindimensionalen Erfassung, die durch eine mehrdimensionale Testanlage nicht ausgeschlossen wird, weist eine Unterscheidung von verschiedenen Wissensbereichen den Vorteil auf, dass spezifische Rückschlüsse auf Stärken und Schwächen der Lehrerausbildung möglich werden. Erst auf diese Weise können beispielsweise Einflüsse von didaktischen Lehrveranstaltungen gegenüber Einflüssen von pädagogisch-psychologischen Lehrveranstaltungen abgegrenzt werden.

Die Reliabilitäten erweisen sich für die gesamte Stichprobe und für die Stichprobe der fortgeschrittenen Lehramtsstudierenden als akzeptabel bis gut. Die in allen (Teil-)Stichproben besonders hohe interne Konsistenz des Wissens der Studierenden zur Strukturierung von Unterricht und zum Umgang mit Heterogenität dürfte widerspiegeln, dass diese Themen in der Lehrerausbildung in Form fachdidaktischer und allgemeindidaktischer Lehrveranstaltungen in höherem Maße abgedeckt werden als Themen der Pädagogischen Psychologie wie Motivierung und Leistungsbeurteilung, und zwar von Beginn des Studiums an. Für das Wissen zu den drei pädagogisch-psychologisch geprägten beruflichen Anforderungen an Lehrkräfte zeigt sich vor allem in der deutschen Stichprobe eine etwas geringere interne Konsistenz. Dies ist vermutlich auf die Zusammensetzung dieser Stichprobe aus Anfängern und Fortgeschrittenen zurückzuführen. Am Ende der universitären Ausbildung fallen die Reliabilitäten höher aus, was auf einen homogeneren Wissensbestand hindeutet. Traditionell sieht das Lehramtsstudium entsprechende Lehrveranstaltung eher für das Haupt- als für das Grundstudium vor, wobei der Zeitpunkt der Belegung oft frei gewählt werden kann.

Dass die Dimension Klassenführung insgesamt eine geringere Reliabilität aufweist, kann einerseits darauf zurückgeführt werden, dass die Skala deutlich kürzer ist. Dieses Defizit konnten wir für TEDS-M bereits beheben, sodass diese Interpretation mit Vorliegen der Ergebnisse Anfang 2010 überprüft werden kann. Es ist aber auch denkbar, dass das Antwortverhalten mindestens zum Teil durch eine schwächere Berücksichtigung des Themengebietes in der Lehrerausbildung bedingt ist (vgl. z.B. Helmke 2003). Klassenführung ist – erneut vor allem in Deutschland – traditionell kein Bestandteil der Didaktik-Ausbildung und steht auch in Veranstaltungen der Pädagogischen Psychologie gegenüber den beiden Bereichen Motivierung und Leistungsbeurteilung zurück.

Die Zusammenhänge der fünf Wissensbereiche sind insgesamt nicht sehr hoch. Auch dies spricht eher für das ausdifferenzierte Modell anstelle einer Homogenitätsannahme. Das Wissen zu den beiden didaktischen Anforderungen Strukturierung von Unterricht und Umgang mit Heterogenität auf der einen Seite sowie das Wissen zu den beiden pädagogisch-psychologisch geprägten Anforderungen Motivierung und Leistungsbeurteilung (sowie partiell auch Klassenführung) hängen untereinander erwartungsgemäß jeweils am stärksten zusammen. Dieses Muster spiegelt die klassischerweise an den beiden sehr unterschiedlichen Disziplinen Erziehungswissenschaft bzw. Psychologie orientierte Vermittlung des fach-übergreifenden, pädagogischen Wissens in der Lehrerausbildung. Generell zeigen sich zum Ende der Lehrerausbildung stärkere Zusammenhänge, die als eine umfassendere Vernetztheit der Wissensbereiche als Folge der Lehrerausbildung interpretiert werden können.

Analysen zur Struktur des mit einem Test erfassten Wissens stellen – wenn sich die theoretischen Annahmen wie im vorliegenden Fall empirisch bestätigen lassen – eine wichtige Form der Konstruktvalidierung dar (vgl. Borsboom, Mellenbergh & van Heerden 2004). Gleichzeitig kommt die vorliegende Untersuchung der Forderung nach, Unterrichtsqualität theoriegeleitet und multivariat zu verstehen (vgl. Einsiedler 1997). Bevor auf weitere Forschungsaufgaben eingegangen wird, sind allerdings zwei Aspekte kritisch zu diskutieren: die Eingrenzung des pädagogischen Wissens auf unterrichts- und beurteilungsbezogene Anforderungen an Lehrer sowie die Eingrenzung der kompetenzorientierten Messung auf Wissen.

Zu Ersterem ist festzuhalten, dass Lehrkräfte einem breiteren Anforderungsspektrum zu genügen haben, als in der vorliegenden Studie untersucht wird. Wenngleich die KMK (2004) in den Standards zur Lehrerausbildung die hier untersuchten Dimensionen als den beruflichen Kern definiert hat, gehören Erziehen sowie Mitwirken an der Schulentwicklung zu wichtigen Aufgaben, deren Bedeutung nicht negiert werden soll. Zu beiden Aufgabengebieten ist es allerdings derzeit schwierig, einen Test zu entwickeln, da kaum empirische Erkenntnisse vorliegen und Erziehen zudem normativ besetzt ist. Zur Eingrenzung des Tests auf Wissen ist anzumerken, dass für die Erfassung von fachübergreifenden Überzeugungen als zweitem Bestandteil von Kompetenz (Weinert 2001) bereits Konzepte vorliegen, die sich auch empirisch bewährt haben (vgl. insbesondere Müller, Felbrich & Blömeke 2008). Sie wurden in MT21 und sie werden auch in TEDS-M erhoben, sodass ihre gemeinsame Berücksichtigung in Datenanalysen möglich ist. Mit dem vorliegenden Beitrag wurde hingegen das Ziel verfolgt, das verbleibende Forschungsdefizit im Bereich des pädagogischen Wissens angehender Lehrer zu verringern.

In zukünftigen Arbeiten wird es darum gehen, vertiefende Strukturanalysen durchzuführen, etwa die Bildung von Kompetenzniveaus, und das Testinstrument weiter zu validieren. In Bezug auf Letzteres ist festzuhalten, dass die Qualität eines Instruments zur Erfassung des Wissens angehender Lehrkräfte auch daran gemessen werden muss, ob es in der Lage ist, ausbildungsabhängiges Wissen angehender Lehrer zu erheben. Studien zum Zusammenhang zwischen Merkmalen der Lehrerausbildung und dem erworbenen Wissen angehender Lehrer könnten hier wichtige Einblicke liefern. Erste Validierungsanalysen, in denen das Ausbildungsstadium angehender Lehrkräfte als Außenkriterium einbezogen und ihre Abiturnote kontrolliert wurde, belegen die Ausbildungsabhängigkeit des hier getesteten Wissens (König, Peek & Blömeke 2008; König & Blömeke 2009). Ferner ist dies Gegenstand der internationalen Vergleichsstudie TEDS-M unter Verwendung einer für ganz Deutschland repräsentativen Stichprobe angehender Lehrkräfte im letzten Jahr ihrer Ausbildung, deren Ergebnisse Anfang 2010 vorgestellt werden. Zudem wird TEDS-M einen internationalen Vergleich des fachübergreifenden pädagogischen Wissens mit den USA und Taiwan ermöglichen, die ebenfalls nach dem hier vorgestellten Testkonzept vorgehen. Damit dürfen wichtige Einblicke in das pädagogische Wissen angehender Lehrer – u.a. weiterführende Erkenntnisse zu seiner Struktur – über einen mitteleuropäischen Referenzrahmen hinaus sowie generell internationale Anschlussfähigkeit in der Erfassung von Kompetenzen angehender Lehrer erwartet werden.