Wie Schülerinnen und Schüler ihre Lernumwelt wahrnehmen
Ein Vergleich verschiedener Maße zur Übereinstimmung von Schülerwahrnehmungen
Abstract
Eine hinreichende Übereinstimmung von Schülerwahrnehmungen ihrer Lernumwelt ist in vielen Studien mit Mehrebenenstruktur Voraussetzung für die Aggregation von Individualdaten, wenn die gemessenen Konstrukte auf Aggregatebene die geteilte Wahrnehmung der Klasse darstellen sollen. Wie weit Schülerwahrnehmungen ihrer Lernumwelt innerhalb einer Klasse übereinstimmen, lässt sich anhand verschiedener Indizes quantifizieren. Die vorliegende Studie geht der Frage nach, wie weit vier gängige Indizes der Beurteilerübereinstimmung zu vergleichbaren Ergebnissen kommen. Zur Bestimmung der Übereinstimmungsindizes wurde auf Daten des Selbstevaluationsportals des Instituts für Schulqualität der Länder Berlin und Brandenburg zurückgegriffen. Aus 424 Klassen liegen von N = 7.965 Schüler/innen Daten zur Wahrnehmung des Unterrichts vor. Die verschiedenen Übereinstimmungsmaße korrelieren sehr hoch miteinander, die Anwendung verschiedener Schwellenwerte für eine akzeptable Übereinstimmung offenbart jedoch gravierende Unterschiede zwischen den Indizes. Des Weiteren scheint die Höhe der gefundenen Übereinstimmung stark vom erfragten Konstrukt abzuhängen.
Learning environments in class rooms are often described using data obtained in students’ questionnaires which are subsequently averaged across the class. However, a substantial interrater agreement between individuals is a fundamental precondition for aggregating individual data within certain composition models. The degree to which degree students’ perceptions of their learning environment are consistent within a class can be quantified using different indices. This study compares the results of four different indices of interrater agreement. The indices were calculated on the basis of data on students’ perceptions of their learning environment from the ISQ-Selbstevaluationsportal [ISQ – self evaluation portal] (N = 7965 students from 424 classes). Although the results highly correlate, using different cutscores reveals significant differences in the amount of acceptable interrater agreement. The results show that deciding on whether or not raters within a class substantially agree strongly depends on the choice of the specific index. Moreover, the level of agreement seems to depend heavily on the measured construct.
Literatur
2005). Interrater agreement reconsidered: An alternative to the r wg indices. Organizational Research Methods, 8, 165–184.
(2002). Estimating interrater agreement with the average deviation index: A user’s guide. Organizational Research Methods, 5, 159–172.
(1999). On average deviation indices for estimating interrater agreement. Organizational Research Methods, 2, 49–68.
(1989). The Carroll Model. A 25-year retrospective and prospective view. Educational Researcher, 18, 26–31.
(2003). Data analytic methods for the analysis of multilevel questions: A comparison of intraclass coefficients, r wg(j), hierarchical linear modeling, within- and between-analysis, and random group resampling. Leadership Quarterly, 13, 69–93.
(1998). Functional relations among constructs in the same content domain at different levels of analysis: A typology of composition models. Journal of Applied Psychology, 83, 234–246.
(2002). Unterrichtsqualität: Eine Frage der Perspektive? Empirische Analysen zur Übereinstimmungs-, Konstrukt- und Kriteriumsvalidität. Münster: Waxmann.
(2001). Statistical properties of the r wg(J) index of agreement. Psychological Methods, 6, 297–310.
(2009). Testing Agreement for multi-item scales with the indices r wg(j) and ADM(J) . Organizational Research Methods, 12(1), 148–164.
(1988). Statistical power analysis for the behavioral sciences. New York: Erlbaum.
(2000). Qualitätskontrolle und Qualitätssicherung in Schule und Unterricht. Zeitschrift für Pädagogik, (41. Beiheft), 73–92.
(2008). Externe Evaluation von Schulen. Historische, rechtliche und vergleichende Aspekte. Münster: Waxmann.
(2003). Accurate tests of statistical significance for r wg and average deviation interrater agreement indexes. Journal of Applied Psychology, 88, 356–362.
(1997). Unterrichtsqualität und Leistungsentwicklung: Literaturüberblick. In , Entwicklung im Grundschulalter (S. 225–240). Weinheim: Beltz.
(1970). A note on estimating the reliability of categorical data. Educational and Psychological Measurement, 30, 71–76.
(2009). Where is culture in cross cultural research? An outline of a multilevel research process for measuring culture as a shared meaning system. International Journal of Cross Cultural Management, 9(1), 25–49.
(in Druck ). Das ISQ-Selbstevaluationsportal. Konzeption eines Online-Angebots, um die Selbstevaluation in Schule und Unterricht zu unterstützen. Die Deutsche Schule.2000). Unterricht und schulisches Lernen: Schüler als Quellen der Unterrichtsbeschreibung. Münster: Waxmann.
(2009). Big change question: Does politics help or hinder education change? Journal of Educational Change, 10, 63–67.
(2009). Unterrichtsqualität und Lehrerprofessionalität. Diagnose, Evaluation und Verbesserung des Unterrichts. Seelze: Kallmeyer.
(2008). Beratung bei der Einführung von Selbstevaluation an Schulen. Münster: Waxmann.
(1984). Estimating within-group interrater reliability with and without response bias. Journal of Applied Psychology, 69, 85–98.
(1993). rrwg: An assessment of within-group interrater agreement. Journal of Applied Psychology, 78, 306–309.
(2005). Multiple Ziele im Mathematikunterricht. Münster: Waxmann.
(2006). The sources of four commonly reported cutoff criteria: What did they really say? Organizational Research Methods, 9, 202–220.
(2008). Answers to 20 questions about interrater reliability and interrater agreement. Organizational Research Methods, 11, 815–852.
(1999). A revised index of interrater agreement for multi-item ratings of a single target. Applied Psychological Measurement, 23, 127–135.
(2008). Unterrichts- und Lehr-Lern-Forschung. In , Handbuch der Schulforschung (S. 717–746). Wiesbaden: VS Verlag für Sozialwissenschaften.
(2009). Assessing within-group agreement: A critical examination of a random-group resampling approach. Organizational Research Methods, 12, 461–487.
(2006). Analyse von Lernumwelten. Ansätze zur Bestimmung der Reliabilität und Übereinstimmung von Schülerwahrnehmungen. Zeitschrift für Pädagogische Psychologie, 20, 85–96.
(2007). Schulinspektion – ein neues Element der Systemsteuerung. Journal für Schulentwicklung, 3, 6–14.
(2009). How do missing data bias estimates of within-group agreement? Organizational Research Methods, 12(1), 113–147.
(2009). Testing for between-group differences in within-group interrater agreement. Organizational Research Methods, 12, 590–613.
(2007). Does the measure of dispersion matter in multilevel research? A comparison of the relative performance of dispersion indexes. Organizational Research Methods, 10, 564–588.
(1994). Quality, appropriateness, incentive, and time: A model of instructional effectiveness. International Journal of Educational Research, 21, 141–157.
(2008). Methodenprobleme bei der Analyse der Unterrichtswahrnehmung aus Schülersicht – am Beispiel der Studie DESI der Kultusministerkonferenz. Landau: Universität Koblenz-Landau.
(