nach oben

Erschienen in:

Open Access 2023 | OriginalPaper | Buchkapitel

Grundlagenbeitrag: Quantitative Testverfahren

verfasst von : Joachim Wirth, Jens Fleischer

Erschienen in: Evaluationsmethoden der Wissenschaftskommunikation

Verlag: Springer Fachmedien Wiesbaden

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config

KI-gestützte Suche

Patentsuche

Aus

Zusammenfassung

Quantitative Testverfahren kommen zum Einsatz, wenn Leistungen von Personen gemessen werden sollen. Im Rahmen der Evaluation von Wissenschaftskommunikation ist dies bspw. der Fall, wenn durch Wissenschaftskommunikation Wissen oder Fähigkeiten von Teilnehmenden verbessert werden sollen und Evaluation empirisch prüfen möchte, ob dieses Ziel erreicht wurde. Bei der Auswahl, Entwicklung und Bewertung von Testverfahren sind Gütekriterien einzuhalten, damit das empirische Ergebnis inhaltlich sinnvoll interpretierbare Aussagen zulässt. Die Bewertung der empirischen Ergebnisse erfolgt zudem vor dem Hintergrund einer Bezugsnorm, die bewusst gewählt werden muss. In dem Beitrag gehen wir auf die verschiedenen Testgütekriterien und Bezugsnormen ein und plädieren für interdisziplinäre Kooperationen bei der Auswahl und Entwicklung von quantitativen Testverfahren für die Evaluation von Wissenschaftskommunikation.

Eines der maßgeblichen Ziele von Wissenschaftskommunikation ist neben der Förderung von Interesse am wissenschaftlichen Thema, einer positiven Einstellung gegenüber dem Wert wissenschaftlicher Erkenntnisse oder auch des Vertrauens in die Wissenschaft – um nur einige Beispiele zu nennen – der Aufbau eines Wissenschaftsverständnisses (Bromme und Kienhues 2014). Expert:innen in einem bestimmten wissenschaftlichen Gebiet teilen ihr Wissen mit Personen, die in diesem Gebiet Lai:innen sind, sodass diese bspw. wissenschaftlich fundierte Entscheidungen in ihrem Alltag treffen können. Will man evaluieren, ob eine konkrete Maßnahme der Wissenschaftskommunikation bei den Adressat:innen tatsächlich zum gewünschten Wissenschaftsverständnis geführt hat, sollten Testverfahren im engeren Sinne (Rost 2004), kurz: Tests, zum Einsatz kommen. Tests in diesem engeren Sinne erfassen Leistungen. Sie grenzen sich damit von anderen Messverfahren, wie bspw. quantitativen Befragungen, ab, die keine Leistungen, sondern eher Selbsteinschätzungen verlangen. Wollte man bspw. evaluieren, ob die Besucher:innen eines Vortrags im Rahmen einer „Nacht der Wissenschaften“ den Vortrag verstanden haben, könnte man am Ende des Vortrags die Besucher:innen bitten, einen Verständnistest zu bearbeiten, der eine Reihe von Frageitems mit vier Antwortoptionen enthält, wovon immer genau eine Antwortoption richtig ist. Die Summe der korrekt angekreuzten Antwortoptionen wäre dann ein quantitatives Maß zur Bestimmung des erworbenen Verständnisses. Ein solcher Test grenzte sich von einer Befragung ab, in der die Besucher:innen bspw. auf einer Rating-Skala von 1 ( = „Ich habe nichts verstanden“) bis 10 ( = „Ich habe alles verstanden“) ihr Verständnis selbst einschätzen sollen.

Im Folgenden beschäftigen wir uns mit Tests im Rahmen der Evaluation von Wissenschaftskommunikation. Einige der folgenden Ausführungen, bspw. zur Messung sogenannter latenter Merkmale oder zu den Testgütekriterien, sind auch für andere quantitative Messverfahren gültig. Wir werden sie jedoch immer mit Bezug auf Tests vorstellen.

1 Merkmale, Messen und Messverfahren

Tests haben wie alle quantitativen Messverfahren zum Ziel, die Ausprägung eines Personenmerkmals durch eine Zahl anzugeben. Dafür konstruieren sie eine Testskala, auf der diese Zahl abgelesen werden kann. Diese Testskala wird durch eine Reihe von Items gebildet. Personen bekommen für jedes Item eine vorab definierte Punktzahl gutgeschrieben in Abhängigkeit davon, wie erfolgreich sie das jeweilige Item bearbeitet haben. Besteht ein Wissenstest bspw. aus zehn Items, die korrekt oder nicht korrekt beantwortet werden können, und gibt jede korrekte Antwort genau einen Punkt, resultiert eine Skala von null bis zehn Punkten, wobei die Zahl Null die geringste und die Zahl Zehn die höchste messbare Ausprägung des Personenmerkmals Wissen anzeigt.

Skalen dieser Art können sich für die Messung unterschiedlichster Personenmerkmale eignen. Diese Personenmerkmale können dabei verschiedene Eigenschaften haben, die für ihre Messung methodisch relevant sind. Im Folgenden gehen wir auf drei dieser Eigenschaften etwas genauer ein.

1.1 Fähigkeiten

Personenmerkmale können dahingehend unterschieden werden, ob es sich bei ihnen um ein Leistungsmerkmal, also eine Fähigkeit, handelt oder nicht. Fähigkeiten können dabei verstanden werden als die sowohl kognitiven als auch motivationalen Voraussetzungen, die eine Person mitbringt, um in einem bestimmten Bereich Probleme lösen zu können (Weinert 2001). Für die Messung von Leistungsmerkmalen ergeben sich daraus u. a. zwei Konsequenzen. Erstens sind Leistungsmerkmale bereichsspezifisch. Expert:innen haben ihre Expertise in bestimmten Bereichen. Ein guter Schachspieler ist nicht automatisch gut in Monopoly, auch wenn es sich in beiden Fällen um Brettspiele handelt. Für die Messung von Leistungsmerkmalen bedeutet dies, dass die eingesetzten Messverfahren den betreffenden Bereich abdecken müssen und dieser dafür vorab genau definiert sein muss. Das mag trivial klingen, ist es aber meist nicht. Es erfordert eine systematische Analyse der Inhalte, die den Bereich definieren (z. B. Klauer 1987) sowie der Definition, auf welchem Niveau diese Inhalte verarbeitet bzw. die Leistungen gezeigt werden sollen (z. B. Anderson und Krathwohl 2001). So ist es bspw. eine andere (kognitive) Leistung, die Antwort auf eine Testfrage aus vier möglichen Antworten herauszusuchen und sie sozusagen „wiederzuerkennen“ als eine Antwort vollkommen frei selbst zu formulieren.

Zweitens sind Leistungsmerkmale nur Voraussetzungen. Das bedeutet, dass Personen nicht immer alle Probleme lösen, für deren Lösung sie die Voraussetzungen mitbringen. Manchmal realisieren sie in einer Situation gar nicht, dass sie über die Mittel zur Lösung des Problems verfügen, manchmal ist ihnen der Aufwand im Vergleich zum Nutzen zu hoch. Für die Messung von Leistungsmerkmalen bedeutet dies, dass die Messverfahren das entsprechende Leistungsmerkmal zunächst einmal aktivieren müssen, bspw. indem möglichst genau angegeben wird, welche Leistung bei der Bearbeitung der Items erwartet wird. Zum anderen muss bei der Durchführung des Messverfahrens gewährleistet sein, dass Personen bei der Bearbeitung der Items auch gewillt sind, Leistung zu zeigen. Das ist gerade bei der Evaluation von Maßnahmen der Wissenschaftskommunikation nicht immer einfach. Die Teilnahme an solchen Maßnahmen erfolgt freiwillig und meist in der Freizeit, sodass auch die Teilnahme an einer Leistungsmessung freiwillig ist, für die Freizeit investiert werden muss. Darüber hinaus ist die Messung von Leistungsmerkmalen für Personen immer mit dem Risiko verbunden, eine geringe Leistung attestiert zu bekommen. Personen, die befürchten, geringe Leistungen zu zeigen, könnten in solchen Fällen zum self-handicapping (vgl. Schwinger und Stiensmeier-Pelster 2012) tendieren. Sie strengen sich nicht an und können dann eine geringe Leistung auf mangelnde Anstrengung zurückführen, ohne an der eigenen Fähigkeit zweifeln zu müssen. Für die Messung von Leistungsmerkmalen bedeutet dies, dass sie mit möglichst wenig zeitlichem oder sonstigen Aufwand verbunden sein und möglichst keine evaluative Funktion für die Personen haben sollte. Dafür sollte die Leistungsmessung vollständig anonymisiert durchgeführt werden, und es sollte keine Leistungsrückmeldung erfolgen.

1.2 Stabilität

Die meisten Leistungsmerkmale verändern sich über die Zeit hinweg, unterscheiden sich aber hinsichtlich der Dauer, die es benötigt, bis sie sich messbar verändert haben. So ist die Intelligenz einer Person bspw. ein vergleichsweise stabiles Personenmerkmal. Sicherlich entwickelt sich die Intelligenz über die Lebensspanne hinweg, messbare intraindividuelle Unterschiede im Abstand von wenigen Tagen, Wochen oder Monaten sind ab einem gewissen Lebensalter jedoch nicht mehr zu erwarten. Anders verhält es sich bspw. mit Wissensständen. Allein die Partizipation an einem Citizen-Science-Projekt kann innerhalb weniger Stunden zu einer messbaren Veränderung von Wissen im entsprechenden Bereich führen.

Im Rahmen der Evaluation von Wissenschaftskommunikation sind veränderbare Leistungsmerkmale selbstredend die interessanteren. Wenn ein Ziel von Wissenschaftskommunikation der Aufbau von Wissenschaftsverständnis ist, dann ergibt dieses Ziel nur unter der Voraussetzung Sinn, dass das Wissenschaftsverständnis innerhalb der Zeitspanne, die die Maßnahme andauert, veränderbar ist. Stabile Personenmerkmale können jedoch im Rahmen einer Evaluation durchaus auch interessant sein, bspw. um Randbedingungen zu erfassen, die gegeben sein müssen, damit eine Maßnahme der Wissenschaftskommunikation das Wissenschaftsverständnis beeinflussen kann.

Die Stabilität eines Personenmerkmals ist jedoch nicht nur inhaltlich relevant, sondern hat auch bestimmte methodische Konsequenzen. So ist der Zeitpunkt, zu dem ein Personenmerkmal erfasst wird, bei veränderbaren Merkmalen natürlich relevant, während stabile Merkmale nahezu jederzeit gemessen werden können. Abgesehen vom Zeitpunkt ist auch die Häufigkeit der Messungen zwischen stabilen und veränderbaren Personenmerkmalen unterschiedlich. Kommt man bei stabilen Merkmalen mit einer Messung aus, lässt sich die (oftmals gewünschte) Veränderung eines Personenmerkmals nur durch wiederholte Messung, bspw. in einem Prä-Post-Testdesign, bei dem das interessierende Merkmal vor und nach einer Maßnahme erfasst wird, messen. Dies mag trivial klingen, wird bei der Evaluation von Wissenschaftskommunikation jedoch erstaunlicherweise häufig versäumt (z. B. Masters et al. 2016).

1.3 Beobachtbarkeit

Als letzte Eigenschaft zur Kategorisierung von Personenmerkmalen gehen wir auf die Beobachtbarkeit eines Merkmals ein. Personenmerkmale können direkt beobachtbar sein oder nicht. Im ersten Fall spricht man von einem manifesten, im letzten von einem latenten Merkmal. Merkmale wie das Alter oder das Monatsgehalt sind direkt beobachtbar und damit manifest. Sie lassen sich (zumindest theoretisch) mit einem Blick auf den Personalausweis oder auf einen Kontoauszug in ihrer Ausprägung messen. Andere Merkmale wie das Wissen über ein Thema lassen sich nicht direkt beobachten und sind damit latent. Wie viel eine Person über ein Thema weiß, kann man ihr nicht direkt ansehen. Da es sich bei Messverfahren jedoch um empirische, sprich auf Wahrnehmung basierende Verfahren handelt, ist die Messung nicht direkt beobachtbarer Merkmale natürlich eine Herausforderung. Um dieser zu begegnen, bedienen sich Messverfahren einer Hilfskonstruktion. Sie definieren ein Verhalten, das zwei Eigenschaften hat. Zum einen muss das definierte Verhalten direkt beobachtbar sein. Zum anderen muss es vom eigentlich zu messenden latenten Personenmerkmal maßgeblich beeinflusst werden.

Leistungsmerkmale sind latente Personenmerkmale. Ihre Ausprägung wird mithilfe von Tests erfasst, bei denen Personen sich im Rahmen von Testitems verhalten müssen. Dieses Verhalten wird beobachtet und in Abhängigkeit der Ausprägung des beobachteten Verhaltens erhält die Person eine Zahl auf der Testskala. Damit das alles funktioniert, müssen einige Kriterien erfüllt sein, die gewährleisten sollen, dass das beobachtete Verhalten und seine Übersetzung in eine Zahl möglichst ausschließlich von dem interessierenden latenten Leistungsmerkmal bestimmt sind. Nur in diesem Fall kann von einer hinreichenden Testgüte ausgegangen werden. Die entsprechenden Kriterien werden daher auch Testgütekriterien genannt.

2 Testgütekriterien

Alle guten Tests erfüllen mindestens drei Hauptgütekriterien, zu denen die Reliabilität, die Objektivität und die Validität gezählt wird (siehe auch Böhmer und Abacioglu in diesem Band). Diese drei Gütekriterien haben gemeinsam, dass sie alle den Schutz des zu beobachtenden Verhaltens und seiner Übersetzung in eine Zahl vor ungewollten Einflüssen beschreiben. Ungewollte Einflüsse sind dabei solche, die nicht von dem zu messenden latenten Leistungsmerkmal ausgehen. Sie können systematisch oder unsystematisch sein.

2.1 Reliabilität

Unsystematische Einflüsse sind Gegenstand der sogenannten „Klassischen Testtheorie“ (Gulliksen 1950; siehe auch Döring und Bortz 2016) und das Gütekriterium, das sich mit dem Schutz vor solchen unsystematischen Einflüssen beschäftigt, wird Reliabilität ( = Zuverlässigkeit oder Fehlerfreiheit) genannt. Die klassische Testtheorie beschäftigt sich mit ungewollten Einflüssen auf das beobachtete Verhalten oder seiner Übersetzung in eine Zahl, die zufällig (und damit unsystematisch) in zweierlei Hinsicht sind. Erstens ist das Ausmaß des Einflusses rein zufällig. Zweitens ist es völlig zufällig, ob durch den jeweiligen Einfluss das Ausmaß des latenten Leistungsmerkmals über- oder unterschätzt wird. Ein Beispiel für solche zufälligen Einflüsse wäre das Ankreuzen der richtigen Antwort in einem Wissenstest, obwohl das entsprechende Wissen gar nicht verfügbar ist, wenn einer Person also durch bloßes Raten ein „Glückstreffer“ gelingt. Die Summe aller zufälligen Einflüsse wird in der klassischen Testtheorie unter dem Begriff des (Mess-)Fehlers zusammengefasst, weshalb sie auch als Messfehlertheorie bekannt ist. Grundlage dieser Theorie ist die Annahme, dass der Messwert, also die Zahl, durch die das Ausmaß des latenten Personenmerkmals ausgedrückt werden soll, sich zusammensetzt aus dem „wahren“ Wert und dem Messfehler. Der wahre Wert ist dabei die Zahl, die zustande käme, wenn es keinerlei zufällige Einflüsse gäbe. Der Messfehler ist der (positive oder negative) Betrag, der auf die Summe aller (unbekannten) zufälligen Einflüsse zurückzuführen ist. Die Frage der Reliabilität ist nun, wie hoch der Anteil des wahren Werts sowie der des Messfehlers am Messwert ist. Ist der Anteil des wahren Werts sehr hoch und damit der Anteil des Messfehlers sehr niedrig, ist der Messwert sehr reliabel und zuverlässig.

Sowohl für die Gewährleistung als auch für die Überprüfung der Reliabilität eines Tests ist die Wiederholung von Messungen notwendig. Das ist der Grund, wieso Tests nicht aus einem, sondern aus mehreren Items bestehen. Jedes Item stellt dabei eine Messung dar. Unter der Voraussetzung, dass das Verhalten, das bei der Bearbeitung aller Items eines Tests beobachtet wird, von demselben latenten Personenmerkmal beeinflusst wird, wird durch die Bearbeitung mehrerer Items die Messung des latenten Personenmerkmals mehrfach wiederholt. Werden diese wiederholten Messungen dann zusammengefasst, indem man bspw. die Punkte, die bei den Items jeweils erreicht wurden, aufsummiert, resultiert ein reliables Testergebnis. Der Grundgedanke hierbei ist der folgende: Der Messwert eines jeden Items setzt sich zusammen aus „wahrem“ Wert und Messfehler. Die wahren Werte weisen alle mehr oder weniger ausgeprägte, aber immer positive Beträge auf. Die Messfehler haben dagegen jeweils zufälligerweise einen mehr oder weniger ausgeprägten positiven oder negativen Betrag. Summiert man die Messwerte der Items, summiert man sowohl die wahren Werte als auch die Messfehler. Da alle wahren Werte positiv sind, ist auch ihre Summe positiv. Da im Gegensatz dazu die Messfehler sowohl positive als auch negative Beträge aufweisen, strebt ihre Summe gegen Null. Die Summe der Messwerte, also das Testergebnis, ist dadurch maßgeblich von der Summe der wahren Werte bestimmt, während die Summe der Messfehler einen gegen Null strebenden Anteil daran hat. Aus dieser Überlegung heraus folgt, dass ein Test umso reliabler ist, aus je mehr Items er besteht, deren Bearbeitung von demselben latenten Personenmerkmal maßgeblich beeinflusst wird. Durch die Wiederholung der Messung und dem Zusammenfassen der Messergebnisse wird die Reliabilität des Testergebnisses gewährleistet.

So zumindest die (klassische Test-)Theorie. Ob ein Testergebnis aber nicht nur theoretisch, sondern auch tatsächlich reliabel ist, lässt sich ebenfalls durch Wiederholung überprüfen. Dabei werden verschiedene Arten der Wiederholung unterschieden (Döring und Bortz 2016), bspw. in Abhängigkeit von der Stabilität des zu messenden Leistungsmerkmals. Handelt es sich um ein stabiles Leistungsmerkmal, lässt sich die Reliabilität eines Tests als Test-Retest-Reliabilität bestimmen. Der Gedanke dabei ist, dass man dieselben Personen denselben Test nicht nur einmal, sondern mit einem gewissen zeitlichen Abstand mindestens zweimal bearbeiten lässt. Ist das latente Personenmerkmal stabil, sollten diejenigen, die beim ersten Bearbeiten ein gutes Testergebnis erzielt haben, beim zweiten Bearbeiten ebenfalls ein gutes Testergebnis erreichen. Ist ein Test reliabel und ist das getestete Personenmerkmal stabil, dann stehen die Testergebnisse bei einer wiederholten Testung in einem systematischen Zusammenhang. Ein solcher systematischer Zusammenhang lässt sich als Korrelation berechnen. Ein Korrelationskoeffizient mit einem hohen positiven Betrag (r > 0,8) drückt dann eine hohe Test-Retest-Reliabilität aus.

Ist eine wiederholte Testdurchführung nicht sinnvoll, bspw. weil das zu erfassende Personenmerkmal veränderbar ist, besteht für die Überprüfung der Reliabilität die Möglichkeit, die Wiederholung nicht auf der Ebene des gesamten Tests bzw. der Testskala anzusiedeln, sondern auf der Ebene der einzelnen Items eines Tests, welche die Skala letztlich bilden. Der Gedanke ist, dass eine Person, die ein Testitem gut oder korrekt bearbeitet hat, mit hoher Wahrscheinlichkeit auch die weiteren Testitems gut oder korrekt bearbeiten wird. Ist ein Test reliabel, dann stehen die Messergebnisse der einzelnen Testitems in einem systematischen Zusammenhang. Die Testitems bilden in diesem Fall eine intern konsistente Testskala. Das Ausmaß dieser internen Konsistenz gilt als Schätzer der Reliabilität eines Tests und lässt sich über Koeffizienten wie bspw. Cronbachs Alpha (Cronbach 1951) ausdrücken. Auch hier gilt, dass ein hoher positiver Betrag (Cronbachs Alpha > 0,8) eine hohe interne Konsistenz und damit eine hohe Testreliabilität ausdrückt.

2.2 Schwierigkeit

Findet man starke, systematische Zusammenhänge zwischen den Messwerten der Items einer Testskala oder zwischen den Ergebnissen eines wiederholt durchgeführten Tests, dann ist das ein Indikator für die hohe Reliabilität des Tests. Sind diese Zusammenhänge dagegen niedrig ausgeprägt, kann eine geringe Reliabilität die Ursache sein, muss aber nicht. Es kann auch sein, dass der Test für die untersuchten Personen viel zu leicht oder viel zu schwierig ist. In dem Fall fallen die berechneten Koeffizienten niedrig aus und unterschätzen die Reliabilität des Tests. Will man bspw. evaluieren, ob eine Maßnahme der Wissenschaftskommunikation zu einem umfangreicheren Wissen führt, ist man gut beraten, bei den betreffenden Personen das Wissen sowohl vor als auch nach der Maßnahme zu testen. Wenn die Personen jedoch mit wenig Vorwissen in die Maßnahme starten, können sie beim Vorwissenstest bei den meisten Items wahrscheinlich nur raten. Dieses Raten führt zu unsystematischen, zufälligen Antworten. Die Messergebnisse der einzelnen Testitems werden stark vom Zufall geprägt sein und die interne Konsistenz der Testskala entsprechend niedrig ausfallen. Das muss jedoch nicht bedeuten, dass die Skala bzw. der Test an sich wenig reliabel ist. Es ist sehr gut möglich, dass derselbe Wissenstest, nach der Maßnahme der Wissenschaftskommunikation eingesetzt, zu intern konsistenten Ergebnissen führt, da die Personen jetzt über ein mehr oder weniger ausgeprägtes Wissen verfügen und entsprechend bei mehr oder weniger vielen Items die korrekte Antwort kennen (und nicht raten). In dem Fall ist die Schwierigkeit des Tests für die Gruppe der untersuchten Personen angemessen, und die berechneten Koeffizienten sind gute Schätzer der Reliabilität.

Während sich die klassische Testtheorie maßgeblich mit der Frage des Messfehlers beschäftigt, ist das Zusammenspiel von Ausprägung eines latenten Personenmerkmals und Itemschwierigkeit zentraler Gegenstand einer anderen Testtheorie, der sogenannten Item-Response-Theory (kurz IRT; z. B. van der Linden 2016). Die IRT beschäftigt sich maßgeblich mit der gleichzeitigen Schätzung sogenannter Personenparameter ( = Ausprägung des latenten Personenmerkmals) und sogenannter Itemparameter ( = Schwierigkeit eines Items). Tests, die gemäß der IRT konstruiert wurden, erlauben die Schätzung des Personenmerkmals unabhängig von der Itemschwierigkeit sowie die Schätzung der Itemschwierigkeit unabhängig von der Ausprägung des latenten Personenmerkmals bei den getesteten Personen. Dies hat natürlich Vorteile für Testsituationen wie im oben beschrieben Fall der Testung von Vorwissen. Die IRT wird aber auch herangezogen, wenn bspw. ein Test mehr Items enthält als eine Person zu einem Zeitpunkt bearbeiten könnte. IRT-skalierte Tests erlauben es in diesem Fall, Personen nur eine Auswahl der Testitems bearbeiten zu lassen und trotzdem zu vergleichbaren Messungen des latenten Personenmerkmals zwischen verschiedenen Personen zu kommen. Die IRT kommt zudem zum Einsatz, wenn adaptive Tests konstruiert werden sollen, bei denen Personen nur eine Itemauswahl präsentiert bekommen, die individuell an die jeweilige Ausprägung ihres Personenmerkmals angepasst wird. Auch dann kommen solche Tests zu vergleichbaren Ergebnissen zwischen Personen, obwohl die Personen unterschiedliche Items bearbeitet haben. Derartige Möglichkeiten bieten Tests, die auf Basis der klassischen Testtheorie konstruiert wurden, nicht.

Im Rahmen der IRT werden Personen- und Itemparameter auf derselben Skala abgetragen. Dadurch können Personen- und Itemparameter direkt miteinander verglichen werden, was eine kriteriumsorientierte (inhaltliche) Interpretation der Testergebnisse ermöglicht (Embretson und Reise 2000). Anstatt das Testergebnis ausschließlich in Form einer Zahl zu erhalten, können so Wertebereiche auf der Testskala definiert werden. Und diese Bereiche können inhaltlich durch die (Teil-)Leistungen beschrieben werden, die eine Person (mindestens) zeigen kann, wenn sie Items aus diesem Wertebereich mit hinreichender Wahrscheinlichkeit erfolgreich bearbeiten kann. Dadurch wird das Testergebnis inhaltlich interpretierbar. Bekannt geworden sind solche IRT-basierten Interpretationen bspw. im Kontext der Schulleistungsvergleichsstudien wie PISA, in denen Testergebnisse in Form von Kompetenzniveaus rückgemeldet werden. Diese stellen eine qualitative, kriteriumsorientierte Beschreibung der Anforderungen dar, die Personen mit entsprechend ausgeprägten Kompetenzen bewältigen können (Hartig 2007; Reiss et al. 2016).

Die Entwicklung geeigneter Testverfahren und die Auswertung der durch sie gewonnenen Daten auf Basis von IRT-Modellen stellt mitunter höhere Anforderungen an die methodische Expertise von Wissenschaftler:innen und ist insgesamt auch mit einem höheren Aufwand verbunden als dies bei der klassischen Testtheorie der Fall ist. Es stehen inzwischen jedoch zahlreiche anwender:innenfreundliche Softwarepakete zur Verfügung, die einen breiten Einsatz von IRT-Modellen ermöglichen (Kelava und Moosbrugger 2020). Eine maßgebliche Einschränkung für den Einsatz von IRT-Modellen gegenüber der klassischen Testtheorie stellen allerdings die recht hohen Anforderungen an die benötigten Personenstichproben dar, die mit zunehmender Komplexität der Modelle steigen (de Ayala 2009).

2.3 Objektivität

Bislang haben wir uns mit unsystematischen Einflüssen auf das in einem Test gezeigte Verhalten und seiner Übersetzung in eine Zahl beschäftigt. In den folgenden zwei Unterkapiteln widmen wir uns systematischen Einflüssen, die aber gleichermaßen ungewollt das Verhalten beeinflussen. Diese Einflüsse können ihren Ursprung entweder innerhalb der testenden Person oder innerhalb der getesteten Person haben.

Wenden wir uns zunächst dem ersten Fall zu. Der Schutz vor ungewollten, systematischen Einflüssen, die von der testenden Person ausgehen, betrifft das Gütekriterium der Objektivität. Die Objektivität eines Tests ist dann gefährdet, wenn die testdurchführende Person Einfluss auf das Verhalten der getesteten Person oder auf dessen Bewertung nimmt. Dies muss gar nicht absichtlich geschehen. Häufige Ursache für unzureichender Testobjektivität sind mangelhafte Anweisungen für die Testdurchführung. Wenn bspw. keine Angabe dazu besteht, wie lange Personen Zeit haben, einen Test zu bearbeiten, müssen Testdurchführende selbst einschätzen, wann die Testbearbeitung beendet werden soll, was zu ungewollten Unterschieden in der Testdurchführung führt. Eine andere übliche Quelle für mangelnde Objektivität sind unzureichende Bewertungsschlüssel im Falle von Testitems mit einem offenen Antwortformat. Wenn bspw. ein Frageitem durch einen selbstständig zu formulierenden Text beantwortet werden soll, muss im Nachhinein der Antworttext in Bezug auf die darin ausgedrückte Leistung interpretiert werden. Wenn für diese Interpretation keine sehr klaren Regeln und Kriterien vorab definiert wurden, wird derselbe Antworttext bei verschiedenen Interpretierenden zu unterschiedlichen Leistungseinschätzungen, sprich Messergebnissen führen. Vor diesem Hintergrund sind Items mit einem geschlossenen Antwortformat, also Items, die durch das Ankreuzen einer Option oder das Ausfüllen durch genau ein Wort oder genau eine Zahl zu beantworten sind, natürlich zu bevorzugen, da bei ihnen kein Interpretationsspielraum und damit ein Höchstmaß an Objektivität gegeben ist.

Um eine hinreichende Objektivität zu gewährleisten, haben gute Testverfahren entsprechende Testmanuale, in denen sehr genau beschrieben ist, 1) wie ein Test durchzuführen ist, 2) wie das beobachtete Verhalten auszuwerten ist (also welchem Verhalten welche Zahl zuzuordnen ist) und 3) wie genau das resultierende Testergebnis zu interpretieren ist (bspw. ob ein Testergebnis ein eher durchschnittliches oder ein über- oder unterdurchschnittliches Ergebnis darstellt). Der Sinn dieser Manuale ist, den Interpretationsspielraum der Testdurchführenden, häufig Rater (engl. to rate = bewerten, beurteilen) genannt, in allen Phasen der Testdurchführung, -auswertung und -interpretation möglichst eng zu gestalten. Ob dies hinreichend gelungen ist, kann dadurch überprüft werden, dass nicht nur ein Rater einen Test bei derselben Gruppe von Personen durchführt, sondern mindestens zwei. Das Prinzip ist dasselbe wie im Falle der Überprüfung der Reliabilität. Wieder wird die Messung wiederholt, nur dieses Mal nicht zu mehreren Testzeitpunkten oder durch mehrere Items, sondern durch mehrere Rater. Und wie bei der Reliabilität wird auch zur Überprüfung der Objektivität die Stärke eines Zusammenhangs geprüft. Ist ein Testverfahren objektiv, sollten Personen, die von einem:r Rater:in eine hohe Leistung attestiert bekommen, auch von einem:r anderen Rater:in eine hohe Leistung zugesprochen bekommen. Auch ein solcher systematischer Zusammenhang zwischen den Ergebnissen zweier oder mehrerer Rater:innen lässt sich als Korrelation berechnen, die ein sogenanntes Interrater-Agreement ausdrückt. Ist das Interrater-Agreement hoch, ist das Kriterium der Objektivität mit hoher Wahrscheinlichkeit erfüllt. In Abhängigkeit vom Skalenniveau der Testdaten stehen zur Berechnung des Interrater-Agreements verschiedene Koeffizienten zur Verfügung. Der wohl bekannteste, aber auch recht strenge Koeffizient ist Cohens Kappa. Bei Werten von Cohens Kappa > 0,8 geht man von einem hohen Interrater-Agreement und damit von einer hinreichenden Objektivität aus.

2.4 Validität

Mit der Validität ist ein Testgütekriterium angesprochen, bei dem systematische und ungewollte Einflüsse ihren Ursprung innerhalb der getesteten Person haben. Solche Einflüsse kommen von Personenmerkmalen, die ein anderes Merkmal als das eigentlich interessierende latente Personenmerkmal sind. Wenn bspw. ein Wissenstest nach einer Wissenschaftskommunikationsmaßnahme eingesetzt wird, dessen Items lange Sätze mit komplexer Satzstruktur und eine Fülle an Fremdwörtern beinhalten, dann besteht die Gefahr, dass mit diesem Test weniger das Verständnis des kommunizierten Wissens als vielmehr Lese- und Sprachfähigkeiten gemessen werden. Ein weiteres, leider häufig vorkommendes Beispiel, wurde oben bereits beschrieben. Es betrifft den Einsatz von Befragungen mit Rating-Skalen zur Erfassung von Wissen oder Verständnis (z. B. Land-Zandstra et al. 2016). Auch hier muss man sich im Klaren sein, dass nicht das Wissen oder das Verständnis selbst damit erfasst werden, sondern die selbsteingeschätzte Bewertung derselben. Diese Bewertung kann in hohem Maße beeinflusst sein durch das entsprechende Wissen oder Verständnis. Sie kann aber auch stark von der Fähigkeit, sich selbst einzuschätzen oder dem Drang, sozial erwünscht zu antworten, abhängen.

Sowohl für die Gewährleistung der Validität bei der Konstruktion oder der Auswahl von Tests, als auch für die Überprüfung ihrer Validität ist ein fundiertes theoretisches Wissen über das zu messende latente Personenmerkmal unabdingbar. Nur wenn das Personenmerkmal genau theoretisch beschrieben und definiert ist, kann die Validität eines Tests eingeschätzt werden. Dies erfordert entsprechende, meist psychologische oder fachdidaktische Expertise in dem Bereich, dem das latente Personenmerkmal zuzuordnen ist. Sollte man selbst eher Lai:in in diesem Gebiet sein, ist man gut beraten, eine:n entsprechende:n Expert:in um Hilfe zu bitten und sich nicht auf das eigene womöglich lai:innenhafte Alltagsverständnis zu verlassen.

Um zu überprüfen, ob ein eingesetzter Test zu validen Ergebnissen führt, prüft man, wie bereits bei der Reliabilität und der Objektivität, in der Regel Zusammenhänge; dieses Mal jedoch nicht zwischen Messzeitpunkten, Items oder Ratern, sondern zwischen verschiedenen Personenmerkmalen (Cronbach und Meehl 1955). Auch dafür sind fundierte Kenntnisse des aktuellen Forschungsstandes in Bezug auf das interessierende latente Personenmerkmal notwendig. Auf deren Basis wird entschieden, mit welchen Personenmerkmalen das zu testende latente Personenmerkmal in einem engen Zusammenhang steht („konvergente Validität“) und mit welchen Personenmerkmalen kein Zusammenhang besteht („diskriminante Validität“). Diese auf der theoretischen Ebene postulierten (Nicht-)Zusammenhänge werden dann mithilfe des zu validierenden Tests empirisch überprüft. Entsprechen die empirisch ermittelten Korrelationen den theoretischen, auf dem aktuellen Stand der Forschung abgeleiteten Zusammenhängen, sprechen diese Zusammenhänge für die Validität des Tests. Dabei gelten Korrelationen von r > 0,6 im Falle konvergenter Zusammenhänge als hoher Validitätskoeffizient (Weise 1975), im Falle diskriminanter Zusammenhänge sollte r sich nicht bedeutsam von Null unterscheiden.

3 Bezugsnormen

Das Ergebnis eines Tests ist eine Zahl. Diese Zahl ist zunächst einmal bedeutungslos. Was bedeutet es bspw. wenn jemand in einem Wissenstest 7 von 10 Punkten erreicht hat? Verfügt die Person dann über viel oder wenig Wissen? Auf Grundlage der bloßen Zahl lässt sich diese Frage nicht beantworten, es sei denn, es handelt sich um einen IRT-basierten Test, für den Testwertebereiche inhaltlich beschrieben wurden. In den meisten Fällen haben wir es aber mit klassisch konstruierten Tests zu tun, und deren Ergebnisse lassen sich nur mithilfe von Vergleichsmaßstäben bewerten.

Diese Vergleichsmaßstäbe werden in der Literatur als Bezugsnormen bezeichnet. Unterschieden werden dabei die soziale, die individuelle sowie die kriteriale Bezugsnorm (Heckhausen 1974). Wendet man eine soziale Bezugsnorm an, vergleicht man ein Testergebnis mit den Testergebnissen anderer Personen. Über diesen Vergleich lässt sich einschätzen, ob ein Testergebnis besser, schlechter oder ähnlich wie die Testergebnisse anderer ist. Die soziale Bezugsnorm kommt im Rahmen der Evaluation von Wissenschaftskommunikation bspw. zum Einsatz, wenn in einer Evaluationsstudie ein experimentelles Design mit einer Interventions- und einer Kontrollgruppe realisiert wurde. Angenommen man wollte evaluieren, ob die Teilnahme an einem Schülerlaborprojekt aus der Chemie bei den Schüler:innen zu Kenntnissen naturwissenschaftlicher Arbeitsweisen führt, könnte man die Schüler:innen dieser Interventionsgruppe am Ende des Schülerlaborprojekts einen Test zu naturwissenschaftlichen Arbeitsweisen (Klos et al. 2008) bearbeiten lassen. Denselben Test würde man aber auch Schüler:innen geben, die „nur“ den herkömmlichen Chemieunterricht besuchten, und damit die Kontrollgruppe bildeten. Auch wenn dieses ein immer noch recht schwaches Untersuchungsdesign wäre, könnte man die durchschnittliche Testleistung der Interventionsgruppe mit der entsprechenden Testleistung der Kontrollgruppe vergleichen. Das Schülerlaborprojekt würde dann als erfolgreich bewertet, wenn die durchschnittliche Testleistung in der Interventionsgruppe höher ausfiele als die der Kontrollgruppe.

Bei der individuellen Bezugsnorm werden die Testleistungen einer Person mit den Leistungen derselben Person im selben Test zu einem früheren Zeitpunkt verglichen. Die individuelle Bezugsnorm kommt also zum Tragen, wenn Veränderungsmessungen durchgeführt werden. Ob eine Testleistung als mehr oder weniger gut bewertet wird, hängt in diesem Fall davon ab, ob eine Testleistung besser oder schlechter als frühere Testleistungen derselben Person ist. Die individuelle Bezugsnorm kommt im Rahmen der Evaluation von Wissenschaftskommunikation bspw. zum Einsatz, wenn in einer Evaluationsstudie ein Prä-Post-Testdesign realisiert wurde. Wollte man bspw. evaluieren, ob die Teilnahme an einem Schülerlaborprojekt aus der Chemie bei den Schüler:innen zu Kenntnissen naturwissenschaftlicher Arbeitsweisen führt, könnte man die Schüler:innen nicht nur nach der Teilnahme am Schülerlaborprojekt, sondern zusätzlich auch davor einen Test zu naturwissenschaftlichen Arbeitsweisen (Klos et al. 2008) bearbeiten lassen. Das Schülerlaborprojekt würde dann als erfolgreich bewertet, wenn die Testleistungen nach der Teilnahme bedeutsam höher ausfielen als vor der Teilnahme, obwohl auch bei diesem Design angemerkt werden muss, dass es sich um ein schwaches Untersuchungsdesign handelt. Ideal wäre ein Untersuchungsdesign, das ein experimentelles Design und ein Prä-Post-Testdesign kombiniert, wenn also die Tests bei sowohl einer Interventionsgruppe, als auch einer Kontrollgruppe sowohl vor einer Intervention als auch nach einer Intervention eingesetzt würden. In dem Fall wäre eine Kombination der sozialen und der individuellen Bezugsnorm möglich und man würde das Ausmaß der Veränderungen in den beide Gruppen miteinander vergleichen. Ein Schülerlaborprojekt würde in dem Fall dann als erfolgreich bewertet, wenn die teilnehmenden Schüler:innen mehr hinzulernten als die Schüler:innen, die „nur“ herkömmlichen Chemieunterricht genossen haben.

Das Heranziehen der individuellen Bezugsnorm ist nur unter bestimmten Bedingungen sinnvoll. Zum einen darf das zu messende Personenmerkmal kein stabiles sein. Zum anderen muss ausgeschlossen werden, dass sich Personen bei der wiederholten Testbearbeitung an vorherige Bearbeitungen so erinnern, dass sie daraus Vorteile bei der erneuten Bearbeitung haben. Hier ist bspw. die Zeitspanne zwischen den Testungen von entscheidender Bedeutung.

Die kriteriale Bezugsnorm bewertet ein Testergebnis unabhängig von Testleistungen anderer Personen oder anderer Testzeitpunkte. Für die kriteriale Bezugsnorm werden vorab Testwerte definiert, die erreicht werden müssen, damit eine Testleistung als mehr oder weniger gut bewertet wird. Im Falle von IRT-basierten Tests sind das die angesprochenen inhaltlich beschreibbaren Wertebereiche. Bei klassisch konstruierten Tests sind das einzelne Werte auf der Testskala, die mindestens erreicht werden müssen, damit ein Testergebnis als gut bewertet wird. Angenommen man wollte evaluieren, ob die Teilnahme an einem Schülerlaborprojekt aus der Chemie bei den Schüler:innen zu hinreichenden Kenntnissen naturwissenschaftlicher Arbeitsweisen führt, dann könnte man die Schüler:innen nach der Teilnahme am Schülerlaborprojekt einen Test zu naturwissenschaftlichen Arbeitsweisen (Klos et al. 2008) bearbeiten lassen. Zudem würde man vorab definieren, dass eine hinreichende Testleistung bei mindestens 70 % korrekt beantworteter Items liegt. Das Schülerlaborprojekt würde dann als erfolgreich bewertet, wenn die durchschnittliche Testleistung nach der Teilnahme bei 70 % oder höher läge.

4 Fazit

Tests kommen im Rahmen der Evaluation von Maßnahmen der Wissenschaftskommunikation immer dann zum Einsatz, wenn Personenmerkmale erfasst werden sollen, die Voraussetzungen für Leistungen sind. Damit die Ausprägung dieser meist nicht direkt beobachtbaren Personenmerkmale durch einen Testwert gut eingeschätzt werden kann, muss der Test Gütekriterien erfüllen, wozu insbesondere die Reliabilität, die Objektivität und die Validität zählen. Das Erfüllen dieser Kriterien gewährleistet, dass das im Test beobachtete Antwortverhalten maßgeblich vom interessierenden Personenmerkmal und nicht von anderen, teilweise unbekannten Faktoren beeinflusst wird. Die Entwicklung solcher Tests sowie die empirische Überprüfung der Gütekriterien ist mit großem Aufwand verbunden, in die inhaltliche und methodische Expertise, Zeit und nicht zuletzt Geld investiert werden muss. Vor diesem Hintergrund ist man gut beraten, auf bereits entwickelte und empirisch bewährte Tests zurückzugreifen.

Doch auch die Suche und Auswahl solcher etablierter Testverfahren ist nicht ohne Aufwand durchzuführen. In Bezug auf die Validität ist bspw. genau zu prüfen, ob ein gefundener Test auch wirklich genau das Personenmerkmal erfasst, das einen interessiert. Um das entscheiden zu können, benötigt man ein fundiertes wissenschaftliches Wissen über das zu testende Personenmerkmal. Allzu häufig lässt man sich jedoch von Alltagsbegriffen in die Irre führen. Diese sind jedoch meist unscharf definiert oder bedeuten oft etwas anderes als derselbe Begriff, wenn er im wissenschaftlichen Diskurs verwendet und definiert wird. Jede:r wird bspw. ein Gefühl dafür haben, was mit dem Begriff des Wissenschaftsverständnisses gemeint sein könnte. Vertieft man sich jedoch in die entsprechende wissenschaftliche Literatur, wird man feststellen, dass der Begriff nicht einheitlich definiert ist und je nach gewählter Definition unterschiedliche Facetten eines Wissenschaftsverständnisses betont werden. Mal mögen epistemologische Überzeugungen im Vordergrund stehen, mal Methodenkenntnisse, mal Kenntnisse innerhalb eines eng umgrenzten wissenschaftlichen Gebiets. Die jeweils gewählte wissenschaftlich zu begründende Definition muss sich letztlich auch in den Items eines Wissenschaftsverständnistests niederschlagen. Gute Tests definieren in einem Manual sehr genau das Personenmerkmal, das durch den Test erfasst wird. Diese Definition kann man dann mit der eigenen wissenschaftlich begründeten Definition abgleichen und so entscheiden, ob der Test für die eigenen Zwecke geeignet ist oder nicht.

Abgesehen von der klaren Definition des Personenmerkmals liefern gute Tests auch empirische Informationen über die Gütekriterien. Jeder gute Test liefert in seinem Manual Kennwerte zu Reliabilität, Objektivität und Validität. Sollten zu einem Test diese Informationen nicht vorliegen, ist man vermutlich gut beraten, diesen Test beiseite zu legen. Ähnlich verhält es sich mit den Anweisungen zur Durchführung, Auswertung und Interpretation eines Tests. Enthält ein Testmanual dazu nur Angaben, die viel Interpretationsspielraum lassen, sollte man von diesem Test wohl eher die Finger lassen.

Nicht in allen Fällen wird es möglich sein, ein gutes, etabliertes Testverfahren zu finden. In diesem Fall ist man auf Eigenkonstruktionen angewiesen. Die Ausführungen dieses Beitrags werden verdeutlicht haben, dass hierfür inhaltliche Expertise sowie methodische Kompetenzen im Bereich der Testentwicklung und -evaluation notwendig sind. Wenn letztere nicht zum prägenden Teil des eigenen Wissenschaftsgebiets zählen, sind Kooperationen mit den entsprechenden Disziplinen notwendig. Auch solche interdisziplinären Kooperationen erfordern (interdisziplinäre) Wissenschaftskommunikation. Diese kann manchmal vielleicht anstrengend sein, ist aber bereichernd für alle Beteiligten.

Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://creativecommons.org/licenses/by/4.0/deed.de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Vorheriges Kapitel Praxisbeitrag: Anwendungsbeispiel zur Integration inhaltsanalytischer Betrachtungen in Multi-Methoden-Forschungsstrategien im Bereich der Wissenschaftskommunikation

Nächstes Kapitel Praxisbeitrag: Entwicklung und Überprüfung eines adaptierbaren Tests zum wissenschaftlichen Denken für Evaluationen in der Wissenschaftskommunikation

Anderson LW, Krathwohl DR (Hrsg) (2001) A taxonomy for learning, teaching, and assessing: a revision of bloom’s taxonomy of educational objectives. Longman, New York

Bromme R, Kienhues D (2014) Wissenschaftsverständnis und Wissenschaftskommunikation. In: Seidel T, Krapp A (Hrsg) Pädagogische Psychologie, 6. Aufl. Beltz, Weinheim, S 55–81

Cronbach LJ (1951) Coefficient alpha and the interval structure of tests. Psychometrika 16:297–334. https://doi.org/10.1007/BF02310555CrossRef

Cronbach LJ, Meehl PE (1955) Construct validity in psychological tests. Psychol Bull 52:281–302. https://doi.org/10.1037/h0040957CrossRef

de Ayala RJ (2009) The theory and practice of item response theory. Guilford, New York

Döring N, Bortz J (2016) Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler, 6. Aufl. Springer, BerlinCrossRef

Embretson SE, Reise S (2000) Item response theory for psychologists. Erlbaum, Mahwah

Gulliksen H (1950) Theory of mental tests. Wiley, New YorkCrossRef

Heckhausen H (1974) Leistung und Chancengleichheit. Hogrefe, Göttingen

Hartig J (2007) Skalierung und Definition von Kompetenzniveaus. In: Beck B, Klieme E (Hrsg) Sprachliche Kompetenzen. Konzepte und Messung – DESI-Studie. Beltz, Weinheim, S 72–82

Klauer KJ (1987) Kriteriumsorientierte Tests. Hogrefe, Göttingen

Kelava A, Moosbrugger H (2020) Einführung in die Item-Response-Theorie (IRT). In: Moosbrugger H, Kelava A (Hrsg), Testtheorie und Fragebogenkonstruktion, 3. Aufl. Springer, Berlin, S 369–409. https://doi.org/10.1007/978-3-662-61532-4_16

Klos S, Henke C, Kieren C, Walpuski M, Sumfleth E (2008) Naturwissenschaftliches Experimentieren und chemisches Fachwissen – zwei verschiedene Kompetenzen. Z Pädagog 54:304–321. https://doi.org/10.25656/01:4353

Land-Zandstra AM, Devilee JLA, Snik F, Buurmeijer F, van den Broek JM (2016) Citizen science on a smartphone: participants’ motivations and learning. Public Underst Sci 25:45–60. https://doi.org/10.1177/0963662515602406CrossRef

Masters K, Oh EY, Cox J, Simmons B, Lintott C, Graham G, Greenhill A, Holmes K (2016) Science learning via participation in online citizen science. J Sci Commun 15(03):A07. https://doi.org/10.22323/2.15030207

Reiss K, Sälzer C, Schiepe-Tiska A, Klieme E, Köller O (Hrsg) (2016) PISA 2015. Eine Studie zwischen Kontinuität und Innovation. Waxmann, Münster

Rost J (2004) Lehrbuch Testtheorie – Testkonstruktion, 2. Aufl. Huber, Bern

Schwinger M, Stiensmeier-Pelster J (2012) Erfassung von Self-Handicapping im Lern- und Leistungsbereich. Z Entwicklungspsychol Pädagog Psychol 44:68–80. https://doi.org/10.1026/0049-8637/a000061

van der Linden WJ (2016) Handbook of item response theory, volume one: models. Chapman & Hall, New York. https://doi.org/10.1201/9781315374512CrossRef

Weinert FE (2001) Vergleichende Leistungsmessung in Schulen – eine umstrittene Selbstverständlichkeit. In: FE Weinert (Hrsg) Leistungsmessungen in Schulen. Weinheim, S 17–32

Weise G (1975) Psychologische Leistungstests. Hogrefe, Göttingen

Titel: Grundlagenbeitrag: Quantitative Testverfahren
verfasst von: Joachim Wirth
Jens Fleischer
Verlag: Springer Fachmedien Wiesbaden
Buch: Evaluationsmethoden der Wissenschaftskommunikation
Print ISBN: 978-3-658-39581-0

Electronic ISBN: 978-3-658-39582-7

Copyright-Jahr: 2023
DOI: https://doi.org/10.1007/978-3-658-39582-7_16

Springer Professional