Skip to main content
Top

Open Access 23-09-2024 | HAUPTBEITRAG

ChatGPT-3.5 im Hochschul-E-Assessment: Prüfungsleistung, akademische Integrität und zukünftige Bewertungsansätze

Authors: Tobias Moebert, Evgenia Samoilova, Axel Wiepke

Published in: Informatik Spektrum

Activate our intelligent search to find suitable subject content or patents.

search-config
download
DOWNLOAD
print
PRINT
insite
SEARCH
loading …

Zusammenfassung

Die Verwendung von künstlicher Intelligenz (KI) und insbesondere von Large Language Models (LLM) wie ChatGPT stellt eine Herausforderung und eine Chance für die Hochschullehre dar. Diese Studie untersucht, wie Studierende ohne Fachkenntnisse und LLM-Erfahrung, die ChatGPT‑3.5 nutzen, in Prüfungen im Vergleich zu Studierenden des Kurses abschneiden. Die Ergebnisse zeigen, dass ChatGPT‑3.5 in einigen Klausuren eine ähnliche oder bessere Leistung als die Studierenden erzielen kann, aber auch auf Schwierigkeiten und Grenzen stößt. Die Studie regt an, die Rolle von LLMs in der Hochschulbildung kritisch zu reflektieren und innovative Lehr- und Prüfungsansätze zu entwickeln, die die Potenziale von LLMs nutzen und ihren Missbrauch vermeiden.
Notes

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.

Einführung

Mit der steigenden Wahrnehmung von ChatGPT‑3.5 in der breiten Öffentlichkeit, wurde Ende 2022 eine neue Ära in der Anwendung von künstlicher Intelligenz (KI) und hier im speziellen Large Language Modells (LLM) eingeläutet [1]. Durch die alltägliche Verfügbarkeit einer Technologie, die zuvor nur Spezialisten zugänglich war, hat ChatGPT innerhalb kürzester Zeit nicht nur den digitalen Raum erobert, sondern ist auch in die Sphäre der Bildung vorgedrungen. Anfang 2023 hat dieser Trend dann auch die (Hochschul‑)Lehre erreicht. Dieser rasante Fortschritt hat ein vielschichtiges Spannungsfeld erzeugt. Auf der einen Seite löste die Verwendung von ChatGPT im Kontext der Hochschullehre bei Lehrpersonen Ängste und Bedenken aus. So zeigten sich die Sorgen vor dem möglichen Ende herkömmlicher Prüfungsmethoden [2], einer Welle des Betrugs [3] sowie vermehrten Plagiaten [4]. Auf der anderen Seite wurden auch positive Aspekte mit dem Einsatz von LLMs in Verbindung gebracht. So weckte die Idee, vermehrt kompetenzorientierte und praxisnahe Prüfungsformate mithilfe dieser fortgeschrittenen KI-Technologie umzusetzen, Hoffnungen auf den Einsatz von innovativen pädagogischen Ansätzen und einer nachhaltigen Veränderung des Bildungssektors [5]. Vor dem Hintergrund dieses ambivalenten Spannungsfelds von Ängsten und Hoffnungen stellen sich Fragen hinsichtlich des Einflusses auf traditionelle Bewertungsmethoden, potenziellen Risiken und Vorteilen für Prüfungssituationen sowie konkreten Maßnahmen zur sinnvollen Gestaltung und Regulierung des Einsatzes von LLMs. Bei der Gestaltung der Lernangebote und Prüfungsmöglichkeiten, sollte auf verbreitete Fehlannahmen besonderes Augenmerk gelegt werden, wie sie z. B. bereits im ersten Beitrag des Themenheftes adressiert wurden.
Bereits existierende Forschung zum Thema LLMs betrachtet verschiedene Fragestellungen aus den Bereichen (Hochschul-)Bildung [6, 7], Prüfungen [4, 8] und Hochschulintegrität [3, 9]. Hierbei wurde beispielsweise untersucht, wie LLMs und speziell ChatGPT in der Hochschullehre zum Besseren oder Schlechteren eingesetzt werden können [6, 7] oder wie ChatGPT in ganz bestimmten Prüfungsformaten abschneidet [8, 11]. So konnte beispielsweise [10] zeigen, dass ChatGPT beim Bearbeiten der United Stated Medical Licensing Examination eine ähnliche Punktzahl erreicht, wie Medizinstudent*innen im dritten Jahr. Auch [8] zeigte, dass ChatGPT ohne spezielles Training die Medical Licensing Examination bestehen kann. Eine andere groß angelegte Studie [11], die systematisch von Menschen verfasste und von ChatGPT generierte argumentative Aufsätze von Studierenden verglich, konnte zeigen, dass Studierende, die ihre Aufsatznoten maximieren wollen, dies leicht tun können, indem sie sich auf Ergebnisse von LLM-Modellen wie ChatGPT verlassen. Zudem hat auch das Unternehmen hinter ChatGPT, OpenAI, in einem Technical Report eigene Untersuchungen veröffentlicht, die den Erfolg von ChatGPT beim Bearbeiten von akademischen und professionellen Prüfungen darstellen soll [12]. Die Ergebnisse von Open AI sind zwar interessant, aber wissenschaftlich nicht fundiert und die Evaluationsmethoden von LLM-Systemen sind derzeit Gegenstand von Forschung (siehe Beitrag  „Prompt-Engineering zur Generierung von Sprachlerninhalten“ von Leo Rüdian und Niels Pinkwart im Themenheft). Viele der existierenden Forschungen betrachten momentan entweder konkrete Prüfungsformen (z. B. Aufsätze) oder spezifische Prüfungsthemen (z. B. Medizinausbildung) und leiten dann Erkenntnisse und Empfehlungen für diese Bereiche ab. Im Einklang mit anderen Studien, die die Prüfungsleistung von LLMs mit der von Studierenden vergleichen, haben wir eine Untersuchung geplant, die sowohl die heterogenen Fachbereiche als auch unterschiedlichen Klausurfragen an der Hochschule miteinbezieht. Von einer solchen Untersuchung erhofften wir uns, die Blickwinkel verschiedenster Fachbereiche und Lehrpersonen einbeziehen zu können, um so eine hochschulinterne Diskussion anstoßen zu können. Als Einstieg in dieses Forschungsvorhaben wurde von uns an der Universität Potsdam eine Studie mit ChatGPT durchgeführt. Die auf GPT‑3.5 basierende Version von ChatGPT wurde dafür ausgewählt, weil diese zum Zeitpunkt der Durchführung der Studie frei verfügbar war. Konkret stellte sich uns hier die Frage
„Wie schneiden Studierende ohne Fachkenntnisse und LLM-Erfahrung, die ChatGPT‑3.5 nutzen, in Prüfungen im Vergleich zu Studierenden des Kurses ab?“
Zudem wurde explorativ untersucht, ob es bestimmte technische Aspekte der Prüfungsfragen gibt, die die Beantwortung von Fragen für ChatGPT im Vergleich zu Studierenden erleichtern oder erschweren können.
In den folgenden Kapiteln wird beschrieben, wie die Studie entworfen und durchgeführt wurde. Zudem werden wir die Ergebnisse vorstellen und interpretieren sowie einen Ausblick auf zukünftige Forschung geben. Im Diskussionsteil betrachten wir die Ergebnisse sowohl aus der Perspektive der Herausforderungen für die akademische Integrität als auch hinsichtlich der möglichen positiven Auswirkungen auf die Hochschullehre.

Stichprobe

Für die Durchführung unserer Studie war es notwendig, Zugang zu Klausurdaten von Lehrenden der Universität Potsdam zu erhalten. Dies umfasste Daten zu den anonymisierten Klausurergebnissen der Studierenden, Zugriff auf die Klausuren über Exam.UP (auf Moodle basierende Prüfungsplattform der Universität Potsdam) sowie, bei offenen Fragen ohne automatisierte Bewertung, die Bereitschaft der Lehrenden, die Ergebnisse von ChatGPT‑3.5 zu benoten. Wir kontaktierten 91 Dozierende der Universität Potsdam in Deutsch und Englisch per E‑Mail, die in den Semestern Sommer 2022 und Winter 2022/23 158 digitale Klausuren auf Exam.UP bereitstellten. Als Anreiz für die Teilnahme der Dozierenden boten wir eine detaillierte Einzelbesprechung der Ergebnisse der Klausuren an. Tab. 1 illustriert die Verteilung der Fächer der kontaktierten Klausuren sowie jener Klausuren, für die wir eine Zusage und die erforderlichen Daten erhalten haben. Es ist anzumerken, dass sich die angeführten Fächer auf den Inhalt des jeweiligen Kurses beziehen und nicht auf den Studiengang der Studierenden, die an der jeweiligen E‑Klausur teilgenommen haben. Die niedrige Anzahl an untersuchten Klausuren in Mathematik und den Naturwissenschaften ist darauf zurückzuführen, dass in diesen Fächern nur wenige E‑Klausuren über Exam.UP angeboten wurden. Etwa die Hälfte der Klausuren, bei denen die Lehrenden eine Teilnahmebereitschaft bekundeten, konnte uns die Studierendenergebnisse sowie eine Bewertung der ChatGPT-Antworten für offene Fragen liefern.
Tab. 1
Verteilung der Verfügbarkeit und Teilnahme von E‑Klausuren für das Sommersemester 2022 und das Wintersemester 2022/23 nach Fächern
Fachbereiche der Klausuren
#angefragte Klausuren
#zugesagte Klausuren
#Klausuren mit vollständigen Daten
Sozialwissenschaften
44
4
2
Erziehungswissenschaften
31
9
9
Sprachwissenschaften
27
12
1
Psychologie
27
4
4
Wirtschaftswissenschaften
9
2
2
Mathematik/Statistik
7
4
1
Informatik
6
4
1
Geowissenschaften/Umweltwissenschaften
4
2
2
Biologie
2
0
0
Medizin
1
0
0
Gesamt
158
41
22
Die endgültige Stichprobe bestand aus 22 Klausuren, die auf Bachelor- und Master-Niveau in 12 Kursen von 11 Dozierenden durchgeführt wurden. Während die meisten Klausuren in den Jahren 2022 und 2023 stattfanden, wurde eine Prüfung bereits im Jahr 2020 durchgeführt. Tab. 2 zeigt die Zusammensetzung der Klausurenstichprobe, wobei die Fächer näher spezifiziert sind. Da einige Kurse mehr als eine Klausur beinhalteten, unterscheiden wir in der Übersicht zwischen der Anzahl der Kurse und Klausuren. Die Anzahl der Klausurfragen bezieht sich auf die Anzahl der geschlossenen und/oder offenen Fragen innerhalb jeder Klausur. Die Anzahl der Studierenden bezieht sich auf die Anzahl der Studierenden mit den Klausurergebnissen in den bereitgestellten anonymisierten Daten. Ein Großteil der Klausuren steht in direktem oder indirektem Zusammenhang mit Erziehungswissenschaften. Obwohl im Bereich der Erziehungswissenschaften neun, und in der Psychologie vier Klausuren verzeichnet wurden, stammen diese jeweils nur aus zwei Kursen. Somit umfasst die Stichprobe maximal zwei Kurse pro Fach für die E‑Klausuren des Sommersemesters 2022 und des Wintersemesters 2022/23, mit Ausnahme der Fächer Biologie und Medizin. Die breite Streuung in der Frageanzahl sowie in der Zahl der teilnehmenden Personen, die die Datenbasis für den Vergleich zwischen Studierenden und ChatGPT‑3.5 liefert, unterstreicht die Heterogenität der Klausuren. Die hohen Anzahlen an Studierenden in den Fachbereichen Erziehungswissenschaften, Psychologie und Wirtschaftsinformatik lassen sich dadurch erklären, dass die Klausuren hier aus Grundlagenmodulen kamen, die von allen Studierenden der Fachbereiche besucht werden müssen. Klausuren in Sprachwissenschaften und Geowissenschaften, weisen eine eher geringe Anzahl von Teilnahmen auf, was bei der Interpretation der Ergebnisse berücksichtigt werden muss.
Tab. 2
Übersicht der endgültigen Stichprobe nach Fächern, 22 Klausuren aus 12 Kursen
Fachbereiche der Klausuren
#Kurse
#Klausuren
#Klausurfragen
#Studierende, die die Klausur abgeschlossen haben
Sozialwissenschaften
2
2
56
203
Erziehungswissenschaften
2
9
401
969
Sprachwissenschaften (mit dem Fokus auf Erziehungswissenschaften)
1
1
17
16
Psychologie (mit dem Fokus auf Erziehungswissenschaften)
2
4
210
700
BWL
2
2
107
384
Mathematik
1
1
6
65
Informatik
1
1
40
57
Agrarökologie
1
2
49
31
Gesamt
12
22
886
2425

Design und Analyse

Im Mittelpunkt dieser Studie steht der Vergleich der Klausurergebnisse von ChatGPT‑3.5 mit denen der Studierenden. Dafür haben zwischen Mai und September 2023 fünf studentische Hilfskräfte die Texte der Klausurfragen kopiert und in ChatGPT‑3.5 eingefügt. Die generierten Antworten von ChatGPT‑3.5 wurden dann auf Exam.UP eingetragen. Zur Wahrung der Vertraulichkeit der Prüfungsinhalte unterzeichneten alle beteiligten Hilfskräfte eine Geheimhaltungsvereinbarung.
Unterschiedliche Prompting-Strategien können die Antworten von ChatGPT‑3.5 maßgeblich verändern (siehe Beitrag  „Prompt-Engineering zur Generierung von Sprachlerninhalten“ von Leo Rüdian und Niels Pinkwart im Themenheft). Zum Zeitpunkt der Studie und aufgrund einer begrenzten Anzahl von studentischen Hilfskräften war es nicht möglich, systematisch verschiedene Prompting-Strategien und fachspezifische Kenntnisse zu kontrollieren. Daher richteten wir unseren Fokus darauf, dass GPT‑3.5‑Basis-Szenario mit möglichst geringem menschlichem Einfluss mit den Ergebnissen der Studierende zu vergleichen: welche Prüfungsergebnisse Studierende erreichen können, ohne über spezifisches Fachwissen und Prompting-Strategien zu verfügen, während sie die kostenlose Version von ChatGPT‑3.5 für eine digitale Prüfung einsetzen. Obwohl es für Studierende in unseren Vergleichsdaten potenziell möglich war, im Wintersemester 2022/23 ChatGPT oder ähnliche LLM-Tools zu nutzen, gehen wir davon aus, dass die tatsächliche Nutzung aufgrund begrenzter Bekanntheit und Verbreitung minimal war. Durch anekdotische Berichte begannen wir jedoch ab Sommer 2023 von Lehrenden zu hören, dass Studierende LLM-Tools für Prüfungen zu nutzen begannen.
Vor dem Hintergrund der beschriebenen Schwerpunkte und Annahmen wurde die Studie wie folgt organisiert und durchgeführt:
  • Fünf studentische Hilfskräfte (SHK) mit Studienschwerpunkten in Chemie, Geoökologie, Soziologie/Volkswirtschaftslehre und Informatik wurden den Klausuren zugeteilt, sodass die SHKs fachfremd zu den jeweiligen Klausuren waren.
  • Da LLMs auf stochastischen Modellen beruhen, geben sie bei wiederholter, gleicher Eingabe nicht die exakt gleichen Antworten aus [13]. Um einen Eindruck zu bekommen, wie sehr die Antworten voneinander abweichen, beantworteten drei unterschiedliche Studierende jeweils die Klausuren mit ChatGPT‑3.5.
  • Um ein möglichst einheitliches Vorgehen bei der Bearbeitung der Klausuraufgaben zu gewährleisten, hielten sich die SHKs an ein standardisiertes Protokoll, das aus 18 detaillierten Schritten bestand [14].
  • Zum Zeitpunkt der Durchführung der Studie war die Verfügbarkeit der kostenlosen Version von ChatGPT‑3.5 häufig aufgrund hoher Nutzung und begrenzter Serverkapazität unterbrochen, was bedeutete, dass die Zeit, die studentische Hilfskräfte für die Interaktion mit ChatGPT benötigten, variieren konnte. Daher entschieden wir uns, für die Studie keine Zeitbegrenzung oder Zeiterfassung zu verwenden. Dies unterscheidet sich von einigen realen Prüfungsszenarien.
  • Jede Woche wurde mit den SHKs in Online-Meetings exploriert, was für Schwierigkeiten bei der Einhaltung des Protokolls aufgekommen sind also auch wo ChatGPT‑3.5 schwierig zu nutzen war. Am Ende der Studie wurde eine Fokusgruppe mit vier der fünf studentischen Hilfskräfte durchgeführt. Durch dieses Vorgehen mit regelmäßigem und systematischem Feedback, haben wir Erkenntnisse über den Prozess der Klausurbeantwortung bekommen, die durch einen (teil-)automatisierten Vorgang mit Nutzung der ChatGPT-API nicht erzeugt worden wären.
  • Um den Prozess auf der Ebene der Fragen zu dokumentieren, haben wir ein Begleitformular erstellt [14], in das die studentischen Hilfskräfte Informationen darüber eingetragen haben, wie sie Fragen oder Prompts eingegeben haben und welche Antworten ChatGPT‑3.5 generiert hat. Zudem haben sie angegeben, ob es möglich war, Fragen in ChatGPT und Antworten in die Klausur eins zu eins zu übertragen.
  • Da die angegebenen Fragetypen in Moodle (also auch in Exam.UP) nicht die endgültige Frageart darstellen müssen, nutzten wir ein eigenes Begleitformular. Im Begleitformular musste jede Frage von den studentischen Hilfskräften entsprechend ihres technischen Merkmals klassifiziert werden, sodass jeder Frage mehrere Merkmale zugeordnet werden konnten. Zu den Frage-Features, die wir verwendet haben, gehörten Radiobutton, Checkbox, Dropdown, Eingabefeld, WYSIWYG-Editor und Drag-and-drop [14].
  • Die offenen Fragen wurden von den Lehrenden bewertet, wobei zu berücksichtigen ist, dass ihnen bekannt war, dass die Antworten von GPT‑3.5 stammten; ein Blindverfahren kam nicht zur Anwendung.
Wir haben bei der Analyse unserer Daten deskriptive Statistiken und Visualisierungen verwendet. Wir entschieden uns gegen die Verwendung von Inferenzstatistik, da unsere Stichprobe nicht repräsentativ ist. Zusätzlich wollten wir die Ergebnisse (für konkrete Klausuren ohne Verallgemeinerungen) mit den Dozierenden diskutieren und sicherstellen, dass sie auch für Personen ohne statistischen Hintergrund leicht interpretierbar sind.

Ergebnisse

Tab. 3 zeigt die Klausurergebnisse von ChatGPT‑3.5 und den Studierenden nach Fachbereichen. Um die Ergebnisse verschiedener Klausuren vergleichen zu können, haben wir die Klausurergebnisse als Prozentsatz der maximal möglichen Punktzahl dargestellt. Somit entsprechen sowohl 100 von 100 als auch 20 von 20 Punkten einem Ergebnis von 100 %. Dabei sollte beachtet werden, dass bei Klausuren mit wenigen Fragen, insbesondere in Fachbereichen wie Mathematik und Sprachwissenschaften, jede inkorrekte Antwort deutlich stärker ins Gewicht fällt, als bei Klausuren mit einer umfangreicheren Frageanzahl.
Tab. 3
Deskriptive Statistiken zum Vergleich der Medianwerte und Verteilung von Klausurergebnissen zwischen ChatGPT‑3.5 und Studierenden nach Fachbereichen
Fachbereiche der Klausuren
MGPT
MSuS
EGPT
ESuS
Q1
Q3
IQR
Sozialwissenschaften
47,4
79,3
37,2/64
35,4/100
65,8
86
20,2
Erziehungswissenschaften
41,6
65,9
21,2/48
11,7/98,6
54,6
76,4
21,8
Sprachwissenschaften
27,4
71,1
25,3/32,7
47,1/90,8
67,1
79,8
12,7
Psychologie
59,6
66,9
50,7/67,5
21,1/95
57,3
77,8
20,6
BWL
58
61,8
51/65,2
19,2/90,3
52,4
68,8
16,4
Mathematik
77
62
51/83
8/100
50
80
30
Informatik
47,1
76,2
44,5/50,6
40,5/96
62,5
85
22,5
Agrarökologie
46,5
64,8
40,2/52,5
42,3/82,2
57,2
73
15,8
MGPT Median der Ergebnisse von ChatGPT‑3.5, MSuS Median der Ergebnisse der Studierenden, EGPT Extreme (Min/Max) der Ergebnisse von ChatGPT‑3.5, ESuS Extreme (Min/Max) der Ergebnisse der Studierenden, Q1(3) Ein Viertel der Ergebnisse der Studierenden lag unter (über) dieser Prozentzahl der Gesamtpunktzahl, IQR Die Hälfte der Ergebnisse sind in diesem Abstand gestreut (Q3–Q1).
Die Medianwerte nach Fachbereichen zeigen, dass Studierende in den meisten Fächern ChatGPT‑3.5 übertroffen haben. In den Fächern Psychologie und BWL lagen die Medianwerte nahe beieinander, wobei die Studierenden leicht besser abschnitten. Nur bei der Mathematikklausur war der Medianwert von ChatGPT‑3.5 höher als der der Studierenden, die eine sehr hohe Streuung der Klausurergebnisse aufwiesen.
Abb. 1 präsentiert Ergebnisse von Studierenden und ChatGPT‑3.5 für jede Klausur nach Fachbereichen. Die Ergebnisse der Studierenden sind mittels Boxplots dargestellt, während die drei individuellen Ergebnisse von ChatGPT‑3.5 als rote Dreiecke hervorgehoben werden. Die Abbildung verdeutlicht, dass die Ergebnisse von ChatGPT‑3.5, bis auf wenige Ausnahmen, durch eine geringe Streuung gekennzeichnet sind. Ausnahmen bilden einzelne Klausuren in den Sozialwissenschaften, Erziehungswissenschaften und in Mathematik. Die Gründe für diese größere Streuung variieren. Eine Überprüfung der Begleitformulare offenbart, dass ChatGPT‑3.5 bei den Klausuren für Erziehungswissenschaften und Sozialwissenschaften unterschiedliche Antworten auf Checkbox- und WYSIWYG-Fragen lieferte. Bei der Mathematikklausur kam es zu einem Fehler bei der Eingabe einer Frage in ChatGPT‑3.5 durch eine studentische Hilfskraft. Die Streuung der Ergebnisse der Studierende, einschließlich der mittleren 50 % der Daten sowie des Medianwerts, deutet auf unterschiedliche Schwierigkeitsgrade der Klausuren hin. Klausuren in den Erziehungswissenschaften, Psychologie, Sozialwissenschaften und Agrarökologie wurden von ähnlichen Studierendengruppen abgelegt, doch während sich das Schwierigkeitsniveau für die Studierenden unterscheidet, entspricht dies nicht den Differenzen bei GPT‑3.5.
In drei Klausuren in den Fächern Mathematik, BWL und Psychologie erzielte mindestens ein Ergebnis von GPT‑3.5 höher als 50 % der Studierenden. Jedoch erreichte ChatGPT‑3.5 bei elf Prüfungen mindestens 50 %, was in den meisten Fällen ausreichen würde, um die Prüfung zu bestehen. Bei Klausuren in Sprachwissenschaften, Erziehungswissenschaften, und einer Klausur in Sozialwissenschaften konnte ChatGPT‑3.5 die 50 %-Marke nicht erreichen.
In unserem Design haben wir ein standardisiertes Protokoll verwendet, das die Interpretation der Fragen und Antworten durch die studentischen Hilfskräfte minimierte. Um zu sehen, wie sehr ein solches Design die Ergebnisse von ChatGPT‑3.5 beeinflussen könnte, baten wir dieselben fachfremden studentischen Hilfskräfte, die Klausur für Informatik erneut durchzuführen, wobei sie sich nicht an das Protokoll halten mussten und Freiheit in der Interpretation von Fragen und Antworten sowie beim Prompting hatten. Die ersten Versuchsergebnisse mit Protokoll waren 50,6, 44,5, 47,1. Der zweite Versuch ergab 64,3, 59,5, 64,1, was darauf hindeutet, dass die ChatGPT‑3.5 Ergebnisse unserer Studie eher konservativ sind und wahrscheinlich in einem realistischen Szenario höher ausfallen würden.
Als nächsten Schritt haben wir die Unterschiede in den Ergebnissen von ChatGPT‑3.5 im Vergleich zu den Studierenden bezüglich verschiedener Frage-Features untersucht, die für jede Klausur manuell von studentischen Hilfskräften kodiert wurden. Da ChatGPT‑3.5 keine Bilderkennung unterstützte, haben wir alle Fragen mit Bildern entfernt, was in der endgültigen Stichprobe von 820 klassifizierten Fragen resultierte. Es ist jedoch wichtig anzumerken, dass einige Klausuren nicht über eine Vielfalt von Frage-Features verfügten. Die eingeschränkte Vielfalt an Frage-Features erschwert es, die Effekte von Klausuren (Fachgebiete und Frageformulierungen) von den Frage-Features zu trennen. Wie in Tab. 4 dargestellt, dominierte Checkbox als meistgenutztes Frage-Feature.
Tab. 4
Anzahl der Frage-Features (ohne Bilder) nach Fachbereichen
Fachbereiche der Klausuren
Dropdown
Drag-and-drop
WYSIWYG
Eingabefeld
Checkbox
Radio Button
Gesamt
Sozialwissenschaften
5
3
5
4
17
11
45
Erziehungswissenschaften
2
3
0
1
382
19
407
Sprachwissenschaften
8
1
3
1
3
0
16
Psychologie
0
0
5
0
127
27
159
BWL
0
0
2
20
50
35
107
Mathematik
0
0
6
0
0
0
6
Informatik
4
1
5
8
0
13
31
Agrarökologie
1
16
8
1
23
0
49
Gesamt
20
24
34
35
602
105
820
Abb. 2 zeigt die Ergebnisse der Studierenden im Vergleich zu denen von ChatGPT‑3.5 für jedes Frage-Feature.
Die Resultate von ChatGPT‑3.5 wiesen bei allen Frage-Features eine hohe Varianz auf, mit Ausnahme von Dropdown- und Drag-and-drop-Fragen. Dies lässt sich durch unser Untersuchungsdesign erklären: Studentische Hilfskräfte sollten die Fragen aus den Klausuren und die Antworten von ChatGPT‑3.5 so genau wie möglich übertragen, was bei Dropdown- und Drag-and-drop-Fragen besonders herausfordernd war. Bei anderen Frage-Features variieren die Ergebnisse von ChatGPT‑3.5 stark. Obwohl ChatGPT‑3.5 im Vergleich zu den Studierenden bei den meisten Checkbox-Fragen schlechtere Ergebnisse erzielte, ist zu bedenken, dass ein Großteil dieser Fragen aus Klausuren der Erziehungswissenschaften stammt, in denen ausschließlich Checkboxen verwendet wurden. Dies kompliziert die Differenzierung zwischen dem Einfluss von Frage-Feature und dem des Frageinhalts. Die Rückmeldungen sowohl aus einer Fokusgruppe als auch aus den Begleitformularen bestätigten, dass die spezifische Natur von Dropdown- und Drag-and-drop-Fragen eine exakte Übertragung von Fragen und Antworten erschwerte.

Diskussion & Fazit

Diese Studie bietet einen differenzierten Einblick in die Leistung und Grenzen des Einsatzes von ChatGPT‑3.5 im Kontext akademischer Assessments. Da wir ein Basisszenario der Nutzung von ChatGPT‑3.5 verwendet haben, ohne Interpretationen oder zusätzliches Prompting zuzulassen, ist es nicht sehr überraschend, dass Studierende ChatGPT‑3.5 in einem breiten Spektrum von Fächern im Durchschnitt übertroffen haben. Allerdings war das einfache Kopieren und Einfügen von Antworten in ChatGPT‑3.5 ausreichend, um die Hälfte der Klausuren in sieben von zwölf Kursen zu bestehen. Die Fallstudie in Informatik zeigt, dass mit nuancierten Prompting- und Interpretationsstrategien die Leistung von ChatGPT‑3.5 deutlich verbessert werden könnte, was darauf hindeutet, dass Studierende mit mehr Wissen (in den Fächern und beim Prompting) voraussichtlich bessere Ergebnisse erzielen könnten (siehe auch Beitrag 4 „Prompt-Engineering zur Generierung von Sprachlerninhalten“ von Leo Rüdian und Niels Pinkwart) und die von uns berichteten Ergebnisse als konservativ einzuschätzen sind.
Zum Zeitpunkt der Veröffentlichung wurden die Ergebnisse mit den Dozent*innen für 11 von 12 Kursen besprochen. Der Fokus lag auf der Präsentation detaillierter Ergebnisse für einzelne Klausuren und der Sammlung von Feedback sowie persönlichen Einsichten der Dozent*innen. Die Stimmung während dieser Treffen war geprägt von Interesse und Überraschung, insbesondere hinsichtlich der als gut oder schlecht wahrgenommenen ChatGPT-Prüfungsergebnisse, die während dieser Sitzungen präsentiert wurden. In den Gesprächen konnten verschiedene Herausforderungen ausgemacht werden, mit denen sich die betroffenen Lehrpersonen im Kontext von LLMs konfrontiert sehen. So wurde als ein Hauptproblem das fehlende Wissen über die Funktionsweise und den Nutzen von KI-Tools bei Studierenden und Lehrpersonen identifiziert. Dadurch kann ähnlich wie im Beitrag  „Was alle über Künstliche Intelligenz wissen sollen und wie KI-bezogene Kompetenzen in der Schule entwickelt werden können – weiterführende Überlegungen zum GI-Positionspapier ‚Künstliche Intelligenz in der Bildung‘“ von Daniel Losch, Tilman Michaeli, Simone Opel, Peer Stechert, Steffen Jaschke, Stefan Seegerer und Ute Schmid des Themenhefts angeraten werden, E‑Prüfungen gemeinsam mit Expert*innen zu entwickeln, um mögliche Auswirkungen einer LLM-Nutzung bei der Prüfung abschätzen zu können. Zudem wurde festgestellt, dass die Prüfungen von Grundlagenwissen für LLMs oft leicht zu beantworten sind. Gleichzeitig wurde die Sicherstellung der Vermittlung von Grundlagenwissen als eine wichtige Voraussetzung für ein erfolgreiches Studium identifiziert, weshalb hier eine klare Lösung dringend notwendig wäre. Ein ähnliches Problem zeigt sich bei Haus- und Abschlussarbeiten, die ebenfalls oft einen starken Fokus auf die Abfrage von Grundlagenwissen haben.
Einerseits können die Ergebnisse der Studie als ein Problem für universitäres Assessment interpretiert werden. Sie stellen eine Herausforderung für die akademische Integrität dar und erfordern den Einsatz von Assessment-Strategien, die die Fähigkeiten von LLMs effektiv nutzen können, während sie gleichzeitig vor ihrem Missbrauch schützen. Dies kann insbesondere für große Einführungskurse problematisch sein, wo Assessment durch Logistik (nicht genügend Platz in PC-Laboren) und mangelndes Lehrpersonal (es kann ein Problem sein, mündliche Prüfungen für eine große Anzahl von Studierenden einzuführen) begrenzt sind. Ein weiterer wichtiger Problemfaktor für Studierende ist, wer Zugang zu LLM-Werkzeugen hat und die erforderlichen Kompetenzen zum Umgang mit diesen Werkzeugen besitzt, da dies bestehende Disparitäten in den Bildungsmöglichkeiten verstärken könnte. Angesichts erster Forschungsergebnisse [15] liegt die Vermutung nahe, dass das Bewusstsein und die Nutzung von LLM-Tools mit den sozioökonomischen Merkmalen der Studierende korrelieren könnte.
Andererseits, wie bereits einige Arbeiten angedeutet haben, könnte eine gute Leistung von ChatGPT‑3.5 in Prüfungen als Indikator für mögliche Innovationen beim On-demand Tutoring durch interaktive Bildungstechnologien interpretiert werden. Diese könnten Studierenden helfen, besser zu lernen, indem ihnen jederzeit ein AI-Tutor zur Verfügung steht, der sie bei Problemen oder Hürden unterstützt. Vor allem immer dann, wenn ein menschlicher Tutor nicht verfügbar ist. So bietet momentan die Khan Academy mit Khanmigo einen jederzeit verfügbaren AI-Tutor an, der Lerner beispielsweise als Schreibtrainer unterstützt [16]. Auch bei Menschen mit (Seh‑)Behinderungen können LLMs in Kombination mit Technologien, wie Speech-to-Text und Text-to-Speech dafür genutzt werden, um eine inklusive Lernumgebung durch die Gewährleistung angemessener Unterstützung bei Aufgaben wie adaptives Schreiben, Übersetzen und dem Hervorheben wichtiger Inhalte zu schaffen [7].
Obwohl die Studie Limitationen beim Arbeiten mit Dropdown- und Drag-and-drop-Frage-Features aufzeigte, sind diese Einschränkungen seit der Veröffentlichung von ChatGPT‑4.0 nicht mehr relevant. Neben der Tatsache, dass es sich um ein stärkeres Modell handelt, bietet ChatGPT‑4.0 ein multimodales Design, was eine neue Reihe von Herausforderungen und Möglichkeiten für Assessment (siehe Beitrag 6 „Using artificial intelligence to score free-text student answers“ von Marie Bexte, Andrea Horbach und Torsten Zesch) und Lehre eröffnet. Von diesem Standpunkt aus halten wir es für sinnvoll, LLMs über die rein technische Ebene hinaus zu beleuchten und nicht nur durch technische Lösungen das Verwenden von LLMs zu verhindern oder zumindest zu erschweren. Hier droht eine endlose Materialschlacht, ähnlich dem Kampf von Spam-Detektoren gegen Spam-Bots, die nie gewonnen werden kann. Stattdessen empfehlen wir die Orientierung an Empfehlungen, wie von [11]:
„We must reinvent homework and develop teaching concepts that utilize these AI models in the same way as math utilizes the calculator: teach the general concepts first and then use AI tools to free up time for other learning objectives.“
Auch wenn es Bereiche gibt, in denen generative KI dem Menschen mindestens ebenbürtig ist, bleibt es weiterhin sinnvoll, grundlegende Fähigkeiten, wie grundlegende Lese‑, Schreib- und Rechenfertigkeiten sowie grundlegende wissenschaftliche Kenntnisse zu vermitteln. Der Umfang und die Art dieser Fähigkeiten müssen jedoch regelmäßig überprüft werden (vgl. [17]). Zudem bedeutet die Tatsache, dass ChatGPT in Prüfungen, die hauptsächlich auf Theorie basieren, gute Leistungen erbringen kann, nicht, dass ChatGPT die jeweiligen Aufgaben auch in der Praxis ausführen kann. Hierbei sollten sich Lehrpersonen unbedingt an Kompetenzmodellen orientieren, die Lernziele, Lehr‑/Lernaktivitäten und Prüfen im Sinne eines Constructive Alignment verbinden. Also müssen wir darüber reflektieren, was wir lehren und was wir prüfen wollen. Denn erst, wenn wir uns über den Zweck unserer Lehre und den dazugehörigen Prüfungen im Klaren sind, können wir entscheiden, wie neue Technologien, zum Beispiel LLMs, sinnvoll in diese integriert werden können. Schlussendlich kann dies alles nie ein abgeschlossener Prozess sein, sondern muss regelmäßig wiederholt und aktualisiert werden. Zu diesem Zweck denken wir, dass es sinnvoll wäre, Untersuchungen, wie jene, die in dieser Arbeit durchgeführt wurde, regelmäßig über verschiedene Disziplinen hinweg zu wiederholen. So könnte in zukünftigen Iterationen gezielter auf Prompting-Strategien, die Anwendung von Fachwissen oder gar gänzlich neue KI-Technologien eingegangen werden.

Interessenkonflikt

T. Moebert, E. Samoilova und A. Wiepke geben an, dass kein Interessenkonflikt besteht.
Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://​creativecommons.​org/​licenses/​by/​4.​0/​deed.​de.

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.

Our product recommendations

Informatik-Spektrum

Hauptaufgabe dieser Zeitschrift ist die Publikation aktueller, praktisch verwertbarer Informationen über technische und wissenschaftliche Fortschritte aus allen Bereichen der Informatik und ihrer Anwendungen in Form von Übersichtsartikeln und einführenden Darstellungen sowie Berichten über Projekte und Fallstudien, die zukünftige Trends aufzeigen.

Literature
6.
go back to reference I. Buck, A. Limburg, Hochschulbildung vor dem Hintergrund von Natural Language Processing (KI-Schreibtools). Ein Framework für eine zukunftsfähige Lehr- und Prüfungspraxis, vol. 9. wbv Publikation. https://doi.org/10.3278/hsl2306w. I. Buck, A. Limburg, Hochschulbildung vor dem Hintergrund von Natural Language Processing (KI-Schreibtools). Ein Framework für eine zukunftsfähige Lehr- und Prüfungspraxis, vol. 9. wbv Publikation. https://​doi.​org/​10.​3278/​hsl2306w.
10.
go back to reference A. Gilson et al., “How Does ChatGPT Perform on the United States Medical Licensing Examination? The Implications of Large Language Models for Medical Education and Knowledge Assessment,” JMIR Medical Education, vol. 9. JMIR Publications Inc., p. e45312, Feb. 08, 2023. https://doi.org/10.2196/45312. A. Gilson et al., “How Does ChatGPT Perform on the United States Medical Licensing Examination? The Implications of Large Language Models for Medical Education and Knowledge Assessment,” JMIR Medical Education, vol. 9. JMIR Publications Inc., p. e45312, Feb. 08, 2023. https://​doi.​org/​10.​2196/​45312.
17.
go back to reference Holmes W, Miao F, Unesco (2023) Guidance for generative AI in education and research. UNESCO Holmes W, Miao F, Unesco (2023) Guidance for generative AI in education and research. UNESCO
Metadata
Title
ChatGPT-3.5 im Hochschul-E-Assessment: Prüfungsleistung, akademische Integrität und zukünftige Bewertungsansätze
Authors
Tobias Moebert
Evgenia Samoilova
Axel Wiepke
Publication date
23-09-2024
Publisher
Springer Berlin Heidelberg
Published in
Informatik Spektrum
Print ISSN: 0170-6012
Electronic ISSN: 1432-122X
DOI
https://doi.org/10.1007/s00287-024-01575-x

Premium Partner