Zum Thema Evaluation von Large Language Models habe ich einen Aufsatz gefunden, der verschiedene LLMS in Bezug auf den Gegenstand von Evaluationen analysiert (A Survey on Evaluation of Large Language Models von Chang et. al.). Es werden darin Fächer als auch Themen behandelt und auf die Qualität bezogen auf verschiedene LLMs bzw. deren Evaluationen eingegangen. Gegenstand von Evaluationen sind:
- klassische NLP-Aufgaben wie z.B. „semantic understanding“
- Reasoning
- Natural language generation: Dazu zählen Zusammenfassungen, Dialogaufgaben, Übersetzungen und die Beantwortung von Fragen
- multilingual capacities: Hier wird angemerkt, dass LLMs bezogen auf nicht lateinische Sprachen limitiert sind.
- Faktentreue: In einer Untersuchung ergab das Maximum an Faktentreue von GPT-4 und Bing Chat ca. 80%. Außerdem trägt eine Erhöhung der Modellgröße nicht zu einer Verbesserung dieses Kriteriums bei.
- Robustness, Ethics, Bias, Trustworthyness: Robustness bezieht sich auf die Stabilität eines LLMs bei so genannten „adversarial“ inputs. Hier sind LLMs derzeit noch nicht ausreichend stabil. Hinsichtlich Ethics & Bias weisen LLMs hier Befunde auf und in dem Aufsatz wird darauf hingewiesen, dass es sich dabei um Risiken handelt, die die Anwendung von LLMs einschränkt bzw. verhindert. Trustworthyness bezieht sich auf die Konsistenz von LLMs, die im Allgemeinen relativ leicht erschüttert werden kann.
Darüber hinaus werden unterschiedliche Fachbereiche behandelt:
- social sciences
- natural science and engineering
- …
educational assistance
Die Autor*innen gehen auch auf den Bildungsbereich ein und sehen für LLMs große Potenziale. Näher betrachtet wird das Feld der „educational assistance“.
Bezug genommen wird auf folgende Publikationen:
Wei Dai, Jionghao Lin, Flora Jin, Tongguang Li, Yi-Shan Tsai, Dragan Gasevic, and Guanliang Chen. 2023. Can large language models provide feedback to students? a case study on chatgpt. (2023). Hier wird die Qualität von Feedback, das ChatGPT gibt, untersucht. Die Hauptfragen, die hier gestellt wurden, sind, ob das von ChatGPT generierte Feedback lesbar ist, inwieweit es vom Lehrenden-Feedback abweicht und ob das Feedback effektive Lernhinweise enthält. Bezüglich der Lesebarkeit erzielte ChatGPT gute Werte, das Feedback lag jedoch häufig nicht auf einer Linie mit Lehrenden-Feedback. Effektive Lernhinweise enthielt es vor allem bezogen auf den Lernprozess.
Rose E Wang and Dorottya Demszky. 2023. Is ChatGPT a Good Teacher Coach? Measuring Zero-Shot Performance For Scoring and Providing Actionable Insights on Classroom Instruction. arXiv preprint arXiv:2306.03090 (2023).
Die Untersuchung benutzt einen Transkriptions-Datensatz aus 4. und 5. Klassen mit Mathematik-Unterricht anUS-Schulen. Diese Transkriptionen wurden bewertet, einmal anhand des Classroom Assessment Scoring System (CLASS) und anhand des Mathematical Quality Instruction (MQI). Diese Instrumente arbeiteten mit bestimmten Qualitätskriterien, z.B. Lehrendenunterstützung oder die Qualität der mathematischen Erklärungen. An ChatGPT (Version 3.5) wurden verschiedene Aufgaben gestellt: Bewertung von Transkriptionen anhand der Klassifikationsmodelle CLASS und MQI, Identifizieren von guten und schlechten Beispielen anhand der CLASS- und MQI-Elemente, Vorschläge entwickeln, um mathematisches Denken anzustoßen. Die Ergebnisse der an ChatGPT gerichteten Aufgaben wurden mit den menschlichen Resultaten verglichen bzw. wiederum von menschlichen Prüfern kriteriengeleitet bewertet. Die Auswertung ist sozusagen ernüchternd; es ergaben sich nur geringe Übereinstimmungen zwischen den Bewertungen von ChatGPT und vorliegenden Bewertungen. Auch wurden die Beispiele und Vorschläge als nicht so hilfreich und neu eingestuft.
Die Evaluationslandschaft zu LLMs wird noch ergänzt durch einen Überblick zu Datensätzen und Benchmarks und zukünftigen Forschungsansätzen. Insgesamt vermittelt der Aufsatz einen breiten Einblick in existierende Arbeiten zu Evalution & LLMs.
Als Erster einen Kommentar schreiben