{"id":2262,"date":"2024-02-12T18:41:17","date_gmt":"2024-02-12T17:41:17","guid":{"rendered":"https:\/\/www.k-braungardt.de\/blogkb\/?p=2262"},"modified":"2024-02-12T18:48:40","modified_gmt":"2024-02-12T17:48:40","slug":"ueberblick-zur-evaluation-von-large-language-models","status":"publish","type":"post","link":"https:\/\/www.k-braungardt.de\/blogkb\/?p=2262","title":{"rendered":"\u00dcberblick zur Evaluation von Large Language Models"},"content":{"rendered":"\n<p>Zum Thema Evaluation von Large Language Models habe ich einen Aufsatz gefunden, der verschiedene LLMS in Bezug auf den Gegenstand von Evaluationen analysiert (<a rel=\"noreferrer noopener\" href=\"https:\/\/arxiv.org\/abs\/2307.03109\" data-type=\"link\" data-id=\"https:\/\/arxiv.org\/abs\/2307.03109\" target=\"_blank\">A Survey on Evaluation of Large Language Models von Chang et. al.<\/a>). Es werden darin F\u00e4cher als auch Themen behandelt und auf die Qualit\u00e4t bezogen auf verschiedene LLMs bzw. deren Evaluationen eingegangen. Gegenstand von Evaluationen sind:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>klassische NLP-Aufgaben wie z.B. &#8222;semantic understanding&#8220;<\/li>\n\n\n\n<li>Reasoning<\/li>\n\n\n\n<li>Natural language generation: Dazu z\u00e4hlen Zusammenfassungen, Dialogaufgaben, \u00dcbersetzungen und die Beantwortung von Fragen<\/li>\n\n\n\n<li>multilingual capacities: Hier wird angemerkt, dass LLMs bezogen auf nicht lateinische Sprachen limitiert sind.<\/li>\n\n\n\n<li>Faktentreue: In einer Untersuchung ergab das Maximum an Faktentreue von GPT-4 und Bing Chat ca. 80%. Au\u00dferdem tr\u00e4gt eine Erh\u00f6hung der Modellgr\u00f6\u00dfe nicht zu einer Verbesserung dieses Kriteriums bei. <\/li>\n\n\n\n<li>Robustness, Ethics, Bias, Trustworthyness: Robustness bezieht sich auf die Stabilit\u00e4t eines LLMs bei so genannten &#8222;adversarial&#8220; inputs. Hier sind LLMs derzeit noch nicht ausreichend stabil. Hinsichtlich Ethics &amp; Bias weisen LLMs hier Befunde auf und in dem Aufsatz wird darauf hingewiesen, dass es sich dabei um Risiken handelt, die die Anwendung von LLMs einschr\u00e4nkt bzw. verhindert. Trustworthyness bezieht sich auf die Konsistenz von LLMs, die im Allgemeinen relativ leicht ersch\u00fcttert werden kann.<\/li>\n<\/ul>\n\n\n\n<p>Dar\u00fcber hinaus werden unterschiedliche Fachbereiche behandelt:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>social sciences<\/li>\n\n\n\n<li>natural science and engineering<\/li>\n\n\n\n<li>&#8230;<\/li>\n<\/ul>\n\n\n\n<p><em><strong>educational assistance<\/strong><\/em><br>Die Autor*innen gehen auch auf den Bildungsbereich ein und sehen f\u00fcr LLMs gro\u00dfe Potenziale. N\u00e4her betrachtet wird das Feld der &#8222;educational assistance&#8220;.<\/p>\n\n\n\n<p>Bezug genommen wird auf folgende Publikationen: <\/p>\n\n\n\n<p><strong><a href=\"https:\/\/www.researchgate.net\/publication\/370228288_Can_Large_Language_Models_Provide_Feedback_to_Students_A_Case_Study_on_ChatGPT\">Wei Dai, Jionghao Lin, Flora Jin, Tongguang Li, Yi-Shan Tsai, Dragan Gasevic, and Guanliang Chen. 2023. Can large language models provide feedback to students? a case study on chatgpt. (2023<\/a>).<\/strong> Hier wird die Qualit\u00e4t von Feedback, das ChatGPT gibt, untersucht. Die Hauptfragen, die hier gestellt wurden, sind, ob das von ChatGPT generierte Feedback lesbar ist, inwieweit es vom Lehrenden-Feedback abweicht und ob das Feedback effektive Lernhinweise enth\u00e4lt. Bez\u00fcglich der Lesebarkeit erzielte ChatGPT gute Werte, das Feedback lag jedoch h\u00e4ufig nicht auf einer Linie mit Lehrenden-Feedback. Effektive Lernhinweise enthielt es vor allem bezogen auf den Lernprozess.<\/p>\n\n\n\n<p><strong>Rose E Wang and Dorottya Demszky. 2023. Is ChatGPT a Good Teacher Coach? Measuring Zero-Shot Performance For Scoring and Providing Actionable Insights on Classroom Instruction. arXiv preprint arXiv:2306.03090 (2023). <\/strong><br>Die Untersuchung benutzt einen Transkriptions-Datensatz aus 4. und 5. Klassen mit Mathematik-Unterricht anUS-Schulen. Diese Transkriptionen wurden bewertet, einmal anhand des Classroom Assessment Scoring System (CLASS) und anhand des Mathematical Quality Instruction (MQI). Diese Instrumente arbeiteten mit bestimmten Qualit\u00e4tskriterien, z.B. Lehrendenunterst\u00fctzung oder die Qualit\u00e4t der mathematischen Erkl\u00e4rungen. An ChatGPT (Version 3.5) wurden verschiedene Aufgaben gestellt: Bewertung von Transkriptionen anhand der Klassifikationsmodelle CLASS und MQI, Identifizieren von guten und schlechten Beispielen anhand der CLASS- und MQI-Elemente, Vorschl\u00e4ge entwickeln, um mathematisches Denken anzusto\u00dfen. Die Ergebnisse der an ChatGPT gerichteten Aufgaben wurden mit den menschlichen Resultaten verglichen bzw. wiederum von menschlichen Pr\u00fcfern kriteriengeleitet bewertet. Die Auswertung ist sozusagen ern\u00fcchternd; es ergaben sich nur geringe \u00dcbereinstimmungen zwischen den Bewertungen von ChatGPT und vorliegenden Bewertungen. Auch wurden die Beispiele und Vorschl\u00e4ge als nicht so hilfreich und neu eingestuft.<\/p>\n\n\n\n<p>Die Evaluationslandschaft zu LLMs wird noch erg\u00e4nzt durch einen \u00dcberblick zu Datens\u00e4tzen und Benchmarks und zuk\u00fcnftigen Forschungsans\u00e4tzen. Insgesamt vermittelt der Aufsatz einen breiten Einblick in existierende Arbeiten zu Evalution &amp; LLMs. <\/p>\n","protected":false},"excerpt":{"rendered":"<p>Zum Thema Evaluation von Large Language Models habe ich einen Aufsatz gefunden, der verschiedene LLMS in Bezug auf den Gegenstand von Evaluationen analysiert (A Survey&#8230;<\/p>\n<div class=\"more-link-wrapper\"><a class=\"more-link\" href=\"https:\/\/www.k-braungardt.de\/blogkb\/?p=2262\">Weiterlesen<span class=\"screen-reader-text\">\u00dcberblick zur Evaluation von Large Language Models<\/span><\/a><\/div>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[390],"tags":[],"class_list":["post-2262","post","type-post","status-publish","format-standard","hentry","category-artificial-intelligence","entry"],"_links":{"self":[{"href":"https:\/\/www.k-braungardt.de\/blogkb\/index.php?rest_route=\/wp\/v2\/posts\/2262","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.k-braungardt.de\/blogkb\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.k-braungardt.de\/blogkb\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.k-braungardt.de\/blogkb\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.k-braungardt.de\/blogkb\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=2262"}],"version-history":[{"count":7,"href":"https:\/\/www.k-braungardt.de\/blogkb\/index.php?rest_route=\/wp\/v2\/posts\/2262\/revisions"}],"predecessor-version":[{"id":2274,"href":"https:\/\/www.k-braungardt.de\/blogkb\/index.php?rest_route=\/wp\/v2\/posts\/2262\/revisions\/2274"}],"wp:attachment":[{"href":"https:\/\/www.k-braungardt.de\/blogkb\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=2262"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.k-braungardt.de\/blogkb\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=2262"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.k-braungardt.de\/blogkb\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=2262"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}