Human-Computer Interaction

The Effect of a Pedagogical Agent's Errors and Uncertainty on Learning Performance and Motivation in a Serious Game


This project is already assigned.

Einleitung

Digitale Lernumgebungen nutzen zunehmend KI-basierte Unterstützung, um Lernprozesse zu strukturieren und Lernende zu begleiten. Gleichzeitig wird es für Lernende immer wichtiger, KI-generierte Informationen nicht nur zu verstehen, sondern auch deren Qualität und Verlässlichkeit kritisch beurteilen zu können. Pädagogische Agenten werden in digitalen Lernumgebungen zunehmend eingesetzt und können Lernprozesse sowie Motivation unterstützen [10; 14]. Mit der wachsenden Verbreitung generativer, dialogbasierter Systeme rückt jedoch eine Herausforderung in den Fokus, die für reale KI-Anwendungen typisch ist: Agenten können fehlerhafte Inhalte erzeugen (z. B. objektiv falsche Aussagen oder unlogische Begründungen) und/oder Unsicherheit kommunizieren (z. B. durch Formulierungen wie „Ich bin mir nicht sicher”). In didaktischen Lernumgebungen können solche Imperfektionen auch gezielt und kontrolliert eingesetzt werden, um Lernende zum kritischen Prüfen, Vergleichen und Reflektieren von KI-Ausgaben anzuregen. Studien zu generativen bzw. dialogbasierten Agenten zeigen, dass fehlerhafte Antworten den Wissenserwerb beeinträchtigen können – insbesondere dann, wenn Lernende Fehler nicht erkennen und unkritisch übernehmen [27]. Gleichzeitig deuten Befunde darauf hin, dass kommunizierte Unsicherheit Lernende zu kritischerer Überprüfung von Aussagen anregen und unkritische Übernahme reduzieren kann [15; 21].

Bisherige Arbeiten zu LLM-basierten Systemen zeigen, dass Unsicherheit das Verlassen auf Systemantworten sowie die Übernahme fehlerhafter Antworten beeinflussen kann [21]. Offen ist jedoch, wie Fehler und Unsicherheit als Imperfektionsformen in pädagogischen Agenten - insbesondere in interaktiven, narrativen Serious Game-Lernszenarien - auf Lernzuwachs und intrinsische Motivation wirken und ob Unsicherheitskommunikation negative Effekte fehlerhafter Inhalte abschwächen kann.

Vor diesem Hintergrund untersucht diese Arbeit den Einfluss von Fehlern und kommunizierter Unsicherheit eines pädagogischen Agenten auf das Lernen in einem Serious Game. Dazu wird das Visual-Novel-Serious Game Mayor of Tomorrow weiterentwickelt, in dem ein pädagogischer Agent in der Rolle eines ehemaligen Bürgermeisters Spielende bei einer Entscheidung über den Einsatz von KI in der medizinischen Diagnostik unterstützt. Je nach experimenteller Bedingung macht der Agent dabei inhaltliche Fehler und/oder kommuniziert Unsicherheit; relevante Inhalte werden im Spielverlauf durch Expertenbeiträge fachlich korrekt eingeordnet.

Im Zentrum der vorliegenden Arbeit stehen der Lernzuwachs im Kompetenzbereich AI Ethics [32] sowie die intrinsische Motivation während der Lern- bzw. Spielaktivität [33]. Daraus ergibt sich die Forschungsfrage:

Wie beeinflussen Fehler und kommunizierte Unsicherheit eines pädagogischen Agenten den Lernzuwachs im Kompetenzbereich AI Ethics sowie die intrinsische Motivation?

Theorie und Forschungsstand

Pädagogische Agenten sind virtuelle Charaktere, die von einem Computersystem autonom gesteuert werden und eine explizite didaktische Funktion übernehmen [10; 11]. Sie führen Lernende durch multimediale Lernumgebungen und sollen die Lernleistung verbessern, indem sie beispielsweise Hinweise, Erklärungen und Feedback geben [11; 10]. Damit stellen pädagogische Agenten ein zentrales Element digitaler Lernumgebungen dar, das Lernprozesse gezielt unterstützen kann [10; 14]. In der Literatur werden pädagogische Agenten unter anderem nach ihrer Rolle unterschieden, etwa in Experten-, Mentor-/Peer- und motivierende Agenten. Baylor [4] zeigt, dass Mentor- bzw. Peer-Agenten das Lernen oft besser unterstützen als rein expertenorientierte oder ausschließlich motivationale Agenten, da sie sowohl fachliche Expertise als auch unterstützende, sozial-emotionale Funktionen vereinen. Eine zentrale Erklärung dafür, warum diese Rollen überhaupt wirksam werden können, liefert die Media-Equation-Theorie [38]: Menschen reagieren in der Interaktion mit technischen Systemen häufig nach ähnlichen sozialen Regeln wie im Umgang mit anderen Menschen und schreiben ihnen Eigenschaften wie Kompetenz, Wärme oder Glaubwürdigkeit zu; diese Annahmen werden im CASA-Paradigma (Computers Are Social Actors) experimentell überprüft [38; 36].

Es ist daher naheliegend zu untersuchen, welche Auswirkungen kommunizierte Unsicherheit in der Interaktion mit pädagogischen Agenten hat. Unsicherheit wird dabei als explizite sprachliche Markierung begrenzter Sicherheit (z. B. durch vorsichtige Formulierungen wie „Ich bin mir nicht sicher”) verstanden und als eigene Form von Imperfektion untersucht, weil sie die Interaktionsdynamik zwischen Mensch und System beeinflusst und sich dadurch auf Lernergebnis und Motivation auswirken kann. Bereits minimale Unsicherheitsmarker wie zögerliches Antwortverhalten (z. B. „errr…”) können die wahrgenommene Kompetenz eines Agenten beeinflussen [9].

Neben kommunizierter Unsicherheit stellen Fehler eine grundlegende Form von Imperfektion dar, die in der Interaktion mit KI-basierten Systemen regelmäßig auftritt. Solche Fehler entstehen zum einen unbeabsichtigt, etwa durch sogenannte Halluzinationen generativer Systeme, bei denen inhaltlich falsche oder inkonsistente Aussagen erzeugt werden. Zum anderen können Fehler in Lernkontexten auch bewusst und kontrolliert eingesetzt werden, um Lernende mit fehlerhaften Informationen zu konfrontieren und dadurch Reflexion, Überprüfung und aktives Auseinandersetzen mit Inhalten anzuregen.

Unabhängig davon, ob Fehler unbeabsichtigt auftreten oder gezielt als didaktisches Mittel genutzt werden, betreffen sie stets den Wahrheitsgehalt und die Kohärenz der vermittelten Inhalte. Da KI-basierte Agenten zunehmend als interaktive Unterstützungsinstanzen eingesetzt werden, ist es notwendig, Fehler nicht nur als technische Abweichungen, sondern als relevanten Bestandteil der Mensch-System-Interaktion zu betrachten. Eine systematische Untersuchung von Fehlern ist daher erforderlich, um zu verstehen, wie fehlerhafte Systemausgaben wahrgenommen, eingeordnet und genutzt werden. Unterschieden werden zwei grundlegende Fehlerarten: (1) faktische Fehler (objektiv falsche Informationen) und (2) logische Fehler (widersprüchliche oder unlogische Argumentationen), die in Klassifikationen fehlerhafter KI-generierter Inhalte als zentrale Fehlerkategorien beschrieben werden [44]. Die gemeinsame Betrachtung beider Fehlerarten ist erforderlich, da sie unterschiedliche Aspekte fehlerhafter Inhalte adressieren – den Wahrheitsgehalt einzelner Aussagen einerseits und die Kohärenz von Argumentationen andererseits.

Fehler und kommunizierte Unsicherheit sollten nicht isoliert betrachtet werden, da sie unterschiedliche, aber miteinander verknüpfte Ebenen des Agentenverhaltens adressieren – den Wahrheitsgehalt von Aussagen einerseits und deren kommunikative Rahmung andererseits – und in realen Interaktionen gemeinsam auftreten können. Im Folgenden werden daher sowohl die Einzeleffekte von kommunizierter Unsicherheit und Fehlern auf Lernen und Motivation untersucht als auch mögliche Interaktionseffekte zwischen beiden Imperfektionsformen.

a) Einfluss von Fehlern und Unsicherheit auf den Lernerfolg

Lernen stellt eine zentrale Zielvariable im Kontext pädagogischer Agenten dar, da diese Systeme explizit darauf ausgelegt sind, den Wissenserwerb, das Verständnis fachlicher Inhalte sowie metakognitive Prozesse der Lernenden – also das Überwachen und Steuern des eigenen Lernens (z. B. Verständnis prüfen, Unsicherheiten erkennen, Strategien anpassen) – zu unterstützen [10; 14]. Es ist dabei nicht nur relevant, ob ein Agent korrekte Informationen liefert, sondern wie diese Informationen kommuniziert werden und welche kognitiven Prozesse dadurch bei den Lernenden angestoßen werden [11; 10]. Insbesondere Eigenschaften wie Fehlerhaftigkeit und kommunikative Unsicherheit beeinflussen, in welchem Maße Lernende Agentenantworten kritisch reflektieren, überprüfen oder unkritisch übernehmen [27; 21; 15].

Lernen und Fehler

Li et al. untersuchen in einem experimentellen Setting pädagogische Agenten, die Lernenden Erklärungen zu Fachinhalten geben und dabei teilweise fehlerhafte Antworten produzieren [27]. Die Ergebnisse zeigen, dass fehlerhafte Agentenantworten das Lernverhalten und die Lernleistung negativ beeinträchtigen können, insbesondere wenn Lernende die Fehler nicht erkennen und Inhalte unkritisch übernehmen.

Gleichzeitig legen Befunde nahe, dass Fehler eines Agenten – sofern sie von Lernenden aktiv bearbeitet werden – auch Lerngelegenheiten eröffnen können. Okita [37] zeigt in einem Mathematik-Lernsetting, dass das Beobachten und Korrigieren von Rechenfehlern eines pädago-gischen Agenten das Monitoring der Lernenden stärkt und deren Fähigkeit verbessert, Aufgaben selbst korrekt zu lösen. Dieser potenzielle Nutzen setzt jedoch voraus, dass Fehler als solche auffallen und die Korrektur kognitiv verarbeitet wird. Aus dieser Perspektive ist zu erwarten, dass fehlerhafte Agentenantworten den Lernzuwachs insgesamt reduzieren, wenn Lernende Fehler nicht zuverlässig erkennen.

H1: Teilnehmende, die mit einem fehlerhaften pädagogischen Agenten interagieren, zeigen einen geringeren Lernzuwachs als Teilnehmende, die mit einem fehlerfreien pädagogischen Agenten interagieren.

Lernen und Unsicherheit

Studien zu LLM-basierten Assistenzsystemen zeigen, dass sprachlich kommunizierte Unsicherheit die Zustimmung zu Systemantworten sowie das blinde Verlassen auf die Systemantwort reduziert und zugleich die Genauigkeit der Nutzenden erhöhen kann, u. a. weil Antworten seltener unkritisch übernommen werden [21]. Dies kann Lernprozesse unterstützen, da Unsicherheitsmarker metakognitives Monitoring anstoßen und Lernende dazu anregen, Informationen aktiv zu validieren (z. B. durch Nachschlagen oder Abgleich mit Experten), statt sie passiv zu übernehmen. Daraus wird folgende Hypothese abgeleitet:

H2: Ein pädagogischer Agent, der unsicher kommuniziert, führt zu einem größeren Lernzuwachs als ein sicher kommunizierender pädagogischer Agent.

Interaktionseffekte Lernen

Kommunizierte Unsicherheit kann als Transparenzhinweis wirken: Sie macht Grenzen einer Antwort sichtbar, sodass Nutzende sich weniger auf die Systemantwort verlassen und ihr seltener zustimmen – und Informationen eher aktiv prüfen, vergleichen und einordnen [45; 21; 15]. Dadurch sollten fehlerhafte Inhalte seltener unkritisch übernommen werden, sodass sich negative Folgen von Fehlern bei unsicherer Kommunikation abschwächen [24; 13].

H3: (Interaktion Lernen): Der negative Effekt von Fehlern auf den Lernzuwachs ist stärker, wenn der Agent sicher kommuniziert, als wenn der Agent Unsicherheit kommuniziert.

b) Einfluss von Fehlern und Unsicherheit auf die Motivation

Motivation als abhängige Variable

Neben dem Lernzuwachs wird die intrinsische Motivation berücksichtigt, weil sie maßgeblich bestimmt, wie aufmerksam und engagiert Lernende sich mit den Inhalten auseinandersetzen und wie tief sie diese verarbeiten [40]. Gerade in Serious Games ist Motivation Teil der Wirklogik: Narrative Einbindung, Entscheidungen und die Unterstützung durch einen pädagogischen Agenten sollen Interesse fördern, können es aber auch mindern, wenn die Hilfe als wenig hilfreich oder frustrierend erlebt wird [8; 10]. Motivation ist zudem ein zentraler Hebel, der durch Interaktions- und Kommunikationsdesign beeinflusst wird (z. B. Feedbackstil, wahrgenommene Kompetenz des Agenten, Stimmigkeit der Unterstützung) [10; 14].

Motivation und Fehler

Nach der Self-Determination Theory (SDT) entsteht intrinsische Motivation insbesondere dann, wenn Lernende sich kompetent und selbstwirksam fühlen sowie Autonomie und soziale Eingebundenheit erleben; werden diese Bedürfnisse untergraben, sinken Interesse und Engagement [34; 40]. Pädagogische Agenten können Motivation fördern, indem sie Orientierung, verständliche Erklärungen und Feedback geben [10; 14]. Fehlerhafte Agentenantworten können jedoch das Kompetenzerleben schwächen, weil Lernende zusätzlichen Aufwand in das Prüfen, Korrigieren und Einordnen investieren müssen und die Lernaktivität dadurch weniger effizient und potenziell frustrierender wird. Empirische Befunde deuten zudem auf eine ambivalente Wirkung hin: Krishna und Pelachaud [22] berichten, dass fehlerhaftes Verhalten eines Peer-Agenten zwar dazu beitragen kann, dass Lernende ihn eher als „Peer” (und nicht als Tutor/Experten) einordnen, gleichzeitig aber mit geringerem berichteten Interesse bzw. geringerem motivationalem Erleben während der Lernaktivität einhergehen kann. Daher wird erwartet, dass ein fehlerhafter Agent die intrinsische Motivation im Vergleich zu einem fehlerfreien Agenten senkt.

H4: Ein fehlerhafter pädagogischer Agent führt zu einer geringeren intrinsischen Motivation als ein fehlerfreier pädagogischer Agent.

Motivation und Unsicherheit

Aus motivationspsychologischer Sicht kann Unsicherheit potenziell motivationsförderlich wirken, weil sie eine Wissenslücke sichtbar macht. Nach der Infor-mation-Gap-Theorie [29] entsteht Neugier, wenn Lernende eine saliente und grundsätzlich schließbare Wissenslücke zwischen ihrem aktuellen Wissen und dem für die Klärung einer Frage benötigten Wissen wahrnehmen. Diese Lücke wird als Spannungszustand erlebt und motiviert dazu, aktiv Informationen zu suchen, um die Lücke zu schließen. Auch Forschung zu epistemischen Emotionen legt nahe, dass Neugier und produktive Verwirrung mit Wissensexploration zusammenhängen [47]. Ein Agent, der seine Grenzen offenlegt und zur gemeinsamen Klärung einlädt, könnte diese Prozesse unterstützen. Demgegenüber betont die Self-Determination Theory (SDT) die Bedeutung des Kompetenzerlebens und einer verlässlichen Lernumgebung für intrinsische Motivation. Kommuniziert ein pädagogischer Agent häufig Unsicherheit, kann dies seine wahrgenommene Kompetenz beeinträchtigen und damit die Motivation mindern. Empirisch stützen Li und Yanagisawa (2021) diese Perspektive: In zwei experimentellen Studien mit einem sprachbasierten virtuellen Assistenten zeigen sie, dass wahrgenommene Leistungsunsicherheit die intrinsische Motivation reduziert, während transparente und gut vorhersagbare Systemgrenzen diese erhöhen [26]. Ergänzend belegt eine Meta-Analyse, dass die wahrgenommene kommunikative Kompetenz von Lehrpersonen systematisch mit der Lernmotivation von Studierenden zusammenhängt [17]. Auf Basis der oben eingeführten Annahme, dass Menschen auch gegenüber technischen Systemen soziale Merkmale interpretieren und ihnen Eigenschaften zuschreiben, ist plausibel, dass Unsicherheitskommunikation als Hinweis auf geringere (fachliche) Kompetenz verstanden wird und dadurch Motivation reduzieren kann. Ergänzend zeigen Chen et al., dass zögerliches Antwortverhalten (z. B. „ähm”) bei humanoiden Robotern ähnlich wie bei menschlichen Gesprächspartnern als Hinweis auf eine geringere Kompetenz interpretiert wird [9]. Der Kommunikationsstil eines pädagogischen Agenten ist daher geeignet, ähnliche motivational wirksame Mechanismen auszulösen wie der Kommunikationsstil einer menschlichen Lehrperson. Vor diesem Hintergrund wird folgende Hypothese aufgestellt:

H5: Ein pädagogischer Agent, der seine Antworten unsicher formuliert, führt zu einer geringeren Motivation als ein sicher kommunizierender pädagogischer Agent.

Interaktionseffekte Motivation

Fehlererfahrungen können Frustration auslösen und das Kompetenzerleben bzw. die wahrgenommene Kontrolle über das Lernen senken. Wird ein Fehler dabei sehr sicher präsentiert, ist die Diskrepanz zwischen Erwartung und Ergebnis typischerweise größer, was stärkere Enttäuschung und damit stärkere Motivationsverluste begünstigen kann [24; 13]. Unsicherheit sorgt für niedrigere Erwartung und kann dadurch die demotivierende Wirkung von Fehlern abmildern [45].

H6 (Interaktion Motivation): Der negative Effekt von Fehlern auf die intrinsische Motivation ist stärker, wenn der Agent sicher kommuniziert, als wenn der Agent Unsicherheit kommuniziert.

Kovariaten

Zusätzlich zu den experimentellen Faktoren werden mehrere Kovariaten erhoben, da diese die Bewertung des Agenten sowie Motivation und Lernen systematisch mitbeeinflussen können.

Alter, Geschlecht und Beruf

Alter, Geschlecht sowie der berufliche bzw. akademische Hintergrund (z. B. Studienfach, Bildungsgrad und Berufserfahrung) werden als Kovariaten erhoben, da diese Merkmale mit Unterschieden im Vorwissen, in Lernstrategien sowie im motivationalen Erleben zusammenhängen können. Dabei sind die erwarteten Zusammenhänge nicht strikt gerichtet, da sie stark vom jeweiligen Lerninhalt und Kontext abhängen: So kann eine größere fachliche Nähe zum Thema mit höherem Vorwissen und damit höheren Ausgangswerten einhergehen, während geringeres Vorwissen zugleich größere Lernzuwächse ermöglichen kann (mehr „Raum nach oben”). Ebenso können alters- oder erfahrungsbedingte Unterschiede mit Variationen in Lernstrategien, Techniknutzung und motivationalem Erleben verbunden sein. Forschung zur Lern- und Motivationspsychologie zeigt, dass demografische Merkmale und Bildungsbiografien sowohl das Ausgangsniveau als auch Lernen und intrinsische Motivation in digitalen Lernumgebungen beeinflussen können [30]. Entsprechend werden diese Variablen erhoben und in den Analysen zur Kontrolle interindividueller Unterschiede berücksichtigt.

Einstellung gegenüber KI

Die generelle Einstellung gegenüber KI wird als Kovariate erhoben, da sie beeinflussen kann, wie offen, engagiert und kritisch Lernende KI-basierte Lernumgebungen nutzen. Vorangegangene Forschung legt nahe, dass eine positivere Einstellung gegenüber KI mit höherer Nutzungsbereitschaft, größerem Engagement und höherer intrinsischer Motivation in KI-gestützten Lernkontexten einhergehen kann, während negativere Einstellungen eher mit Skepsis und geringerer Nutzungsbereitschaft verbunden sind [41; 28]. Da skeptische Einstellungen zugleich zu stärkerem kritischen Prüfen von Systemausgaben führen können und die Zusammenhänge mit Lernzuwachs daher kontextabhängig variieren können, wird die Einstellung gegenüber KI als Kovariate berücksichtigt, um interindividuelle Unterschiede im Lernzuwachs und in der intrinsischen Motivation statistisch zu kontrollieren.

Kontextvariablen

Die Kontextvariablen werden primär deskriptiv bzw. explorativ ausgewertet und bei Bedarf als Kovariaten in ergänzenden Analysen berücksichtigt, um alternative Erklärungen (z. B. Unterschiede in Beanspruchung oder Spielerlebnis) statistisch zu kontrollieren.

Akzeptanz

Die Akzeptanz des pädagogischen Agenten wird als begleitende Kontextvariable erhoben, da sie beeinflussen kann, in welchem Ausmaß Lernende bereit sind, sich auf die Interaktion mit dem Agenten einzulassen und dessen Beiträge in den Lernprozess zu integrieren. Forschung zu digitalen Lern- und Assistenzsystemen zeigt, dass wahrgenommene Nützlichkeit und Nutzungsbereitschaft mit Engagement, Aufmerksamkeitszuwendung und motivationalen Prozessen zusammenhängen können, was sich indirekt auf Lernverhalten und Lernergebnisse auswirkt [46; 14]. Entsprechend wird Akzeptanz zur Einordnung der Ergebnisse herangezogen und bei Bedarf in ergänzenden Analysen als Kovariate berücksichtigt, ohne selbst Gegenstand hypothesengeleiteter Prüfungen zu sein.

Agentenwahrnehmung

Zusätzlich wird die Wahrnehmung des pädagogischen Agenten als begleitende Kontextvariable erhoben. Dazu zählen subjektive Einschätzungen der Menschlichkeit, Plausibilität des Agenten sowie Charakteristiken der Agenten (z. B. Wärme). Diese Variablen werden erhoben, um sicherzustellen, dass die experimentellen Manipulationen (Fehler und Unsicherheit) tatsächlich als Unterschiede im Agentenverhalten wahrgenommen werden und um potenzielle unbeabsichtigte Nebenwirkungen auf die Gesamtwahrnehmung des Agenten zu erfassen. Die Maße dienen außerdem der evaluativen Beschreibung der Agenten-Inszenierung als Teil des Serious Games.

Kognitive Belastung

Die wahrgenommene kognitive Belastung wird erhoben, um zu prüfen, ob sich die experimentellen Bedingungen hinsichtlich der subjektiv erlebten Anforderung unterscheiden. Da sich die Versuchsbedingungen ausschließlich im Verhalten des pädagogischen Agenten unterscheiden, erlaubt diese Analyse eine Einschätzung, ob bestimmte Agentenverhaltensweisen als kognitiv belastender wahrgenommen werden. Die Ergebnisse werden explorativ ausgewertet und zur Interpretation der Effekte auf Lernzuwachs und intrinsische Motivation herangezogen.

Spielerlebnis

Das subjektive Spielerlebnis wird als begleitende Kontextvariable erhoben, da es beeinflussen kann, wie intensiv und aufmerksam sich Teilnehmende mit den Inhalten des Serious Games auseinandersetzen. Narrative Einbindung und wahrgenommene Stimmigkeit können das Ausmaß von Flow (vertiefte Konzentration und Involvierung) fördern und damit das Engagement während des Spiels prägen. Ergänzend wird die wahrgenommene User Experience (UX) erfasst, da Aspekte wie Bedienbarkeit, Verständlichkeit und allgemeine Nutzungsqualität die Interaktion mit dem Spiel erleichtern oder erschweren können. Flow und UX können somit Lern- und Motivationsprozesse indirekt beeinflussen, ohne selbst als Lernoutcomes verstanden zu werden.

Die Erfassung von Flow und UX dient insbesondere dazu, sicherzustellen, dass potenzielle Unterschiede im Lernzuwachs oder in der intrinsischen Motivation nicht auf grundlegende Unterschiede in der Spielgestaltung, Bedienbarkeit oder Immersion zurückzuführen sind. Auf diese Weise kann geprüft werden, ob beobachtete Effekte auf die experimentellen Manipulationen des pädagogischen Agenten zurückzuführen sind und nicht auf systematische Verzerrungen im Spielerlebnis.

Manipulationscheck

Zur Überprüfung der experimentellen Manipulationen wird ein Manipulationscheck durchgeführt. Dabei wird erhoben, wie sicher bzw. unsicher der pädagogische Agent in seinen Aussagen wahrgenommen wurde und ob der Agent als fehlerhaft erlebt wurde. Der Manipulationscheck dient der Absicherung der internen Validität, indem er prüft, ob die Bedingungen (Fehler vs. keine Fehler; Unsicherheitskommunikation vs. keine Unsicherheitskommunikation) von den Teilnehmenden wie intendiert wahrgenommen wurden.

Theoretische Einbettung: AI Literacy und Serious Game

AI Literacy wird als Bündel grundlegender Kenntnisse, Fähigkeiten und Einstellungen im Umgang mit KI verstanden. Das dem AICOS zugrunde liegende Kompetenzmodell umfasst sechs Kompetenzbereiche: Understand AI, Apply AI, Create AI, Detect AI, AI Ethics und Generative AI [32]. Diese Bereiche sind an kognitive Anforderungsniveaus angelehnt, wie sie u. a. in der Taxonomie nach Bloom beschrieben werden [18]. Der Kompetenzbereich AI Ethics umfasst Themenfelder wie Fairness und Nicht-Diskriminierung, Transparenz und Erklärbarkeit sowie rechtliche Aspekte (z. B. Datenschutz und Verantwortlichkeit).

Serious Games bezeichnen digitale Spiele, die nicht ausschließlich zu Unterhaltungszwecken entwickelt werden, sondern explizit Bildungs- oder Trainingsziele verfolgen [3; 12]. Sie teilen zentrale Merkmale mit herkömmlichen Computerspielen, wie Interaktivität, Herausforderungen und Feedback, kombinieren diese jedoch mit pädagogischen Elementen, um eine motivierende und lebendige Lernumgebung zu schaffen [8]. Empirische Arbeiten zu narrativen Serious Games zeigen zudem, dass sie Flow-Erleben und emotionale Einbindung fördern [2]. Ein gängiges Format für narrative Serious Games ist die Visual Novel, also eine narrativ geprägte Spielform, in der Dialoge im Vordergrund stehen und Entscheidungen an ausgewählten Stellen den Verlauf beeinflussen. Anschauliche Beispiele für die Visual-Novel-Erzähl- und Entscheidungslogik finden sich etwa in der Ace Attorney-Reihe [1] sowie in Spielen wie JudgeSim [42].

In einer verwandten Studie untersuchen Krop et al. mit Traversing the Pass ein Serious Game, das einen mentorartigen pädagogischen Agenten einsetzt [23]. Die Ergebnisse zeigen, dass Teilnehmende in der Agentenbedingung zwei Wochen nach dem Spielen einen besseren Wissensbehalt aufwiesen. Das Flow-Erleben wurde unmittelbar nach der Spielsitzung erhoben, fiel insgesamt moderat bis hoch aus und war in der Agentenbedingung deskriptiv höher als in der Vergleichsbedingung; der Unterschied war jedoch nicht signifikant [23].

Forschungslücke und Beitrag dieser Arbeit

Vorliegende Arbeiten zeigen, dass fehlerhafte Antworten generativer Agenten Lernprozesse beeinträchtigen können, insbesondere wenn Lernende Fehler nicht erkennen und Inhalte übernehmen [27]. Zudem deuten Befunde darauf hin, dass kommunizierte Unsicherheit die Zustimmung und das Sich-Verlassen auf Systemantworten reduzieren kann [21; 15]. Offen ist jedoch, wie sich diese Effekte in pädagogischen Agenten auswirken, die als Mentorfiguren in interaktiven, narrativen Serious Games eingebettet sind, und welche Rolle dabei intrinsische Motivation als zentrales Lern- und Engagementkriterium spielt [40].

Methodik

Um die beschriebene Forschungsfrage zu beantworten, werden insgesamt zwei Studien durchgeführt. Zunächst erfolgt eine Vorstudie zur Auswahl des pädagogischen Agenten, der in der Hauptstudie als Mentor fungieren soll. Diese Voruntersuchung dient dazu, sicherzustellen, dass der eingesetzte Agent von den Teilnehmenden als Mentor wahrgenommen wird. Anschließend wird in der Hauptstudie die eigentliche Forschungsfrage untersucht.

Vorstudie

Die Vorstudie folgt einem Within-Subjects-Design. Nach einer kurzen Beschreibung des Szenarios sehen die Teilnehmenden nacheinander kurze Videoausschnitte verschiedener potenzieller pädagogischer Agenten. Die Reihenfolge der sechs Videos wird ausbalanciert (Lateinisches Quadrat): Teilnehmende werden zufällig einer von sechs Reihenfolgen zugewiesen, um Reihenfolge- und Übertragungseffekte zu minimieren. In jedem Video stellt sich der jeweilige Avatar mit demselben Text als ehemalige:r Bürgermeister:in vor. Dabei macht der pädagogische Agent bewusst keine inhaltlichen Fehler und zeigt sich auch nicht unsicher, um Verzerrungen der Urteile zu vermeiden.

Für die Vorstudie wird eine Stichprobe von $N = 24$ angestrebt. Die Stichprobengröße wurde anhand einer a-priori Poweranalyse in G*Power bestimmt (ANOVA: Repeated measures, within factors; 6 Avatare). Als Annahme wurde ein mittlerer Effekt angesetzt (Cohen’s $f = 0.25$), was mit Effektannahmen in verwandten Arbeiten zu plausibilitäts- bzw. qualia-nahen Ratings konsistent ist [16]. Unter $\alpha = .05$, $1-\beta = .80$, einer moderaten Korrelation der Messwiederholungen ($r = .50$) sowie einer konservativen Sphärizitätskorrektur ($\epsilon = .75$) ergab sich eine erforderliche Stichprobengröße von $N = 23$ (tatsächliche Power = .82). Mit $N = 24$ können zudem die sechs ausbalancierten Präsentationsreihenfolgen des lateinischen Quadrats gleichmäßig besetzt werden ($n = 4$ pro Reihenfolge).

Um die Wahrnehmung der einzelnen pädagogischen Agenten zu erfassen, bewerten die Teilnehmenden nach jedem Video den gezeigten Avatar mithilfe der Messinstrumente: der AI Representation Scale [43], sowie der Virtual Human Plausibility Scale [31]. Auf diese Weise werden subjektive Einschätzungen der Agenten hinsichtlich der wahrgenommenen Plausibilität sowie Merkmalen wie Kompetenz, Wärme und Lebendigkeit erhoben. Ergänzend ordnen die Teilnehmenden nach jedem Video den Agenten einer Rolle (Mentor, Experte, motivierender Agent) zu, um die Passung zur vorgesehenen Mentorrolle zu prüfen. Nach der Bewertung aller Agenten wählen die Teilnehmenden den bevorzugten Agenten aus und erstellen eine Reihenfolge der Avatare hinsichtlich ihrer Eignung als Mentor. Nach der Bewertung aller Agenten beantworten die Teilnehmenden zusätzlich offene Fragen, um die Wahl des bevorzugten Mentor-Agenten zu begründen. Der finale Mentor-Agent wird primär anhand (1) der Häufigkeit der Mentor-Zuordnung und (2) der Präferenz- bzw. Rankingdaten bestimmt (z. B. Anteil der Erstwahlen, mittlerer Rang). Die Skalenwerte der AI Representation Scale und der Virtual Human Plausibility Scale (VHP) werden ergänzend herangezogen, um die Entscheidung zu begründen und bei vergleichbarer Präferenz als Tie-breaker zu dienen (höhere wahrgenommene Kompetenz/Wärme sowie höhere Plausibilität). Ausgewertet werden hierfür pro Avatar deskriptive Kennwerte (Mittelwerte, Standardabweichungen) für AI Representation und VHP, die Mentor-Zuordnung als Häufigkeit/Anteil sowie die Präferenzdaten über Erstwahl-Anteile und durchschnittliche Rangplätze; zusätzlich werden offene Begründungen inhaltsanalytisch kategorisiert, um die quantitative Auswahl inhaltlich abzusichern und ggf. kleine Gestaltungsanpassungen abzuleiten.

Hauptstudie

Nachdem in der Vorstudie der pädagogische Agent (ehemaliger Bürgermeister) ausgewählt wurde, der am überzeugendsten als Mentor wahrgenommen wird, folgt die Hauptstudie. Darin wird die Forschungsfrage empirisch untersucht: Die Teilnehmenden spielen das Visual-Novel-Serious-Game „Mayor of Tomorrow”, in dem der Agent als zentrale Mentorfigur auftritt.

Lernumgebung

Zur Untersuchung der Forschungsfrage wird das Visual-Novel-Serious-Game Mayor of Tomorrow eingesetzt. Das Spiel ist narrativ aufgebaut; Dialoge stehen im Vordergrund, und Entscheidungspunkte ermöglichen es den Spielenden, den Verlauf an ausgewählten Stellen zu beeinflussen. Dieses Format wird gewählt, da ethische Fragestellungen durch Perspektiven, Argumentationslinien und Konsequenzen in Dialogen strukturiert dargestellt werden können und Entscheidungssituationen Reflexion unterstützen.

Ablauf des Spiels

Zu Beginn stellt sich der Bürgermeister in einer kurzen Sequenz vor und erläutert seine frühere Rolle in der Stadt. Anschließend nehmen die Teilnehmenden an einer Unterhaltung in einem Park, in der Bürger der Stadt Fragen zu aktuellen gesetzlichen Rahmenbedingungen sowie zu ethischen Richtlinien beim Einsatz von KI in der Diagnostik aufwerfen. Bereits in dieser Szene können die Spielenden über dialogbasierte Wahlmöglichkeiten das Gespräch inhaltlich lenken (z. B. welche Aspekte vertieft werden sollen oder welche Handlungsoptionen priorisiert diskutiert werden). Im Anschluss daran führt der Bürgermeister ein direktes Gespräch mit den Teilnehmenden, in dem – je nach experimenteller Bedingung – entweder inhaltliche Fehler gemacht und/oder Unsicherheiten kommuniziert werden; entsprechend kann der Agent fehlerhaft, unsicher, beides oder weder von beidem auftreten.

Unsicherheit wird dabei nicht nur punktuell, sondern über mehrere Äußerungen hinweg konsistent durch explizite sprachliche Marker kommuniziert (z. B. „Ich bin mir nicht sicher, aber …”, „Soweit ich weiß …”, „Ich könnte mich irren …”). Dieses Vorgehen orientiert sich an etablierten Operationalisierungen von Unsicherheitskommunikation, bei denen Unsicherheit konsistent über sprachliche Marker ausgedrückt wird [21]. Fehlerhafte Aussagen können sich beispielsweise in einer falschen Benennung ethischer Prinzipien äußern, etwa wenn der Bürgermeister fälschlicherweise angibt, zentrale ethische Leitlinien bei der Entwicklung von KI seien „Ganzheitlichkeit, Schadensverhütung und Kostenreduktion”. In einer nachfolgenden Szene äußern sich Experten aus verschiedenen Disziplinen (z. B. Jura, Psychologie, Medizin) zu dem Thema, korrigieren die zuvor gemachten Fehler und stellen die relevanten Inhalte richtig, indem sie beispielsweise betonen, dass wichtige ethische Prinzipien Schadensverhütung, Transparenz und Fairness umfassen.

Im Anschluss können die wichtigsten Inhalte in einem In-Game-Nachschlagewerk (in Form eines Buches) nachgelesen werden. Am Ende des Spiels treffen die Teilnehmenden eine Entscheidung darüber, ob und in welchem Umfang KI in der medizinischen Diagnostik in der fiktiven Stadt eingesetzt werden soll.

Stichprobe und Poweranalyse

Die Hauptstudie verwendet ein vollständig gekreuztes $2 \times 2$ Between-Subjects-Design mit den Faktoren Fehler (ja vs. nein) und kommunizierte Unsicherheit(ja vs. nein). Die Teilnehmenden werden zufällig einer der vier Versuchsbedingungen zugewiesen (geplant: $N = 100$, entsprechend $n = 25$ pro Zelle).

Zur Absicherung der Stichprobengröße wurde eine a-priori Poweranalyse mit G*Power durchgeführt (F-Tests; ANCOVA: Fixed effects, main effects and interactions). Da in den Analysen zusätzlich Kovariaten berücksichtigt werden, wurde die Poweranalyse als ANCOVA spezifiziert (Anzahl Gruppen = 4; Anzahl Kovariaten = 2; Numerator-$df=1$). Bei $\alpha = .05$ und einer angestrebten Power von $1-\beta = .80$ ergibt sich für eine Ziel-Effektstärke von Cohen’s $f = 0.30$ ein erforderlicher Stichprobenumfang von $N = 90$; entsprechend wird $N = 100$ als ausreichend betrachtet, um Haupteffekte im Bereich $f \approx 0.30$ nachzuweisen.

Als inhaltliche Begründung für die gewählte Ziel-Effektstärke werden metaanalytische Befunde zu (affektiven/embodied) pädagogischen Agenten herangezogen. Guo und Goh berichten $r=.29$ (Retention) und $r=.35$ (Motivation) [19]. Für $df_1=1$ wurde näherungsweise $\eta_p^2 \approx r^2$ verwendet und anschließend in Cohen’s $f$ überführt ($f=\sqrt{\eta_p^2/(1-\eta_p^2)}$). Daraus ergibt sich für Retention $f\approx 0.30$, weshalb $f=0.30$ als Ziel-Effektstärke angesetzt wurde.

Versuchsablauf

Nach der Aufklärung über Zielsetzung, Ablauf der Studie und die Verarbeitung der erhobenen Daten sowie der Einholung der Einwilligung wird zunächst die Nutzungshäufigkeit KI-basierter Anwendungen erfasst. Anschließend absolvieren die Teilnehmenden den AICOS-Wissenstest [32], um das Ausgangsniveau ihres Wissens im Kompetenzbereich AI Ethics objektiv zu bestimmen. Danach bearbeiten sie den GAAIS-Fragebogen zur Einstellung gegenüber KI [41] sowie den MAILS-Fragebogen zur Selbsteinschätzung ihrer Kompetenzen in verschiedenen Bereichen der AI Literacy [7]. Im Anschluss spielen die Teilnehmenden das Serious Game „Mayor of Tomorrow”. Je nach experimenteller Bedingung kommuniziert der pädagogische Agent dabei Unsicherheit und/oder macht faktische Fehler in Bezug auf Inhalte aus dem Bereich AI Ethics.

Nach Abschluss der Spielphase bearbeiten die Teilnehmenden zunächst den NASA-TLX zur Erfassung der subjektiven Beanspruchung [20]. Anschließend füllen sie den Intrinsic Motivation Inventory (IMI) aus [33], um die Motivation nach der Intervention zu erfassen. Darauf folgen der Agent Persona Index (API), der Virtual Human Plausibility Test sowie der AI-Representation-Fragebogen [5; 31; 43], um die Wahrnehmung und Plausibilität des Agenten zu evaluieren. Direkt im Anschluss wird das Technology Acceptance Model (TAM) zur Erfassung der Akzeptanz erhoben [46].

Im nächsten Schritt beantworten die Teilnehmenden einen Manipulationscheck, bei dem abgefragt wird, wie sicher der Agent wahrgenommen wurde und ob er als fehlerhaft erlebt wurde. Die Spielerfahrung wird danach über die Flow Short Scale (FSS) [39] sowie das UX Evaluation Instrument erfasst [35]. Darauf folgt die erneute Bearbeitung des MAILS-Fragebogens zur subjektiven Selbsteinschätzung der AI-Literacy-Kompetenzen [7]. Abschließend wird der Wissensstand nach dem Spiel mittels des AICOS-Wissenstests erneut überprüft [32].

Zum Abschluss beantworten die Teilnehmenden offene Fragen zu ihrem subjektiven Erleben, machen demografische Angaben [25] (z.,B. Alter, Geschlecht, Studien- bzw. beruflicher Hintergrund), erhalten ihre Vergütung (z.,B. Versuchspersonenstunden oder eine finanzielle Entschädigung) und werden im Rahmen eines Debriefings über die genaue Zielsetzung der Studie informiert und verabschiedet.

Timeline

Literature


Contact Persons at the University Würzburg

Philipp Krop (Primary Contact Person)
Human-Computer Interaction Group & Psychology of Intelligent Interactive System, University of Würzburg
philipp.krop@uni-wuerzburg.de

Legal Information