The Effect of a Pedagogical Agent's Errors and Uncertainty on Learning Performance and Motivation in a Serious Game

This project is already assigned.

Einleitung

Digitale Lernumgebungen nutzen zunehmend KI-basierte Unterstützung, um Lernprozesse zu strukturieren und Lernende zu begleiten. Gleichzeitig wird es für Lernende immer wichtiger, KI-generierte Informationen nicht nur zu verstehen, sondern auch deren Qualität und Verlässlichkeit kritisch beurteilen zu können. Pädagogische Agenten werden in digitalen Lernumgebungen zunehmend eingesetzt und können Lernprozesse sowie Motivation unterstützen [10; 14]. Mit der wachsenden Verbreitung generativer, dialogbasierter Systeme rückt jedoch eine Herausforderung in den Fokus, die für reale KI-Anwendungen typisch ist: Agenten können fehlerhafte Inhalte erzeugen (z. B. objektiv falsche Aussagen oder unlogische Begründungen) und/oder Unsicherheit kommunizieren (z. B. durch Formulierungen wie „Ich bin mir nicht sicher”). In didaktischen Lernumgebungen können solche Imperfektionen auch gezielt und kontrolliert eingesetzt werden, um Lernende zum kritischen Prüfen, Vergleichen und Reflektieren von KI-Ausgaben anzuregen. Studien zu generativen bzw. dialogbasierten Agenten zeigen, dass fehlerhafte Antworten den Wissenserwerb beeinträchtigen können – insbesondere dann, wenn Lernende Fehler nicht erkennen und unkritisch übernehmen [27]. Gleichzeitig deuten Befunde darauf hin, dass kommunizierte Unsicherheit Lernende zu kritischerer Überprüfung von Aussagen anregen und unkritische Übernahme reduzieren kann [15; 21].

Bisherige Arbeiten zu LLM-basierten Systemen zeigen, dass Unsicherheit das Verlassen auf Systemantworten sowie die Übernahme fehlerhafter Antworten beeinflussen kann [21]. Offen ist jedoch, wie Fehler und Unsicherheit als Imperfektionsformen in pädagogischen Agenten - insbesondere in interaktiven, narrativen Serious Game-Lernszenarien - auf Lernzuwachs und intrinsische Motivation wirken und ob Unsicherheitskommunikation negative Effekte fehlerhafter Inhalte abschwächen kann.

Vor diesem Hintergrund untersucht diese Arbeit den Einfluss von Fehlern und kommunizierter Unsicherheit eines pädagogischen Agenten auf das Lernen in einem Serious Game. Dazu wird das Visual-Novel-Serious Game Mayor of Tomorrow weiterentwickelt, in dem ein pädagogischer Agent in der Rolle eines ehemaligen Bürgermeisters Spielende bei einer Entscheidung über den Einsatz von KI in der medizinischen Diagnostik unterstützt. Je nach experimenteller Bedingung macht der Agent dabei inhaltliche Fehler und/oder kommuniziert Unsicherheit; relevante Inhalte werden im Spielverlauf durch Expertenbeiträge fachlich korrekt eingeordnet.

Im Zentrum der vorliegenden Arbeit stehen der Lernzuwachs im Kompetenzbereich AI Ethics [32] sowie die intrinsische Motivation während der Lern- bzw. Spielaktivität [33]. Daraus ergibt sich die Forschungsfrage:

Wie beeinflussen Fehler und kommunizierte Unsicherheit eines pädagogischen Agenten den Lernzuwachs im Kompetenzbereich AI Ethics sowie die intrinsische Motivation?

Theorie und Forschungsstand

Pädagogische Agenten sind virtuelle Charaktere, die von einem Computersystem autonom gesteuert werden und eine explizite didaktische Funktion übernehmen [10; 11]. Sie führen Lernende durch multimediale Lernumgebungen und sollen die Lernleistung verbessern, indem sie beispielsweise Hinweise, Erklärungen und Feedback geben [11; 10]. Damit stellen pädagogische Agenten ein zentrales Element digitaler Lernumgebungen dar, das Lernprozesse gezielt unterstützen kann [10; 14]. In der Literatur werden pädagogische Agenten unter anderem nach ihrer Rolle unterschieden, etwa in Experten-, Mentor-/Peer- und motivierende Agenten. Baylor [4] zeigt, dass Mentor- bzw. Peer-Agenten das Lernen oft besser unterstützen als rein expertenorientierte oder ausschließlich motivationale Agenten, da sie sowohl fachliche Expertise als auch unterstützende, sozial-emotionale Funktionen vereinen. Eine zentrale Erklärung dafür, warum diese Rollen überhaupt wirksam werden können, liefert die Media-Equation-Theorie [38]: Menschen reagieren in der Interaktion mit technischen Systemen häufig nach ähnlichen sozialen Regeln wie im Umgang mit anderen Menschen und schreiben ihnen Eigenschaften wie Kompetenz, Wärme oder Glaubwürdigkeit zu; diese Annahmen werden im CASA-Paradigma (Computers Are Social Actors) experimentell überprüft [38; 36].

Es ist daher naheliegend zu untersuchen, welche Auswirkungen kommunizierte Unsicherheit in der Interaktion mit pädagogischen Agenten hat. Unsicherheit wird dabei als explizite sprachliche Markierung begrenzter Sicherheit (z. B. durch vorsichtige Formulierungen wie „Ich bin mir nicht sicher”) verstanden und als eigene Form von Imperfektion untersucht, weil sie die Interaktionsdynamik zwischen Mensch und System beeinflusst und sich dadurch auf Lernergebnis und Motivation auswirken kann. Bereits minimale Unsicherheitsmarker wie zögerliches Antwortverhalten (z. B. „errr…”) können die wahrgenommene Kompetenz eines Agenten beeinflussen [9].

Neben kommunizierter Unsicherheit stellen Fehler eine grundlegende Form von Imperfektion dar, die in der Interaktion mit KI-basierten Systemen regelmäßig auftritt. Solche Fehler entstehen zum einen unbeabsichtigt, etwa durch sogenannte Halluzinationen generativer Systeme, bei denen inhaltlich falsche oder inkonsistente Aussagen erzeugt werden. Zum anderen können Fehler in Lernkontexten auch bewusst und kontrolliert eingesetzt werden, um Lernende mit fehlerhaften Informationen zu konfrontieren und dadurch Reflexion, Überprüfung und aktives Auseinandersetzen mit Inhalten anzuregen.

Unabhängig davon, ob Fehler unbeabsichtigt auftreten oder gezielt als didaktisches Mittel genutzt werden, betreffen sie stets den Wahrheitsgehalt und die Kohärenz der vermittelten Inhalte. Da KI-basierte Agenten zunehmend als interaktive Unterstützungsinstanzen eingesetzt werden, ist es notwendig, Fehler nicht nur als technische Abweichungen, sondern als relevanten Bestandteil der Mensch-System-Interaktion zu betrachten. Eine systematische Untersuchung von Fehlern ist daher erforderlich, um zu verstehen, wie fehlerhafte Systemausgaben wahrgenommen, eingeordnet und genutzt werden. Unterschieden werden zwei grundlegende Fehlerarten: (1) faktische Fehler (objektiv falsche Informationen) und (2) logische Fehler (widersprüchliche oder unlogische Argumentationen), die in Klassifikationen fehlerhafter KI-generierter Inhalte als zentrale Fehlerkategorien beschrieben werden [44]. Die gemeinsame Betrachtung beider Fehlerarten ist erforderlich, da sie unterschiedliche Aspekte fehlerhafter Inhalte adressieren – den Wahrheitsgehalt einzelner Aussagen einerseits und die Kohärenz von Argumentationen andererseits.

Fehler und kommunizierte Unsicherheit sollten nicht isoliert betrachtet werden, da sie unterschiedliche, aber miteinander verknüpfte Ebenen des Agentenverhaltens adressieren – den Wahrheitsgehalt von Aussagen einerseits und deren kommunikative Rahmung andererseits – und in realen Interaktionen gemeinsam auftreten können. Im Folgenden werden daher sowohl die Einzeleffekte von kommunizierter Unsicherheit und Fehlern auf Lernen und Motivation untersucht als auch mögliche Interaktionseffekte zwischen beiden Imperfektionsformen.

a) Einfluss von Fehlern und Unsicherheit auf den Lernerfolg

Lernen stellt eine zentrale Zielvariable im Kontext pädagogischer Agenten dar, da diese Systeme explizit darauf ausgelegt sind, den Wissenserwerb, das Verständnis fachlicher Inhalte sowie metakognitive Prozesse der Lernenden – also das Überwachen und Steuern des eigenen Lernens (z. B. Verständnis prüfen, Unsicherheiten erkennen, Strategien anpassen) – zu unterstützen [10; 14]. Es ist dabei nicht nur relevant, ob ein Agent korrekte Informationen liefert, sondern wie diese Informationen kommuniziert werden und welche kognitiven Prozesse dadurch bei den Lernenden angestoßen werden [11; 10]. Insbesondere Eigenschaften wie Fehlerhaftigkeit und kommunikative Unsicherheit beeinflussen, in welchem Maße Lernende Agentenantworten kritisch reflektieren, überprüfen oder unkritisch übernehmen [27; 21; 15].

Lernen und Fehler

Li et al. untersuchen in einem experimentellen Setting pädagogische Agenten, die Lernenden Erklärungen zu Fachinhalten geben und dabei teilweise fehlerhafte Antworten produzieren [27]. Die Ergebnisse zeigen, dass fehlerhafte Agentenantworten das Lernverhalten und die Lernleistung negativ beeinträchtigen können, insbesondere wenn Lernende die Fehler nicht erkennen und Inhalte unkritisch übernehmen.

Gleichzeitig legen Befunde nahe, dass Fehler eines Agenten – sofern sie von Lernenden aktiv bearbeitet werden – auch Lerngelegenheiten eröffnen können. Okita [37] zeigt in einem Mathematik-Lernsetting, dass das Beobachten und Korrigieren von Rechenfehlern eines pädago-gischen Agenten das Monitoring der Lernenden stärkt und deren Fähigkeit verbessert, Aufgaben selbst korrekt zu lösen. Dieser potenzielle Nutzen setzt jedoch voraus, dass Fehler als solche auffallen und die Korrektur kognitiv verarbeitet wird. Aus dieser Perspektive ist zu erwarten, dass fehlerhafte Agentenantworten den Lernzuwachs insgesamt reduzieren, wenn Lernende Fehler nicht zuverlässig erkennen.

H1: Teilnehmende, die mit einem fehlerhaften pädagogischen Agenten interagieren, zeigen einen geringeren Lernzuwachs als Teilnehmende, die mit einem fehlerfreien pädagogischen Agenten interagieren.

Lernen und Unsicherheit

Studien zu LLM-basierten Assistenzsystemen zeigen, dass sprachlich kommunizierte Unsicherheit die Zustimmung zu Systemantworten sowie das blinde Verlassen auf die Systemantwort reduziert und zugleich die Genauigkeit der Nutzenden erhöhen kann, u. a. weil Antworten seltener unkritisch übernommen werden [21]. Dies kann Lernprozesse unterstützen, da Unsicherheitsmarker metakognitives Monitoring anstoßen und Lernende dazu anregen, Informationen aktiv zu validieren (z. B. durch Nachschlagen oder Abgleich mit Experten), statt sie passiv zu übernehmen. Daraus wird folgende Hypothese abgeleitet:

H2: Ein pädagogischer Agent, der unsicher kommuniziert, führt zu einem größeren Lernzuwachs als ein sicher kommunizierender pädagogischer Agent.

Interaktionseffekte Lernen

Kommunizierte Unsicherheit kann als Transparenzhinweis wirken: Sie macht Grenzen einer Antwort sichtbar, sodass Nutzende sich weniger auf die Systemantwort verlassen und ihr seltener zustimmen – und Informationen eher aktiv prüfen, vergleichen und einordnen [45; 21; 15]. Dadurch sollten fehlerhafte Inhalte seltener unkritisch übernommen werden, sodass sich negative Folgen von Fehlern bei unsicherer Kommunikation abschwächen [24; 13].

H3: (Interaktion Lernen): Der negative Effekt von Fehlern auf den Lernzuwachs ist stärker, wenn der Agent sicher kommuniziert, als wenn der Agent Unsicherheit kommuniziert.

b) Einfluss von Fehlern und Unsicherheit auf die Motivation

Motivation als abhängige Variable

Neben dem Lernzuwachs wird die intrinsische Motivation berücksichtigt, weil sie maßgeblich bestimmt, wie aufmerksam und engagiert Lernende sich mit den Inhalten auseinandersetzen und wie tief sie diese verarbeiten [40]. Gerade in Serious Games ist Motivation Teil der Wirklogik: Narrative Einbindung, Entscheidungen und die Unterstützung durch einen pädagogischen Agenten sollen Interesse fördern, können es aber auch mindern, wenn die Hilfe als wenig hilfreich oder frustrierend erlebt wird [8; 10]. Motivation ist zudem ein zentraler Hebel, der durch Interaktions- und Kommunikationsdesign beeinflusst wird (z. B. Feedbackstil, wahrgenommene Kompetenz des Agenten, Stimmigkeit der Unterstützung) [10; 14].

Motivation und Fehler

Nach der Self-Determination Theory (SDT) entsteht intrinsische Motivation insbesondere dann, wenn Lernende sich kompetent und selbstwirksam fühlen sowie Autonomie und soziale Eingebundenheit erleben; werden diese Bedürfnisse untergraben, sinken Interesse und Engagement [34; 40]. Pädagogische Agenten können Motivation fördern, indem sie Orientierung, verständliche Erklärungen und Feedback geben [10; 14]. Fehlerhafte Agentenantworten können jedoch das Kompetenzerleben schwächen, weil Lernende zusätzlichen Aufwand in das Prüfen, Korrigieren und Einordnen investieren müssen und die Lernaktivität dadurch weniger effizient und potenziell frustrierender wird. Empirische Befunde deuten zudem auf eine ambivalente Wirkung hin: Krishna und Pelachaud [22] berichten, dass fehlerhaftes Verhalten eines Peer-Agenten zwar dazu beitragen kann, dass Lernende ihn eher als „Peer” (und nicht als Tutor/Experten) einordnen, gleichzeitig aber mit geringerem berichteten Interesse bzw. geringerem motivationalem Erleben während der Lernaktivität einhergehen kann. Daher wird erwartet, dass ein fehlerhafter Agent die intrinsische Motivation im Vergleich zu einem fehlerfreien Agenten senkt.

H4: Ein fehlerhafter pädagogischer Agent führt zu einer geringeren intrinsischen Motivation als ein fehlerfreier pädagogischer Agent.

Motivation und Unsicherheit

Aus motivationspsychologischer Sicht kann Unsicherheit potenziell motivationsförderlich wirken, weil sie eine Wissenslücke sichtbar macht. Nach der Infor-mation-Gap-Theorie [29] entsteht Neugier, wenn Lernende eine saliente und grundsätzlich schließbare Wissenslücke zwischen ihrem aktuellen Wissen und dem für die Klärung einer Frage benötigten Wissen wahrnehmen. Diese Lücke wird als Spannungszustand erlebt und motiviert dazu, aktiv Informationen zu suchen, um die Lücke zu schließen. Auch Forschung zu epistemischen Emotionen legt nahe, dass Neugier und produktive Verwirrung mit Wissensexploration zusammenhängen [47]. Ein Agent, der seine Grenzen offenlegt und zur gemeinsamen Klärung einlädt, könnte diese Prozesse unterstützen. Demgegenüber betont die Self-Determination Theory (SDT) die Bedeutung des Kompetenzerlebens und einer verlässlichen Lernumgebung für intrinsische Motivation. Kommuniziert ein pädagogischer Agent häufig Unsicherheit, kann dies seine wahrgenommene Kompetenz beeinträchtigen und damit die Motivation mindern. Empirisch stützen Li und Yanagisawa (2021) diese Perspektive: In zwei experimentellen Studien mit einem sprachbasierten virtuellen Assistenten zeigen sie, dass wahrgenommene Leistungsunsicherheit die intrinsische Motivation reduziert, während transparente und gut vorhersagbare Systemgrenzen diese erhöhen [26]. Ergänzend belegt eine Meta-Analyse, dass die wahrgenommene kommunikative Kompetenz von Lehrpersonen systematisch mit der Lernmotivation von Studierenden zusammenhängt [17]. Auf Basis der oben eingeführten Annahme, dass Menschen auch gegenüber technischen Systemen soziale Merkmale interpretieren und ihnen Eigenschaften zuschreiben, ist plausibel, dass Unsicherheitskommunikation als Hinweis auf geringere (fachliche) Kompetenz verstanden wird und dadurch Motivation reduzieren kann. Ergänzend zeigen Chen et al., dass zögerliches Antwortverhalten (z. B. „ähm”) bei humanoiden Robotern ähnlich wie bei menschlichen Gesprächspartnern als Hinweis auf eine geringere Kompetenz interpretiert wird [9]. Der Kommunikationsstil eines pädagogischen Agenten ist daher geeignet, ähnliche motivational wirksame Mechanismen auszulösen wie der Kommunikationsstil einer menschlichen Lehrperson. Vor diesem Hintergrund wird folgende Hypothese aufgestellt:

H5: Ein pädagogischer Agent, der seine Antworten unsicher formuliert, führt zu einer geringeren Motivation als ein sicher kommunizierender pädagogischer Agent.

Interaktionseffekte Motivation

Fehlererfahrungen können Frustration auslösen und das Kompetenzerleben bzw. die wahrgenommene Kontrolle über das Lernen senken. Wird ein Fehler dabei sehr sicher präsentiert, ist die Diskrepanz zwischen Erwartung und Ergebnis typischerweise größer, was stärkere Enttäuschung und damit stärkere Motivationsverluste begünstigen kann [24; 13]. Unsicherheit sorgt für niedrigere Erwartung und kann dadurch die demotivierende Wirkung von Fehlern abmildern [45].

H6 (Interaktion Motivation): Der negative Effekt von Fehlern auf die intrinsische Motivation ist stärker, wenn der Agent sicher kommuniziert, als wenn der Agent Unsicherheit kommuniziert.

Kovariaten

Zusätzlich zu den experimentellen Faktoren werden mehrere Kovariaten erhoben, da diese die Bewertung des Agenten sowie Motivation und Lernen systematisch mitbeeinflussen können.

Alter, Geschlecht und Beruf

Alter, Geschlecht sowie der berufliche bzw. akademische Hintergrund (z. B. Studienfach, Bildungsgrad und Berufserfahrung) werden als Kovariaten erhoben, da diese Merkmale mit Unterschieden im Vorwissen, in Lernstrategien sowie im motivationalen Erleben zusammenhängen können. Dabei sind die erwarteten Zusammenhänge nicht strikt gerichtet, da sie stark vom jeweiligen Lerninhalt und Kontext abhängen: So kann eine größere fachliche Nähe zum Thema mit höherem Vorwissen und damit höheren Ausgangswerten einhergehen, während geringeres Vorwissen zugleich größere Lernzuwächse ermöglichen kann (mehr „Raum nach oben”). Ebenso können alters- oder erfahrungsbedingte Unterschiede mit Variationen in Lernstrategien, Techniknutzung und motivationalem Erleben verbunden sein. Forschung zur Lern- und Motivationspsychologie zeigt, dass demografische Merkmale und Bildungsbiografien sowohl das Ausgangsniveau als auch Lernen und intrinsische Motivation in digitalen Lernumgebungen beeinflussen können [30]. Entsprechend werden diese Variablen erhoben und in den Analysen zur Kontrolle interindividueller Unterschiede berücksichtigt.

Einstellung gegenüber KI

Die generelle Einstellung gegenüber KI wird als Kovariate erhoben, da sie beeinflussen kann, wie offen, engagiert und kritisch Lernende KI-basierte Lernumgebungen nutzen. Vorangegangene Forschung legt nahe, dass eine positivere Einstellung gegenüber KI mit höherer Nutzungsbereitschaft, größerem Engagement und höherer intrinsischer Motivation in KI-gestützten Lernkontexten einhergehen kann, während negativere Einstellungen eher mit Skepsis und geringerer Nutzungsbereitschaft verbunden sind [41; 28]. Da skeptische Einstellungen zugleich zu stärkerem kritischen Prüfen von Systemausgaben führen können und die Zusammenhänge mit Lernzuwachs daher kontextabhängig variieren können, wird die Einstellung gegenüber KI als Kovariate berücksichtigt, um interindividuelle Unterschiede im Lernzuwachs und in der intrinsischen Motivation statistisch zu kontrollieren.

Kontextvariablen

Die Kontextvariablen werden primär deskriptiv bzw. explorativ ausgewertet und bei Bedarf als Kovariaten in ergänzenden Analysen berücksichtigt, um alternative Erklärungen (z. B. Unterschiede in Beanspruchung oder Spielerlebnis) statistisch zu kontrollieren.

Akzeptanz

Die Akzeptanz des pädagogischen Agenten wird als begleitende Kontextvariable erhoben, da sie beeinflussen kann, in welchem Ausmaß Lernende bereit sind, sich auf die Interaktion mit dem Agenten einzulassen und dessen Beiträge in den Lernprozess zu integrieren. Forschung zu digitalen Lern- und Assistenzsystemen zeigt, dass wahrgenommene Nützlichkeit und Nutzungsbereitschaft mit Engagement, Aufmerksamkeitszuwendung und motivationalen Prozessen zusammenhängen können, was sich indirekt auf Lernverhalten und Lernergebnisse auswirkt [46; 14]. Entsprechend wird Akzeptanz zur Einordnung der Ergebnisse herangezogen und bei Bedarf in ergänzenden Analysen als Kovariate berücksichtigt, ohne selbst Gegenstand hypothesengeleiteter Prüfungen zu sein.

Agentenwahrnehmung

Zusätzlich wird die Wahrnehmung des pädagogischen Agenten als begleitende Kontextvariable erhoben. Dazu zählen subjektive Einschätzungen der Menschlichkeit, Plausibilität des Agenten sowie Charakteristiken der Agenten (z. B. Wärme). Diese Variablen werden erhoben, um sicherzustellen, dass die experimentellen Manipulationen (Fehler und Unsicherheit) tatsächlich als Unterschiede im Agentenverhalten wahrgenommen werden und um potenzielle unbeabsichtigte Nebenwirkungen auf die Gesamtwahrnehmung des Agenten zu erfassen. Die Maße dienen außerdem der evaluativen Beschreibung der Agenten-Inszenierung als Teil des Serious Games.

Kognitive Belastung

Die wahrgenommene kognitive Belastung wird erhoben, um zu prüfen, ob sich die experimentellen Bedingungen hinsichtlich der subjektiv erlebten Anforderung unterscheiden. Da sich die Versuchsbedingungen ausschließlich im Verhalten des pädagogischen Agenten unterscheiden, erlaubt diese Analyse eine Einschätzung, ob bestimmte Agentenverhaltensweisen als kognitiv belastender wahrgenommen werden. Die Ergebnisse werden explorativ ausgewertet und zur Interpretation der Effekte auf Lernzuwachs und intrinsische Motivation herangezogen.

Spielerlebnis

Das subjektive Spielerlebnis wird als begleitende Kontextvariable erhoben, da es beeinflussen kann, wie intensiv und aufmerksam sich Teilnehmende mit den Inhalten des Serious Games auseinandersetzen. Narrative Einbindung und wahrgenommene Stimmigkeit können das Ausmaß von Flow (vertiefte Konzentration und Involvierung) fördern und damit das Engagement während des Spiels prägen. Ergänzend wird die wahrgenommene User Experience (UX) erfasst, da Aspekte wie Bedienbarkeit, Verständlichkeit und allgemeine Nutzungsqualität die Interaktion mit dem Spiel erleichtern oder erschweren können. Flow und UX können somit Lern- und Motivationsprozesse indirekt beeinflussen, ohne selbst als Lernoutcomes verstanden zu werden.

Die Erfassung von Flow und UX dient insbesondere dazu, sicherzustellen, dass potenzielle Unterschiede im Lernzuwachs oder in der intrinsischen Motivation nicht auf grundlegende Unterschiede in der Spielgestaltung, Bedienbarkeit oder Immersion zurückzuführen sind. Auf diese Weise kann geprüft werden, ob beobachtete Effekte auf die experimentellen Manipulationen des pädagogischen Agenten zurückzuführen sind und nicht auf systematische Verzerrungen im Spielerlebnis.

Manipulationscheck

Zur Überprüfung der experimentellen Manipulationen wird ein Manipulationscheck durchgeführt. Dabei wird erhoben, wie sicher bzw. unsicher der pädagogische Agent in seinen Aussagen wahrgenommen wurde und ob der Agent als fehlerhaft erlebt wurde. Der Manipulationscheck dient der Absicherung der internen Validität, indem er prüft, ob die Bedingungen (Fehler vs. keine Fehler; Unsicherheitskommunikation vs. keine Unsicherheitskommunikation) von den Teilnehmenden wie intendiert wahrgenommen wurden.

Theoretische Einbettung: AI Literacy und Serious Game

AI Literacy wird als Bündel grundlegender Kenntnisse, Fähigkeiten und Einstellungen im Umgang mit KI verstanden. Das dem AICOS zugrunde liegende Kompetenzmodell umfasst sechs Kompetenzbereiche: Understand AI, Apply AI, Create AI, Detect AI, AI Ethics und Generative AI [32]. Diese Bereiche sind an kognitive Anforderungsniveaus angelehnt, wie sie u. a. in der Taxonomie nach Bloom beschrieben werden [18]. Der Kompetenzbereich AI Ethics umfasst Themenfelder wie Fairness und Nicht-Diskriminierung, Transparenz und Erklärbarkeit sowie rechtliche Aspekte (z. B. Datenschutz und Verantwortlichkeit).

Serious Games bezeichnen digitale Spiele, die nicht ausschließlich zu Unterhaltungszwecken entwickelt werden, sondern explizit Bildungs- oder Trainingsziele verfolgen [3; 12]. Sie teilen zentrale Merkmale mit herkömmlichen Computerspielen, wie Interaktivität, Herausforderungen und Feedback, kombinieren diese jedoch mit pädagogischen Elementen, um eine motivierende und lebendige Lernumgebung zu schaffen [8]. Empirische Arbeiten zu narrativen Serious Games zeigen zudem, dass sie Flow-Erleben und emotionale Einbindung fördern [2]. Ein gängiges Format für narrative Serious Games ist die Visual Novel, also eine narrativ geprägte Spielform, in der Dialoge im Vordergrund stehen und Entscheidungen an ausgewählten Stellen den Verlauf beeinflussen. Anschauliche Beispiele für die Visual-Novel-Erzähl- und Entscheidungslogik finden sich etwa in der Ace Attorney-Reihe [1] sowie in Spielen wie JudgeSim [42].

In einer verwandten Studie untersuchen Krop et al. mit Traversing the Pass ein Serious Game, das einen mentorartigen pädagogischen Agenten einsetzt [23]. Die Ergebnisse zeigen, dass Teilnehmende in der Agentenbedingung zwei Wochen nach dem Spielen einen besseren Wissensbehalt aufwiesen. Das Flow-Erleben wurde unmittelbar nach der Spielsitzung erhoben, fiel insgesamt moderat bis hoch aus und war in der Agentenbedingung deskriptiv höher als in der Vergleichsbedingung; der Unterschied war jedoch nicht signifikant [23].

Forschungslücke und Beitrag dieser Arbeit

Vorliegende Arbeiten zeigen, dass fehlerhafte Antworten generativer Agenten Lernprozesse beeinträchtigen können, insbesondere wenn Lernende Fehler nicht erkennen und Inhalte übernehmen [27]. Zudem deuten Befunde darauf hin, dass kommunizierte Unsicherheit die Zustimmung und das Sich-Verlassen auf Systemantworten reduzieren kann [21; 15]. Offen ist jedoch, wie sich diese Effekte in pädagogischen Agenten auswirken, die als Mentorfiguren in interaktiven, narrativen Serious Games eingebettet sind, und welche Rolle dabei intrinsische Motivation als zentrales Lern- und Engagementkriterium spielt [40].

Methodik

Um die beschriebene Forschungsfrage zu beantworten, werden insgesamt zwei Studien durchgeführt. Zunächst erfolgt eine Vorstudie zur Auswahl des pädagogischen Agenten, der in der Hauptstudie als Mentor fungieren soll. Diese Voruntersuchung dient dazu, sicherzustellen, dass der eingesetzte Agent von den Teilnehmenden als Mentor wahrgenommen wird. Anschließend wird in der Hauptstudie die eigentliche Forschungsfrage untersucht.

Vorstudie

Die Vorstudie folgt einem Within-Subjects-Design. Nach einer kurzen Beschreibung des Szenarios sehen die Teilnehmenden nacheinander kurze Videoausschnitte verschiedener potenzieller pädagogischer Agenten. Die Reihenfolge der sechs Videos wird ausbalanciert (Lateinisches Quadrat): Teilnehmende werden zufällig einer von sechs Reihenfolgen zugewiesen, um Reihenfolge- und Übertragungseffekte zu minimieren. In jedem Video stellt sich der jeweilige Avatar mit demselben Text als ehemalige:r Bürgermeister:in vor. Dabei macht der pädagogische Agent bewusst keine inhaltlichen Fehler und zeigt sich auch nicht unsicher, um Verzerrungen der Urteile zu vermeiden.

Für die Vorstudie wird eine Stichprobe von $N = 24$ angestrebt. Die Stichprobengröße wurde anhand einer a-priori Poweranalyse in G*Power bestimmt (ANOVA: Repeated measures, within factors; 6 Avatare). Als Annahme wurde ein mittlerer Effekt angesetzt (Cohen’s $f = 0.25$), was mit Effektannahmen in verwandten Arbeiten zu plausibilitäts- bzw. qualia-nahen Ratings konsistent ist [16]. Unter $\alpha = .05$, $1-\beta = .80$, einer moderaten Korrelation der Messwiederholungen ($r = .50$) sowie einer konservativen Sphärizitätskorrektur ($\epsilon = .75$) ergab sich eine erforderliche Stichprobengröße von $N = 23$ (tatsächliche Power = .82). Mit $N = 24$ können zudem die sechs ausbalancierten Präsentationsreihenfolgen des lateinischen Quadrats gleichmäßig besetzt werden ($n = 4$ pro Reihenfolge).

Um die Wahrnehmung der einzelnen pädagogischen Agenten zu erfassen, bewerten die Teilnehmenden nach jedem Video den gezeigten Avatar mithilfe der Messinstrumente: der AI Representation Scale [43], sowie der Virtual Human Plausibility Scale [31]. Auf diese Weise werden subjektive Einschätzungen der Agenten hinsichtlich der wahrgenommenen Plausibilität sowie Merkmalen wie Kompetenz, Wärme und Lebendigkeit erhoben. Ergänzend ordnen die Teilnehmenden nach jedem Video den Agenten einer Rolle (Mentor, Experte, motivierender Agent) zu, um die Passung zur vorgesehenen Mentorrolle zu prüfen. Nach der Bewertung aller Agenten wählen die Teilnehmenden den bevorzugten Agenten aus und erstellen eine Reihenfolge der Avatare hinsichtlich ihrer Eignung als Mentor. Nach der Bewertung aller Agenten beantworten die Teilnehmenden zusätzlich offene Fragen, um die Wahl des bevorzugten Mentor-Agenten zu begründen. Der finale Mentor-Agent wird primär anhand (1) der Häufigkeit der Mentor-Zuordnung und (2) der Präferenz- bzw. Rankingdaten bestimmt (z. B. Anteil der Erstwahlen, mittlerer Rang). Die Skalenwerte der AI Representation Scale und der Virtual Human Plausibility Scale (VHP) werden ergänzend herangezogen, um die Entscheidung zu begründen und bei vergleichbarer Präferenz als Tie-breaker zu dienen (höhere wahrgenommene Kompetenz/Wärme sowie höhere Plausibilität). Ausgewertet werden hierfür pro Avatar deskriptive Kennwerte (Mittelwerte, Standardabweichungen) für AI Representation und VHP, die Mentor-Zuordnung als Häufigkeit/Anteil sowie die Präferenzdaten über Erstwahl-Anteile und durchschnittliche Rangplätze; zusätzlich werden offene Begründungen inhaltsanalytisch kategorisiert, um die quantitative Auswahl inhaltlich abzusichern und ggf. kleine Gestaltungsanpassungen abzuleiten.

Hauptstudie

Nachdem in der Vorstudie der pädagogische Agent (ehemaliger Bürgermeister) ausgewählt wurde, der am überzeugendsten als Mentor wahrgenommen wird, folgt die Hauptstudie. Darin wird die Forschungsfrage empirisch untersucht: Die Teilnehmenden spielen das Visual-Novel-Serious-Game „Mayor of Tomorrow”, in dem der Agent als zentrale Mentorfigur auftritt.

Lernumgebung

Zur Untersuchung der Forschungsfrage wird das Visual-Novel-Serious-Game Mayor of Tomorrow eingesetzt. Das Spiel ist narrativ aufgebaut; Dialoge stehen im Vordergrund, und Entscheidungspunkte ermöglichen es den Spielenden, den Verlauf an ausgewählten Stellen zu beeinflussen. Dieses Format wird gewählt, da ethische Fragestellungen durch Perspektiven, Argumentationslinien und Konsequenzen in Dialogen strukturiert dargestellt werden können und Entscheidungssituationen Reflexion unterstützen.

Ablauf des Spiels

Zu Beginn stellt sich der Bürgermeister in einer kurzen Sequenz vor und erläutert seine frühere Rolle in der Stadt. Anschließend nehmen die Teilnehmenden an einer Unterhaltung in einem Park, in der Bürger der Stadt Fragen zu aktuellen gesetzlichen Rahmenbedingungen sowie zu ethischen Richtlinien beim Einsatz von KI in der Diagnostik aufwerfen. Bereits in dieser Szene können die Spielenden über dialogbasierte Wahlmöglichkeiten das Gespräch inhaltlich lenken (z. B. welche Aspekte vertieft werden sollen oder welche Handlungsoptionen priorisiert diskutiert werden). Im Anschluss daran führt der Bürgermeister ein direktes Gespräch mit den Teilnehmenden, in dem – je nach experimenteller Bedingung – entweder inhaltliche Fehler gemacht und/oder Unsicherheiten kommuniziert werden; entsprechend kann der Agent fehlerhaft, unsicher, beides oder weder von beidem auftreten.

Unsicherheit wird dabei nicht nur punktuell, sondern über mehrere Äußerungen hinweg konsistent durch explizite sprachliche Marker kommuniziert (z. B. „Ich bin mir nicht sicher, aber …”, „Soweit ich weiß …”, „Ich könnte mich irren …”). Dieses Vorgehen orientiert sich an etablierten Operationalisierungen von Unsicherheitskommunikation, bei denen Unsicherheit konsistent über sprachliche Marker ausgedrückt wird [21]. Fehlerhafte Aussagen können sich beispielsweise in einer falschen Benennung ethischer Prinzipien äußern, etwa wenn der Bürgermeister fälschlicherweise angibt, zentrale ethische Leitlinien bei der Entwicklung von KI seien „Ganzheitlichkeit, Schadensverhütung und Kostenreduktion”. In einer nachfolgenden Szene äußern sich Experten aus verschiedenen Disziplinen (z. B. Jura, Psychologie, Medizin) zu dem Thema, korrigieren die zuvor gemachten Fehler und stellen die relevanten Inhalte richtig, indem sie beispielsweise betonen, dass wichtige ethische Prinzipien Schadensverhütung, Transparenz und Fairness umfassen.

Im Anschluss können die wichtigsten Inhalte in einem In-Game-Nachschlagewerk (in Form eines Buches) nachgelesen werden. Am Ende des Spiels treffen die Teilnehmenden eine Entscheidung darüber, ob und in welchem Umfang KI in der medizinischen Diagnostik in der fiktiven Stadt eingesetzt werden soll.

Stichprobe und Poweranalyse

Die Hauptstudie verwendet ein vollständig gekreuztes $2 \times 2$ Between-Subjects-Design mit den Faktoren Fehler (ja vs. nein) und kommunizierte Unsicherheit(ja vs. nein). Die Teilnehmenden werden zufällig einer der vier Versuchsbedingungen zugewiesen (geplant: $N = 100$, entsprechend $n = 25$ pro Zelle).

Zur Absicherung der Stichprobengröße wurde eine a-priori Poweranalyse mit G*Power durchgeführt (F-Tests; ANCOVA: Fixed effects, main effects and interactions). Da in den Analysen zusätzlich Kovariaten berücksichtigt werden, wurde die Poweranalyse als ANCOVA spezifiziert (Anzahl Gruppen = 4; Anzahl Kovariaten = 2; Numerator-$df=1$). Bei $\alpha = .05$ und einer angestrebten Power von $1-\beta = .80$ ergibt sich für eine Ziel-Effektstärke von Cohen’s $f = 0.30$ ein erforderlicher Stichprobenumfang von $N = 90$; entsprechend wird $N = 100$ als ausreichend betrachtet, um Haupteffekte im Bereich $f \approx 0.30$ nachzuweisen.

Als inhaltliche Begründung für die gewählte Ziel-Effektstärke werden metaanalytische Befunde zu (affektiven/embodied) pädagogischen Agenten herangezogen. Guo und Goh berichten $r=.29$ (Retention) und $r=.35$ (Motivation) [19]. Für $df_1=1$ wurde näherungsweise $\eta_p^2 \approx r^2$ verwendet und anschließend in Cohen’s $f$ überführt ($f=\sqrt{\eta_p^2/(1-\eta_p^2)}$). Daraus ergibt sich für Retention $f\approx 0.30$, weshalb $f=0.30$ als Ziel-Effektstärke angesetzt wurde.

Versuchsablauf

Nach der Aufklärung über Zielsetzung, Ablauf der Studie und die Verarbeitung der erhobenen Daten sowie der Einholung der Einwilligung wird zunächst die Nutzungshäufigkeit KI-basierter Anwendungen erfasst. Anschließend absolvieren die Teilnehmenden den AICOS-Wissenstest [32], um das Ausgangsniveau ihres Wissens im Kompetenzbereich AI Ethics objektiv zu bestimmen. Danach bearbeiten sie den GAAIS-Fragebogen zur Einstellung gegenüber KI [41] sowie den MAILS-Fragebogen zur Selbsteinschätzung ihrer Kompetenzen in verschiedenen Bereichen der AI Literacy [7]. Im Anschluss spielen die Teilnehmenden das Serious Game „Mayor of Tomorrow”. Je nach experimenteller Bedingung kommuniziert der pädagogische Agent dabei Unsicherheit und/oder macht faktische Fehler in Bezug auf Inhalte aus dem Bereich AI Ethics.

Nach Abschluss der Spielphase bearbeiten die Teilnehmenden zunächst den NASA-TLX zur Erfassung der subjektiven Beanspruchung [20]. Anschließend füllen sie den Intrinsic Motivation Inventory (IMI) aus [33], um die Motivation nach der Intervention zu erfassen. Darauf folgen der Agent Persona Index (API), der Virtual Human Plausibility Test sowie der AI-Representation-Fragebogen [5; 31; 43], um die Wahrnehmung und Plausibilität des Agenten zu evaluieren. Direkt im Anschluss wird das Technology Acceptance Model (TAM) zur Erfassung der Akzeptanz erhoben [46].

Im nächsten Schritt beantworten die Teilnehmenden einen Manipulationscheck, bei dem abgefragt wird, wie sicher der Agent wahrgenommen wurde und ob er als fehlerhaft erlebt wurde. Die Spielerfahrung wird danach über die Flow Short Scale (FSS) [39] sowie das UX Evaluation Instrument erfasst [35]. Darauf folgt die erneute Bearbeitung des MAILS-Fragebogens zur subjektiven Selbsteinschätzung der AI-Literacy-Kompetenzen [7]. Abschließend wird der Wissensstand nach dem Spiel mittels des AICOS-Wissenstests erneut überprüft [32].

Zum Abschluss beantworten die Teilnehmenden offene Fragen zu ihrem subjektiven Erleben, machen demografische Angaben [25] (z.,B. Alter, Geschlecht, Studien- bzw. beruflicher Hintergrund), erhalten ihre Vergütung (z.,B. Versuchspersonenstunden oder eine finanzielle Entschädigung) und werden im Rahmen eines Debriefings über die genaue Zielsetzung der Studie informiert und verabschiedet.

Timeline

Literature

[1] Attorney Online Community. n.d. Attorney Online Community – Home. Abgerufen am 8. Januar 2026 von https://aceattorneyonline.com/
[2] Andreas Alexiou, Michaela C. Schippers, Ilan Oshri, and Spyros Angelopoulos. 2022. Narrative and aesthetics as antecedents of perceived learning in serious games. Information Technology & People, 35(8), 142–161. http://www.emerald.com/itp/article/35/8/142-161/185903
[3] Eike Falk Anderson, Leigh McLoughlin, Fotis Liarokapis, Christopher Peters, Panagiotis Petridis, and Sara de Freitas. 2009. Serious Games in Cultural Heritage. In VAST 2009: 10th International Symposium on Virtual Reality, Archaeology and Cultural Heritage (VAST-STAR, Short and Project Proceedings), 22–25 September 2009, St. Julian’s, Malta, 29–48. Faculty of ICT, University of Malta.
[4] Amy Baylor. 2000. Beyond Butlers: Intelligent Agents as Mentors. Journal of Educational Computing Research, 22(4), 373–382. https://doi.org/10.2190/1EBD-G126-TFCY-A3K6
[5] Amy L. Baylor and Jeeheon Ryu. 2003. The API (Agent Persona Instrument) for Assessing Pedagogical Agent Persona. Educational Technology & Society, 6(1), 3–7.
[6] Amy L. Baylor. 2009. Promoting motivation with virtual agents and avatars: Role of visual presence and appearance. Philosophical Transactions of the Royal Society B: Biological Sciences, 364(1535), 3559–3565. https://doi.org/10.1098/rstb.2009.0148
[7] Astrid Carolus, Martin J. Koch, Samantha Straka, Marc Erich Latoschik, and Carolin Wienrich. 2023. MAILS – Meta AI Literacy Scale: Development and Testing of an AI Literacy Questionnaire Based on Well-Founded Competency Models and Psychological Change- and Meta-Competencies. Computers in Human Behavior: Artificial Humans, 1(2), 100014. https://doi.org/10.1016/j.chbah.2023.100014
[8] Dennis Charsky. 2010. From edutainment to serious games: A change in the use of game characteristics. Games & Culture, 5(2), 177–198. https://doi.org/10.1177/1555412009354727
[9] Xinyi Chen and Yao Yao. 2026. To ‘errr’ is robot: How humans interpret hesitations in the speech of a humanoid robot. International Journal of Human–Computer Studies, 208, 103681. https://doi.org/10.1016/j.ijhcs.2025.103681
[10] Steffi Heidig and Geraldine Clarebout. 2011. Do pedagogical agents make a difference to student motivation and learning? Educational Research Review, 6(1), 27–54. https://doi.org/10.1016/j.edurev.2010.07.004
[11] Ruth Colvin Clark, Richard E. Mayer, and Will Thalheimer. 2003. E-learning and the Science of Instruction: Proven Guidelines for Consumers and Designers of Multimedia Learning. Performance Improvement, 42(5), 41–43. https://doi.org/10.1002/pfi.4930420510
[12] Sara de Freitas and Fotis Liarokapis. 2011. Serious games: A new paradigm for education? In Minhua Ma, Andreas Oikonomou, and Lakhmi C. Jain (Eds.), Serious Games and Edutainment Applications (pp. 9–23). Springer-Verlag, London. https://doi.org/10.1007/978-1-4471-2161-9_2
[13] Berkeley J. Dietvorst, Joseph P. Simmons, and Cade Massey. 2015. Algorithm aversion: People erroneously avoid algorithms after seeing them err. Journal of Experimental Psychology: General, 144(1), 114–126. https://doi.org/10.1037/xge0000033
[14] Steffi Domagk. 2010. Do pedagogical agents facilitate learner motivation and learning outcomes? Journal of Media Psychology, 22(2), 122–130. https://doi.org/10.1027/1864-1105/a000011
[15] Mateusz Dubiel, Sylvain Daronnat, and Luis A. Leiva. 2022. Conversational Agents Trust Calibration: A User-Centred Perspective to Design. In 4th Conference on Conversational User Interfaces (CUI 2022), July 26–28, 2022, Glasgow, United Kingdom. ACM, New York, NY, USA, 10 pages. https://doi.org/10.1145/3543829.3544518
[16] Florian Dufresne, Charlotte Dubosc, Geoffrey Gorisse, and Olivier Christmann. 2024. Understanding the Impact of Coherence between Virtual Representations and Possible Interactions on Embodiment in VR: an Affordance Perspective. In Extended Abstracts of the CHI Conference on Human Factors in Computing Systems (CHI EA ‘24), Article 353, 7 pages, Honolulu, HI, USA. Association for Computing Machinery, New York, NY, USA. https://doi.org/10.1145/3613905.3650752
[17] Amber Finn, Paul Schrodt, Paul Witt, Nikki Elledge, Kodiane Jernberg, and Lara Larson. 2009. A meta-analytical review of teacher credibility and its associations with teacher behaviors and student outcomes. Communication Education, 58, 516–537. https://doi.org/10.1080/03634520903131154
[18] Aytac Gogus. 2012. Bloom’s Taxonomy of Learning Objectives. In Norbert M. Seel (Ed.), Encyclopedia of the Sciences of Learning (pp. 469–473). Springer US, Boston, MA. https://doi.org/10.1007/978-1-4419-1428-6_141
[19] Yanru R. Guo and Dion H.-L. Goh. 2015. Affect in embodied pedagogical agents: Meta-Analytic Review. Journal of Educational Computing Research, 53(1), 124–149. https://doi.org/10.1177/0735633115588774
[20] Sandra G. Hart. 2006. NASA-Task Load Index (NASA-TLX); 20 years later. In Proceedings of the Human Factors and Ergonomics Society Annual Meeting, 50(9), 904–908. Sage Publications, Los Angeles, CA. https://doi.org/10.1177/154193120605000909
[21] Sunnie S. Y. Kim, Q. Vera Liao, Mihaela Vorvoreanu, Stephanie Ballard, and Jennifer Wortman Vaughan. 2024. "I’m Not Sure, But...": Examining the Impact of Large Language Models’ Uncertainty Expression on User Reliance and Trust. In Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency, 822–835. https://doi.org/10.48550/arXiv.2405.00623
[22] Sooraj Krishna and Catherine Pelachaud. 2022. Impact of Error-making Peer Agent Behaviours in a Multi-agent Shared Learning Interaction for Self-Regulated Learning. In Proceedings of the 14th International Conference on Agents and Artificial Intelligence (ICAART 2022), Volume 1, 337–344. https://doi.org/10.5220/0010881400003116
[23] Philipp Krop, Sebastian Oberdörfer, and Marc Erich Latoschik. 2023. Traversing the Pass: Improving the Knowledge Retention of Serious Games Using a Pedagogical Agent. Proceedings of the 23rd ACM International Conference on Intelligent Virtual Agents (IVA ‘23). Association for Computing Machinery, Würzburg, Germany, Article 26, 8 pages. https://doi.org/10.1145/3570945.3607360
[24] John D. Lee and Katrina A. See. 2004. Trust in automation: Designing for appropriate reliance. Human Factors, 46(1), 50–80.
[25] Timo Lenzner, Philipp Hadler, Claudia Neuert, Michael Klingler, Mareike Wolf, and Argyri Sarafoglou. 2019. Demographische Standards. Kognitiver Pretest. GESIS Projektbericht. Version 1.0. GESIS – Pretestlabor. https://doi.org/10.17173/pretest75
[26] Chang Li and Hideyoshi Yanagisawa. 2020. Intrinsic motivation in virtual assistant interaction for fostering spontaneous interactions. arXiv preprint. https://doi.org/10.48550/arXiv.2010.06416
[27] Tiffany Wenting Li, Yifan Song, Hari Sundaram, and Karrie Karahalios. 2025. Can Learners Navigate Imperfect Generative Pedagogical Chatbots? An Analysis of Chatbot Errors on Learning. In Proceedings of the Twelfth ACM Conference on Learning @ Scale, 151–163. https://doi.org/10.1145/3698205.3729550
[28] Haiying Liang and Michael J. Reiss. 2025. The associations between students’ attitudes toward AI and learning engagement: serial mediating roles of perceived autonomy and learning enjoyment. Frontiers in Psychology, 16, 1681635. https://doi.org/10.3389/fpsyg.2025.1681635
[29] George Loewenstein. 1994. The psychology of curiosity: A review and reinterpretation. Psychological Bulletin, 116(1), 75–98. https://doi.org/10.1037/0033-2909.116.1.75
[30] Yefeng Lu, Xiaocui Hong, and Longhai Xiao. 2022. Toward High-Quality Adult Online Learning: A Systematic Review of Empirical Studies. Sustainability, 14(4), 2257. https://doi.org/10.3390/su14042257
[31] David Mal, Erik Wolf, Nina Döllinger, Mario Botsch, Carolin Wienrich, and Marc Erich Latoschik. 2022. Virtual Human Coherence and Plausibility – Towards a Validated Scale. In 2022 IEEE Conference on Virtual Reality and 3D User Interfaces Abstracts and Workshops (VRW), 788–789. https://doi.org/10.1109/VRW55335.2022.00245
[32] André Markus, Astrid Carolus, and Carolin Wienrich. 2025. Objective measurement of AI literacy: Development and validation of the AI competency objective scale (AICOS). Computers and Education: Artificial Intelligence 9 (2025), 100485. https://doi.org/10.1016/j.caeai.2025.100485
[33] Edward McAuley, Terry Duncan, and Vance V. Tammen. 1989. Psychometric properties of the Intrinsic Motivation Inventory in a competitive sport setting: A confirmatory factor analysis. Research Quarterly for Exercise and Sport, 60(1), 48–58. https://doi.org/10.1080/02701367.1989.10607413
[34] Karen A. Miller, Edward L. Deci, and Richard M. Ryan. 1988. Intrinsic motivation and self-determination in human behavior. Contemporary Sociology, 17(2), 253.
[35] Jonathan Moizer, Jonathan Lean, Elena Dell’Aquila, Paul Walsh, Alphonsus (Alfie) Keary, Deirdre O’Byrne, Andrea Di Ferdinando, Orazio Miglino, Ralf Friedrich, Roberta Asperges, and Luigia Simona Sica. 2019. An approach to evaluating the user experience of serious games. Computers & Education, 136, 141–151. https://doi.org/10.1016/j.compedu.2019.04.006
[36] Clifford Nass and Youngme Moon. 2000. Machines and mindlessness: Social responses to computers. Journal of Social Issues, 56, 81–103. https://doi.org/10.1111/0022-4537.00153
[37] Sandra Y. Okita. 2014. Learning from the folly of others: Learning to self-correct by monitoring the reasoning of virtual characters in a computer-supported mathematics learning environment. Computers & Education, 71, 257–278.
[38] Byron Reeves and Clifford I. Nass. 1996. The Media Equation: How People Treat Computers, Television, and New Media Like Real People and Places. Cambridge University Press, Cambridge.
[39] Falko Rheinberg, Regina Vollmeyer, and Stefan Engeser. 2003. Die Erfassung des Flow-Erlebens. In Joachim Stiensmeier-Pelster and Falko Rheinberg (Eds.), Diagnostik von Motivation und Selbstkonzept (pp. 261–279). Hogrefe, Göttingen. https://doi.org/10.23668/psycharchives.8590
[40] Richard M. Ryan and Edward L. Deci. 2000. Self-determination theory and the facilitation of intrinsic motivation, social development, and well-being. American Psychologist, 55(1), 68.
[41] Anna Schepman and Paul Rodway. 2022. The General Attitudes towards Artificial Intelligence Scale (GAAIS): Confirmatory Validation and Associations with Personality, Corporate Distrust, and General Trust. International Journal of Human–Computer Interaction, 39(13), 2724–2741. https://doi.org/10.1080/10447318.2022.2085400
[42] Steam Community. n.d. JudgeSim. Abgerufen am 8. Januar 2026 von https://steamcommunity.com/app/2919660
[43] Samantha Straka, Martin J. Koch, Astrid Carolus, Marc Erich Latoschik, and Carolin Wienrich. 2023. How do employees imagine AI they want to work with: A drawing study. Extended Abstracts of the 2023 CHI Conference on Human Factors in Computing Systems, 1–8. https://doi.org/10.1145/3544549.3585631
[44] Yujie Sun, Dongfang Sheng, Zihan Zhou, and Yifei Wu. 2024. AI hallucination: towards a comprehensive classification of distorted information in artificial intelligence-generated content. Humanities and Social Sciences Communications, 11(1), 1278. https://doi.org/10.1057/s41599-024-03811-x
[45] Anne Marthe Van Der Bles, Sander van der Linden, Alexandra L. J. Freeman, and David J. Spiegelhalter. 2020. The effects of communicating uncertainty on public trust in facts and numbers. Proceedings of the National Academy of Sciences, 117(14), 7672–7683.
[46] Viswanath Venkatesh. 2000. Determinants of Perceived Ease of Use: Integrating Control, Intrinsic Motivation, and Emotion into the Technology Acceptance Model. Information Systems Research, 11(4), 342–365. https://doi.org/10.1287/isre.11.4.342.11872
[47] Elisabeth Vogl, Reinhard Pekrun, Kou Murayama, and Kristina Loderer. 2020. Surprised-curious-confused: Epistemic emotions and knowledge exploration. Emotion, 20(4), 625–641. https://doi.org/10.1037/emo0000578

Contact Persons at the University Würzburg

Philipp Krop (Primary Contact Person)
Human-Computer Interaction Group & Psychology of Intelligent Interactive System, University of Würzburg
philipp.krop@uni-wuerzburg.de