Stop Over There: Speech- and Gesture-based Micro-Interaction for Virtual Autonomous Vehicles
This project is already completed.

Übersicht
Autonomes Fahren wird von führenden Automobilherstellern erforscht und soll in den nächsten Jahrzehnten im Straßenverkehr Einzug halten. Neben technischen Herausforderungen stellt sich aus der Fahrerperspektive die Frage, wie die Fahrer-Fahrzeug-Interaktion im autonomen Fahrzeug idealerweise gestaltet sein sollte. Die vorliegende Arbeit soll sich damit beschäftigen, wie Fahrer die Vor-Ort-Navigation und Fahrzeugsteuerung multimodal – hier mittels Sprach- und Freihand- Gestensteuerung – beeinflussen und Informationen über die Fahrzeugumgebung abrufen können. Grundlegende Aufgaben und Interaktionskonzepte können aus nicht-autonomen Fahrzeugen übernommen werden (bspw. grobe Navigation zu einem entfernten Ziel).
Stand der Technik und Forschung
Daimler und Google demonstrieren bereits, dass auch längere Fahrten im Straßenverkehr aus technischer Sicht sicher und zügig möglich sind. Aus der HCI-relevanten Fahrerperspektive müssen individuelle Fahrerwünsche und –ziele vom Menschen an das Fahrzeug übermittelt werden. Es wird davon ausgegangen, dass hierbei sowohl Ein- als auch Ausgabe multimodal stattfinden werden (Pawsey, 2014) und eine optimale User Experience unerlässlich für die Nutzerakzeptanz der neuen Technologie ist (Riener, 2014). Sowohl Sprach- als auch Freihand-Gestensteuerung werden bereits vor allem für die Bedienung von bisherigen Infotainmentsystemen genutzt. Hier zeigt sich, dass reine Sprachsteuerung oftmals aufgrund geringer Zuverlässigkeit des Systems eine schlechte User Experience verursacht und sogar stark von der Fahraufgabe ablenken kann (Strayer, Turrill, Coleman, Ortiz, & Cooper, 2014). Durch die nicht mehr an die Fahraufgabe gebundenen Hände könnte im autonomen Fahrzeug eine Kombination mit Gestensteuerung zu einer erhöhten Zuverlässigkeit des Systems und somit zu einer besseren User Experience führen.
Zusätzlich zu neuen Interaktionsformen werden auch neue Use-Cases durch die Einführung von autonomen Fahrzeugen denkbar. So kann durch die ohnehin vorhandene Sensorik die Fahrzeugumgebung so nachmodelliert werden, dass der Fahrer einzelne Verkehrsteilnehmer, Straßenelemente oder Flächen (z.B. kurzer Halt an bestimmter Ampel zum Auflesen eines Bekannten oder präferierter Parkplatz bei mehreren vorhandenen Flächen) direkt auswählen kann. Erste Interaktionsansätze für diesen Einsatzbereich beschränken sich jedoch nur auf unimodale Objektselektion beispielsweise auf Touchscreens oder lediglich „Parkplatz links“ bzw. „Parkplatz rechts“ mittels Gestensteuerung (Shen, Weng, & Albrecht, 2013). Ausgewählte Objekte, Flächen und zugehörige Befehle hingegen direkt über Freihand-Gesten und Spracheingaben an das System zu übermitteln, stellt eine neue Interaktionsform dar.
In der vorliegenden Arbeit soll der Schwerpunkt auf der Erfassung von Sprache und Handgesten liegen. Die im Juli 2014 erschienene Kinect 2.0 stellt eine deutliche Weiterentwicklung der Vorgängerversion dar und eignet sich zur Implementierung eines solchen multimodalen Interaktionssystems. Durch die Fusionierung von Sprache und Gestik direkt in Unity 3D 5.0 kann eine starke Kopplung zwischen Eingaben ins System und zeitnahem User-Feedback erreicht werden.
Konzept
Im Folgenden soll der Rahmen und die Zielsetzung der vorliegenden Masterarbeit kurz skizziert werden. Grundlegendes Ziel der Arbeit ist das Testen eines lauffähigen Prototyps in einer Simulationsumgebung unter Laborbedingung mit mehreren Benutzern.
Mittels freier Handgesten kann der Benutzer einzelne Objekte und Flächen in der Simulationsumgebung auswählen und dem System per Sprachsteuerung verschiedene Anweisungen geben. Dies ist sowohl während der Fahrt mit geringer Geschwindigkeit als auch im Stand möglich. Auswählbare Objekte stellen vor allem statische Objekte und Flächen dar. Das System visualisiert dabei jede erkannte Auswahl und ermöglicht so eine zeitnahe Rückmeldung durch das System an den Benutzer. Folgende Sprachbefehle sollen mindestens implementiert werden: Navigation zu einem bestimmten Punkt („fahre zu diesem Haus“), temporäres Anhalten an einer bestimmten Fläche oder einem bestimmten Objekt („halte an diesem Objekt für 30 Sekunden“) und Navigation zu einer bestimmten freien Fläche („parke dort vorne rechts“). Zusätzlich zu Navigationsfunktionalitäten können weitere Interaktionsmöglichkeiten eingebaut werden. So könnten zum Beispiel Informationen zu einzelnen ausgewählten Objekten abgerufen („zeige Informationen zu diesem Haus“) oder einzelne Fahrzeugparameter verändert werden ([Geste nach unten] + „langsamer“). Die beschriebenen Szenarien werden in stark reduzierter Form in Simulator X implementiert und sollen die Grundstruktur der zu untersuchenden Use-Cases realisiert. Die Szenarien sind nicht auf Verkehr in der Stadt beschränkt. Vielmehr können auch einfachere Umgebungen, wie zum Beispiel freie Flächen mit einigen Hindernissen befahren werden.
Die Integration der beiden Eingabemethoden (Sprache und Gestik) kann hierbei softwareseitig durch ein angepasstes temporal Augmented Transition Network (tATN, aufbauend auf der Grundidee von finite state machines, wie zum Beispiel Markov Modellen; siehe Latoschik, 2002) erfolgen. In Unity wird neben der Verarbeitung der Benutzereingaben auch die Berechnung der virtuellen Umgebung stattfinden. Hierzu wird eine einfache und stark reduzierte Verkehrssituation (zum Beispiel schematische Straße mit wenigen Objekten) implementiert, in der wesentliche Bewegungsparameter eines autonom fahrenden Fahrzeug (zum Beispiel Bewegungsrichtung, -geschwindigkeit & - beschleunigung) realisiert und durch Benutzereingaben manipuliert werden können.
Literatur
Latoschik, M. E. (2002). Designing transition networks for multimodal VR-interactions using a markup language. In Proceedings of the 4th IEEE International Conference on Multimodal Interfaces. IEEE Computer Society.
Pawsey, C. (2014). A Holistic Approach to Vehicle HMI with Multi-Modal Systems. In: 5th International Conference Automotive Cockpit HMI 2014, Frankfurt, Deutschland (unveröffentlicht). Abgerufen am 31.11.2014 von http://www.cockpit-hmi.com/FormDownloadThankYou.aspx?target=http:// www.cockpit-hmi.com/media/9256/27966.pdf&eventid=9256&m=27966#
Riener, A. (2014). Who Cares about Trust, Grade of Traveling & Quality of User Experience in a World of Autonomous Cars? In Miller & Wu (2014) 6th International Conference on Automotive User Interfaces and Interactive Vehicular Applications (S. 1-3). New York, USA: ACM.
Shen, Z., Weng, F., & Albrecht, B. (2013). U.S. Patent: System and Method for Using Gestures in Autonomous Parking: Google Patents.
Strayer, D. L., Turrill, J., Coleman, J. R., Ortiz, E. V., & Cooper, J. M. (2014). Measuring Cognitive Distraction in the Automobile II: Assessing In-Vehicle Voice-Based. Accident Analysis & Prevention, 372, 379.
Contact Persons at the University Würzburg
Marc Erich Latoschik (Primary Contact Person)Mensch-Computer-Interaktion, Universität Würzburg
marc.latoschik@uni-wuerzburg.de