Integration von Supervised-Learning-Verfahren zur Merkmalsextraktion und Gestenerkennung in Simulator X
This project is already completed.
Hintergrund
In modernen, immersiven Systemen sind multimodale Schnittstellen notwendig, um dem Nutzer ein ganzheitliches Interaktionskonzept zur Verfügung zu stellen. Die Umsetzung dieser Schnittstellen erfordert unter anderem die Verarbeitung spatio-temporaler Bewegungsdaten des Benutzers zur Erkennung von Gesten oder zu Extraktion relevanter Merkmale (Features). Auf Grund der individuellen Eigenschaften des einzelnen Benutzers sowie auf Grund des kulturellen Kontexts sind diese Eingabedaten jedoch mit einer inhärenten Varianz behaftet. Der Umgang mit dieser Varianz bei der Verarbeitung der Daten hat deshalb einen wesentlichen Einfluss auf die Qualität der Gestenerkennung und Merkmalsextraktion und somit auch auf die Qualität der Benutzerschnittstelle (Latoschik und Fischbach 2014).
Methoden aus dem Bereich des maschinellen Lernens eignen sich hier besonders zur Datenverarbeitung, da die Verfahren an sich bereits eine automatische Anpassung an die Varianz der Eingabedaten beinhalten. Dennoch werden in vielen Systemen aktuell sogenannte template-basierte Verfahren eingesetzt, welche eine manuelle Anpassung erfordern. Der Unterschied der beiden Herangehensweisen liegt in der Definition der Abbildung der Eingabedaten auf extrahierte Merkmale sowie deren Parameter. Während es template-basierte Verfahren erfordern dass diese vom Programmierer fest im Code verankert werden, werden die bei den maschinellen Lehrverfahren auf basis von vorgegebenen Trainingsdaten automatisch bestimmt. Das hat zur Folge, dass Template-basierte Verfahren zwar einfacher und schneller zu programmieren sind, dafür maschinelle Lernverfahren im allgemeinen eine höhere Flexibilität bieten und zudem deutlich komplexere Strukturen erkennen können (Alpaydin 2010, S. 1-4). Auf Grund der genannten Eigenschaften maschineller Lernverfahren, gilt es langfristig zu untersuchen, ob diese Verfahren auch in Bezug auf Usability und praktischem Forschungseinsatz überlegen sind. Eine Integration derartiger maschineller Lernverfahren in die Softwareplattform Simulator X ist ein erster Schritt in diese Richtung. Zudem erweitert sie den Funktionsumfang der Plattform zur Umsetzung vieler multimodaler Interaktionstechniken.
Voraussetzungen
In einer eigenen Vorarbeit wurde ein Gestenerkenner entwickelt, welcher auf einem neuronalen Netz basiert. Die Anwendung erfasst dabei Trackingdaten die via VRPN im Netzwerk bereit gestellt werden, z.B. von Mircosofts Kinect Sensor und dem Flexible Action and Articulated Skeleton Toolkit (FAAST). Aus den Aufnahmen werden Merkmale und Parameter extrahiert, welche als Eingabe für das neuronale Netz dienen. Das neuronale Netz wurde in einem ersten Anwendungsfall erfolgreich trainiert und als Klassifikator für zehn unterschiedliche Gesten eingesetzt, mit Hilfe derer eine Anwendung auf Simulator X-Basis gesteuert wurde.
Zielsetzung
Im Rahmen dieses Projekts soll eine Supervised-Learning-Komponente für Simulator X entwickelt
werden, welche ein beliebig austauschbares Verfahren des maschinellen Lernens kapselt und flexibel
in Simulator X einsatzbar macht.
In einer ersten Umsetzung dieser Komponente sollen die Algorithmen des neuronalen Netzes des
zuvor erwähnten Gesternerkenners in eine solche Komponente eingekapselt werden. Diese
Komponente ermöglicht es Anwendungsentwicklern Machine-Learning-Ansätze zur Klassifikation von
Daten individuell anpassen, trainieren und nutzen zu können.
Aufgabenstellung
- Analyse und Umsetzung der Anforderungen zentraler Anwendungsfälle
- Generalisierung der eigenen Vorarbeit
- Integration der generalisierten Klassifikation in die Komponentenstruktur von Simulator X
- Validierung im Rahmen einer einfachen Beispielanwendung
Literatur
Marc Erich Latoschik, Martin Fischbach, Engineering Variance: Software Techniques for Scalable, Customizable, and Reusable Multimodal Processing, In Proceedings of the HCI International Conference 2014. Springer, 2014. To appear.
Ethem Alpaydin, Introduction to machine learning (Second Edition), The MIT Press, 2010
Betreuer
M.Sc. Martin Fischbach
Telefon: 0931 31 86314
E-Mail: martin.fischbach@uni-wuerzburg.de
Contact Persons at the University Würzburg
Martin FischbachMensch-Computer-Interaktion, Universität Würzburg
martin.fischbach@uni-wuerzburg.de