PhD Theses at KOM

Full-Body Motion Tracking in Immersive Virtual Reality - Full-Body Motion Reconstruction and Recognition for Immersive Multiplayer Serious Games

Polona Caserman

Tuesday June 22, 2021

English abstract:

The release of consumer-grade virtual reality head-mounted displays contributed to the development of immersive applications that convey an illusion of being present in the virtual environment. This great potential of virtual reality is promising not only for the entertainment industry but also for education and health.
However, the head-mounted display obstructs the players’ view of the real environment, causing them to see neither the real environment nor their bodies or those of their teammates and opponents. Therefore, full-body motion reconstruction is essential to improve the sense of presence and interaction among users. Nevertheless, due to the lack of users’ motion data, many popular virtual reality games focus solely on upper-body movements and show only controllers or floating hands. Moreover, full-body motion recognition is crucial to ensure that users perform desired physical activities correctly, either to improve health outcomes or to lower the risk of injury.
The contributions in this thesis include the reconstruction and recognition of fullbody movements using off-the-shelf virtual reality devices. However, such a motion tracking system requires many sensors to be attached to the body, making it difficult to set up and uncomfortable to wear. Therefore, as the first contribution, the number of sensors is reduced to not restrict the user’s movements. A reduction in sensors is also required in health-based applications as patients with physical limitations often cannot hold or wear additional devices. To this end, inverse kinematics methods are explored and their parameters are optimized to estimate the full-body pose with high accuracy and low latency. Because high latency between the user’s movements and the corresponding visual feedback on the head-mounted display causes cybersickness, the effect of increased end-to-end latency on user experience and performance is investigated as the second contribution. Here, an end-to-end latency threshold that elicits significant cybersickness and causes users to need significantly more time to complete a task is identified. As the third contribution, machine learning algorithms are employed to identify suitable sensor positions for reliable full-body motion recognition. Thereby, the entire movement is analyzed and potential activity execution errors are identified.
The elaborated model on full-body motion reconstruction and recognition is prototypically implemented and validated in the context of two serious games: (1) an exergame designed to motivate players to train specific movements and (2) a multiplayer training simulation for police forces to enable training of stressful situations. In the exergame, the system’s capability has been demonstrated to recognize the activity execution errors and provide appropriate feedback so that players can improve their movements. Moreover, statistical significance and effect sizes have been analyzed to explore the stress level in a virtual environment with a full-body avatar and an abstract representation with head and hands. Thereby, an empirical study with police forces showed the added value of full-body avatars, which improve the feeling of presence and enable communication via body language and gestures.

German abstract:

Die Virtual Reality Technologie gewinnt immer mehr an Bedeutung, nicht nur in der Unterhaltungsindustrie, sondern auch beispielsweise für das Training im Bildungsoder Gesundheitsbereich. Seitdem erschwingliche Head-Mounted Displays auf dem Markt verfügbar sind, können viele Endverbraucher diese Technologie nutzen und so in immersive virtuelle Umgebungen eintauchen.
Beim Tragen der Head-Mounted Displays können die Nutzer jedoch weder die reale Umgebung, noch ihren eigenen Körper oder den ihrer Teamkollegen und Gegner sehen. Daher ist die Rekonstruktion von Ganzkörper-Bewegungen essentiell, um das Gefühl der Präsenz und die Interaktion zwischen den Nutzern zu verbessern. Aufgrund fehlender Bewegungsdaten der Benutzer befassen sich viele beliebte Virtual Reality Spiele ausschließlich mit den Bewegungen des Oberkörpers und zeigen nur die Controller oder Hände. Darüber hinaus ist die Erkennung von Ganzkörper-Bewegungen maßgeblich um sicherzustellen, dass Benutzer beispielsweise körperliche Übungen korrekt ausführen, um die gewünschten Gesundheitseffekte zu erzielen oder das Verletzungsrisiko zu senken.
Die Beiträge in dieser Arbeit umfassen die Rekonstruktion und Erkennung von Ganzkörper-Bewegungen mit handelsüblichen Virtual Reality Geräten. Derartige Bewegungserfassungssysteme erfordern jedoch, dass viele Sensoren am Körper angebracht werden, was den Einrichtungsaufwand erhöht und den Nutzungskomfort senkt. Daher wird im ersten Beitrag dieser Arbeit die Anzahl der Sensoren reduziert,um die Benutzer nicht einzuschränken. Eine kleine Anzahl von Sensoren ist beispielsweise bei Anwendungen im Gesundheitsbereich erforderlich, da Patienten mit körperlichen Einschränkungen häufig keine zusätzlichen Geräte halten oder tragen können. Zu diesem Zweck werden Methoden der inversen Kinematik untersucht und deren Parameter optimiert, um die Ganzkörperbewegungen mit hoher Genauigkeit und geringer Latenz zu rekonstruieren. Da eine hohe Latenz zwischen den realen Bewegungen des Benutzers und dem entsprechenden visuellen Feedback auf dem Head-Mounted Display Cybersickness verursachen kann, werden anschließend als zweiten Beitrag der Arbeit die Auswirkungen einer erhöhten End-to-End-Latenz auf die Benutzererfahrung und -leistung untersucht. Hierzu wird ein End-to-End-Latenz Schwellwert identifiziert, der signifikante Cybersickness-Symptome hervorruft und dazu führt, dass Benutzer erheblich mehr Zeit benötigen, um eine Aufgabe abzuschließen. Als dritter Beitrag dieser Arbeit werden Algorithmen des maschinellen Lernens angewandt, um geeignete Sensorpositionen für eine zuverlässige Ganzkörper-Bewegungserkennung zu identifizieren. Dabei werden die gesamte Bewegungsausführung analysiert und mögliche Ausführungsfehler der Übung identifiziert.
Das erarbeitete Modell zur Rekonstruktion und Erkennung von Ganzkörperbewegungen wurde im Kontext von zwei Serious Games prototypisch realisiert und validiert: (1) ein Exergame, in dem die Spieler zum Trainieren bestimmter Bewegungen motiviert werden sollen und (2) eine Multiplayer-Trainingsumgebung für Polizeikräfte, in der Stress-Situationen simuliert werden können. Im Exergame wurde gezeigt, dass der vorgestellte Ansatz die Bewegungen und Ausführungsfehler der Spieler erkennt und es konnte ein direktes Feedback an die Nutzer gegeben werden. Darüber hinaus wurde die statistische Signifikanz und Effektstärke analysiert, um das Stressniveau in einer virtuellen Umgebung mit einem Ganzkörper-Avatar und einer abstrakten Darstellung mit Kopf und Händen zu untersuchen. Dabei zeigte eine empirischen Studie mit Polizeikräften den Mehrwert von Ganzkörper-Avataren, wodurch das Gefühl der Präsenz verbessert und die Kommunikation durch Körpersprache und Gesten ermöglicht wurde.

PhD Theses