Cyberpunk 2077 - Lippensynchronität

Mit der künstlichen Intelligenz der JALI-Software schafft es CD Projekt Red, erstaunlich realistische Lippenbewegungen für die Charaktere in Cyberpunk 2077 umzusetzen. Wie dies in mehr als 10 Sprachen funktioniert, zeigt ein neues Panel von der SIGGRAPH 2020.

Besser als in Witcher 3

Im Video erläutert Mateusz Poplawski, Lead Character Technical Director für Cyberpunk 2077, dass man nach The Witcher 3 die automatisierte Lippensynchronisation in zukünftigen Spielen weiter verbessern wollte. 

Die Lippenbewegungen sollten auf der mimischen Muskulatur basieren, überall im Spiel für jeden Charakter gleich gut verwendet werden können und in 10 Sprachen synchron sein. Wie bereits in der Witcher-Reihe wollte man auf ein aufwändiges Motion Capturing verzichten und eine künstliche Intelligenz verwenden.

Im Jahr 2016 entdeckte Poplawski zur Computergrafik-Konferenz SIGGRAPH eine wissenschaftliche Veröffentlichung der JALI Research-Gruppe an der Universität Toronto, die eine neue KI-gestützte Software entwickelte und perfekt für Cyberpunk 2077 geeignet war. Nach der Gründung eines Unternehmens im Folgejahr begann JALI Research die Zusammenarbeit mit CDPR.

Mateusz Poplawski erklärt, dass die wichtigste Bestandteile der Gesichtsanimation die Sprache selbst, Sprachstil, Augenbewegungen (Blinzeln & Blickverfolgung), Augenbrauen, Emotionen und Kopf-Hals-Bewegungen sind.  

Aufwändige Analyse der KI

Das JALI-Programm erhält als Input die Audioaufzeichnung und Tags (weiter beschreibende Schlagwörter wie "50% fröhlich", "130% ängstlich"), dann erfolgt eine Analyse des sprachlichen Timings, der Lautstärke und des Pitches Die KI bestimmt anschließend Lippen-, Zungen und Kieferposition und liefert als Endergebnis den Sprechstil mit den passenden Animation als Output.

Abesehen von den automatisierten Prozessen können Entwickler dennoch in die Animationen eingreifen und beispielsweise mit einer Art Joystick die Ausprägung der Animation von Lippe und Kiefer nachjustieren. 

Die bereits genannten Tags helfen dabei, ein Emotionslevel festzulegen: Die KI unterscheidet nämlich zwischen einer Grundstimmung des Charakters und emotionalen Akzenten, die man tatsächlich an den Gesichtern im Spiel ablesen kann. Dieses schöne Feature wurde bereits auf der Gamescom 2018 von Lead Cinematic Animator Maciej Pietras angedeutet und ist tatsächlich Realität geworden.

Ein weiterer Bestandteil von JALI ist die Verwendung akustischer Sprachmodelle. Sie basieren auf Datenbanken mit Text und Sprachaufzeichnungen, z.B. aus The Witcher mit 40 Stunden pro Sprache, manche Aussprache-Nachschlagewerke enthalten 100-400 Stunden lange Aufzeichnungen, aus denen das Programm lernt. 

Jede Sprache ist anders

Das Video zeigt an einer Stelle (siehe Newsbild) sehr schön, wie die künstliche Intelligenz von JALI individuell auf die Besonderheiten der jeweiligen Sprache eingeht. Deutsch ist beispielsweise eine fusionale Sprache, d.h. durch Konjugation und Deklination ändern sich z.B. die Endungen von Verben und Nomen häufig je nach Situation, in der japanischen Sprache ist das dagegen kaum der Fall. All diese Unterschiede führen dazu, dass einzelne Teile eines Satzes von Sprache zu Sprache unterschiedlich betont werden müssen und die KI diese erkennen muss.

Im Vortrag ist bisher von 10 Sprachen die Rede, CD Projekt Red kündigte allerdings vor kurzem an, dass die koreanische Sprachausgabe für Cyberpunk 2077 im Dezember diesen Jahres nachgereicht wird und JALI aktuell diese Sprache bereits lernt. 

Wir hörten zuletzt auf der EGX 2019 mehr über die Lippensynchronität von Cyberpunk 2077. Damals sprachen wir mit Mikolaj Szwed, Senior Localization Producer bei CD Projekt Red, über die deutsche Lokalisation:

YouTube.com -JALI Driven Expressive Facial Animation & Multilingual Speech in CYBERPUNK 2077 with CDPR