Der chinesische TikTok-Mutterkonzern ByteDance hat mit DreamActor-M1 ein neues Framework auf Github vorgestellt, das mithilfe eines Diffusion Transformers (DiT) die realitätsnahe Animation von Menschen auf Basis eines einzelnen Referenzbilds ermöglicht. Im Gegensatz zu bisherigen Methoden kombiniert DreamActor-M1 mehrere Steuerungsebenen, um Gesichtsausdruck, Körperhaltung und Bewegung präzise und konsistent zu animieren – selbst über längere Videosequenzen hinweg.
Hybridsteuerung für präzise Bewegungen
Kernstück des Systems ist ein hybrider Steuerungsansatz, der verschiedene Datenquellen kombiniert: 3D-Körperskelette, sphärische Kopfmodelle und implizite Gesichtsdarstellungen. Diese Fusion erlaubt eine präzise Übertragung von Bewegungs- und Mimikdetails, ohne die visuelle Identität der animierten Person zu verlieren. Selbst komplexe Bewegungsabläufe lassen sich so realitätsnah rekonstruieren.
Gewinnen in der Plattform-Ökonomie
Skalierbarkeit und Langzeitkohärenz als Schlüsselmerkmale
Ein weiteres Merkmal ist die Multi-Scale-Adaption: DreamActor-M1 passt sich flexibel an unterschiedliche Bildausschnitte und Perspektiven an – von Porträts bis hin zu Ganzkörperaufnahmen. Erreicht wird dies durch eine progressive Trainingsstrategie mit verschieden skalierten Datensätzen. Auch temporale Kohärenz – also die Konsistenz über längere Videosequenzen hinweg – wird durch den Einsatz komplementärer visueller Referenzen verbessert. Das ist insbesondere bei bislang ungesehenen Körperhaltungen und Bewegungen relevant.
Erweiterbarkeit und Anwendungsbereiche
Neben der reinen Bild-zu-Video-Animation unterstützt das System auch die partielle Bewegungsübertragung – etwa nur auf das Gesicht oder den Kopf – sowie audio-gesteuerte Animationen mit lippensynchronem Ausdruck in mehreren Sprachen. Die Integration von Knochenlängenanpassungen erlaubt zudem individuelle Formvariationen.
Vergleich mit bisherigen Ansätzen
In direkten Vergleichen mit bisherigen State-of-the-Art-Methoden zeigt DreamActor-M1 laut Studienergebnissen überlegene Ergebnisse hinsichtlich Ausdrucksstärke, Bewegungsdetail, Identitätserhalt und Videokohärenz. Die Methode überzeugt in verschiedenen Anwendungsszenarien, von Porträtanimationen bis hin zu komplexen Ganzkörperdarstellungen.


