Der chinesische TikTok-Mutterkonzern ByteDance hat mit DreamActor-M1 ein neues Framework auf Github vorgestellt, das mithilfe eines Diffusion Transformers (DiT) die realitätsnahe Animation von Menschen auf Basis eines einzelnen Referenzbilds ermöglicht. Im Gegensatz zu bisherigen Methoden kombiniert DreamActor-M1 mehrere Steuerungsebenen, um Gesichtsausdruck, Körperhaltung und Bewegung präzise und konsistent zu animieren – selbst über längere Videosequenzen hinweg.
Hybridsteuerung für präzise Bewegungen
Kernstück des Systems ist ein hybrider Steuerungsansatz, der verschiedene Datenquellen kombiniert: 3D-Körperskelette, sphärische Kopfmodelle und implizite Gesichtsdarstellungen. Diese Fusion erlaubt eine präzise Übertragung von Bewegungs- und Mimikdetails, ohne die visuelle Identität der animierten Person zu verlieren. Selbst komplexe Bewegungsabläufe lassen sich so realitätsnah rekonstruieren.
Kurzfristig Experten benötigt? Hier die passenden Freelancer auf Fiverr
Skalierbarkeit und Langzeitkohärenz als Schlüsselmerkmale
Ein weiteres Merkmal ist die Multi-Scale-Adaption: DreamActor-M1 passt sich flexibel an unterschiedliche Bildausschnitte und Perspektiven an – von Porträts bis hin zu Ganzkörperaufnahmen. Erreicht wird dies durch eine progressive Trainingsstrategie mit verschieden skalierten Datensätzen. Auch temporale Kohärenz – also die Konsistenz über längere Videosequenzen hinweg – wird durch den Einsatz komplementärer visueller Referenzen verbessert. Das ist insbesondere bei bislang ungesehenen Körperhaltungen und Bewegungen relevant.

Gewinnen in der Plattform-Ökonomie
Erweiterbarkeit und Anwendungsbereiche
Neben der reinen Bild-zu-Video-Animation unterstützt das System auch die partielle Bewegungsübertragung – etwa nur auf das Gesicht oder den Kopf – sowie audio-gesteuerte Animationen mit lippensynchronem Ausdruck in mehreren Sprachen. Die Integration von Knochenlängenanpassungen erlaubt zudem individuelle Formvariationen.
Vergleich mit bisherigen Ansätzen
In direkten Vergleichen mit bisherigen State-of-the-Art-Methoden zeigt DreamActor-M1 laut Studienergebnissen überlegene Ergebnisse hinsichtlich Ausdrucksstärke, Bewegungsdetail, Identitätserhalt und Videokohärenz. Die Methode überzeugt in verschiedenen Anwendungsszenarien, von Porträtanimationen bis hin zu komplexen Ganzkörperdarstellungen.