Alibaba hat mit Wan2.1-FLF2V-14B sein neuestes Modell zur Videogenerierung vorgestellt. Es handelt sich um ein Open-Source-Modell, das auf der Wan2.1-Serie basiert und sich durch eine besondere Funktion auszeichnet: Die Videoerstellung kann gezielt durch ein Start- und ein Endbild gesteuert werden. Dadurch lassen sich visuell konsistente und stilistisch einheitliche Videos erzeugen – ein klarer Vorteil für Entwickler, Kreative und Anbieter von Kurzvideos.
Modell unterstützt kreative Kontrolle über Bildfolgen
Das KI-Modell kombiniert klassische Text-zu-Video-Generierung mit einer semantischen Analyse der Anfangs- und Schlussbilder. So entstehen natürliche Übergänge und Bewegungsabläufe, bei denen Inhalt und Stil über alle Frames hinweg erhalten bleiben. Die visuelle Stabilität wird durch die Integration semantischer Merkmale aus den Start- und Endbildern gestützt.
Open Source auf mehreren Plattformen verfügbar
Das Modell steht der Öffentlichkeit kostenlos zur Verfügung – über GitHub, Hugging Face und die hauseigene Plattform ModelScope. Auf der offiziellen Website von Wan kann eine Beispielausgabe in Form eines 5-sekündigen Videos in 720p-Auflösung getestet werden. Damit spricht Alibaba gezielt Entwickler und Start-ups an, die eigene Anwendungen mit dem Modell entwickeln wollen.

Starkes Wachstum in der Open-Source-Strategie
Die Veröffentlichung ist Teil einer größeren Open-Source-Offensive von Alibaba Cloud. Bereits im Februar 2025 wurden vier Wan2.1-Modelle freigegeben, die seither über 2,2 Millionen Downloads verzeichnen. Auch mit seiner Sprachmodellreihe Qwen gehört Alibaba zu den aktivsten Anbietern im Bereich offener KI-Modelle. Mehr als 100.000 Modelle, die auf der Qwen-Familie basieren, wurden bereits auf Hugging Face veröffentlicht.
Mit diesen Initiativen positioniert sich Alibaba nicht nur als Technologielieferant, sondern auch als zentraler Akteur im globalen Ökosystem für offene KI-Entwicklung. Das neue Videomodell ergänzt das Portfolio um eine Anwendung mit hohem kreativen Potenzial.