ANZEIGE

ANZEIGE

Meta präsentiert V-JEPA 2: Neues Weltmodell für robotisches Planen

Meta Logo auf einem Gebäude
Foto: Meta

Key takeaways

Meta hat mit V-JEPA 2 ein neues KI-Modell vorgestellt, das auf Videodaten basiert und Robotern hilft, physikalische Zusammenhänge zu verstehen und zu planen. Die KI wurde mit über einer Million Stunden Videomaterial trainiert und soll Roboteraktionen in unbekannten Umgebungen ohne Vorwissen ermöglichen.

Lesezeit ca. 2 Minuten

Meta hat mit der Einführung von V-JEPA 2 ein bemerkenswertes neues KI-Modell vorgestellt, das die physische Welt in bislang unerreichter Tiefe verstehen und vorhersagen kann. Der Ansatz zielt darauf ab, maschinelle Intelligenz so weiterzuentwickeln, dass Roboter eigenständig in neuen Umgebungen agieren können – ganz ohne vorherige Daten oder Trainingsläufe in eben diesen Umgebungen.

Fortschritte durch videobasiertes Lernen

Das neue System basiert auf der Joint Embedding Predictive Architecture (JEPA), die Meta bereits 2022 einführte. Mit V-JEPA 2 geht das Unternehmen nun einen entscheidenden Schritt weiter: Die KI verarbeitet über eine Milliarde Parameter und wurde mit mehr als einer Million Stunden Videomaterial sowie einer Million Bildern trainiert – ohne menschliche Annotationen. Dieses selbstüberwachte Lernen erlaubt es der KI, physikalische Zusammenhänge wie Objektbewegungen oder Mensch-Objekt-Interaktionen zu erkennen.

Besonders herausragend ist die Fähigkeit von V-JEPA 2, aus Videosequenzen Schlüsse über Ursache und Wirkung zu ziehen – eine Eigenschaft, die der menschlichen Intuition erstaunlich nahekommt.

Anzeige

Gewinnen in der Plattform-Ökonomie

von Alexander Graf – der Leitfaden für Handelsentscheider
★★★★☆ 4,4 / 5 Sterne
Jetzt bei Amazon entdecken

Einsatz in der Robotik: Planung ohne Vorwissen

In der zweiten Trainingsphase wurde das Modell mit roboterbezogenen Daten angereichert, also mit Videos und den zugehörigen Steuerungsbefehlen. Das Resultat ist eine KI, die konkrete Handlungen wie das Greifen und Platzieren von Objekten in unbekannten Szenarien planen und ausführen kann. Schon 62 Stunden an Roboterdaten reichten aus, um aus dem Modell ein praktisches Werkzeug für Planung und Kontrolle zu machen.

Für kurzfristige Aufgaben wird dem Roboter lediglich ein Zielbild übermittelt. Die KI errechnet daraufhin, welche Handlungskette am wahrscheinlichsten zum Ziel führt. Bei komplexeren Aufgaben wird mit visuellen Zwischenzielen gearbeitet. In Tests erzielte V-JEPA 2 dabei Erfolgsquoten von bis zu 80 Prozent – selbst bei unbekannten Objekten und Umgebungen.

Drei neue Benchmarks zur Evaluierung

Meta hat im Rahmen dieser Veröffentlichung auch drei neue Benchmarks vorgestellt, um physikalisches Verständnis durch KI systematisch zu messen:

  • IntPhys 2 prüft, ob Modelle zwischen physikalisch möglichen und unmöglichen Szenarien unterscheiden können.
  • MVPBench testet die Fähigkeit, minimale visuelle Unterschiede korrekt zu interpretieren.
  • CausalVQA zielt auf die Beantwortung kausaler Fragen zu Ereignissen in Videos.

Die Benchmarks zeigen deutlich: Während Menschen hier nahezu perfekte Ergebnisse erzielen, liegen KI-Modelle – inklusive V-JEPA 2 – noch deutlich zurück.

Weg zu multimodalen Weltmodellen

Als nächstes will Meta JEPA-Modelle entwickeln, die auf verschiedenen Zeitskalen planen und unterschiedliche Sinnesdaten – wie Audio oder Tastsinn – integrieren können. Die Vision: KI-Agenten, die sich flexibel und adaptiv in der realen Welt bewegen, planen und interagieren können.

Mit der Veröffentlichung des Modells und der Benchmarks über GitHub und Hugging Face setzt Meta auf Open Source und kollaborative Weiterentwicklung. Ein öffentliches Leaderboard soll künftige Fortschritte transparent machen.

Ähnliche Artikel

Must-read

ANZEIGE
JANGER E-Commerce
Wer als Shop-Betreiber, E-Commerce Manager oder Gründer einer E-Commerce-Marke erfolgreich werden möchte, muss drei grundsätzliche Faktoren, Verkaufspsychologie, Außendarstellung und Design sowie Nutzererlebnis, verinnerlichen.

Top-News

Sponsored

Sponsored