Kontakt   |   Partner
ANZEIGE

Meta stellt SAM 2 vor: Neue Ära der KI-Video-Segmentierung

Autor
Hi, I'm Meta AI Text mit dem Logo von Meta
Foto: Meta AI
Themen

Zusammenfassung

Meta hat mit Segment Anything 2 ein neues maschinelles Lernmodell entwickelt, das die Objekterkennung in Videos revolutioniert. Auf der SIGGRAPH-Konferenz 2024 präsentierte Mark Zuckerberg in einem Talk mit dem NVIDIA CEO Jensen Huang die Fortschritte der Technologie.
Beitrag teilen

Meta hat gestern das Segment Anything Model 2 (SAM 2) vorgestellt – das erste einheitliche KI-Modell, das in der Lage ist, Pixel eines Zielobjekts sowohl in Bildern als auch in Videos zu identifizieren. SAM 2 kann laut Meta jedes Objekt segmentieren und es in Echtzeit über alle Frames eines Videos hinweg verfolgen – ein Durchbruch, der neue Möglichkeiten für die Videobearbeitung und Mixed-Reality-Erfahrungen eröffnet. Am Montag präsentierte CEO Mark Zuckerberg in einem Talk mit NVIDIA’s CEO Jensen Huang (Youtube) die Weiterentwicklung des Modells, die nun auch auf Videos angewendet werden kann.

Die Segmentierung, also das Erkennen, welche Bildpixel zu einem Objekt gehören, ist bei Aufgaben wie der Analyse wissenschaftlicher Bilder oder der Bearbeitung von Fotos von großer Bedeutung. Segmentation ist der technische Begriff dafür, wenn ein Vision-Modell ein Bild analysiert und die einzelnen Teile identifiziert. Das ursprüngliche Segment Anything Model, das Meta letztes Jahr auf den Markt brachte, inspirierte neue KI-gestützte Bildbearbeitungstools in ihren Apps, wie Backdrop und Cutouts auf Instagram. SAM fand auch diverse Anwendungen in Wissenschaft, Medizin und vielen anderen Branchen. Beispielsweise wurde SAM in der Meereswissenschaft zur Segmentierung von Sonarbildern und Analyse von Korallenriffen eingesetzt, bei der Analyse von Satellitenbildern für Katastrophenhilfe sowie in der Medizin zur Segmentierung von Zellbildern und Unterstützung bei der Erkennung von Hautkrebs.

Mit SAM 2 werden diese Fähigkeiten nun auf Videos ausgeweitet. SAM 2 kann jedes Objekt in einem Bild oder Video segmentieren und es in Echtzeit über alle Frames hinweg verfolgen. Bisherige Modelle waren in dieser Hinsicht unzureichend, da die Segmentierung in Videos aufgrund der schnellen Bewegungen der Objekte, Änderungen ihres Aussehens und ihrer möglichen Verdeckung durch andere Objekte oder Teile der Szene wesentlich schwieriger ist. Meta hat viele dieser Herausforderungen bei der Entwicklung von SAM 2 gelöst.

Meta sieht in dieser Forschung neue Möglichkeiten für die vereinfachte Videobearbeitung und -erstellung sowie die Schaffung neuer Erfahrungen in Mixed Reality. SAM 2 könnte auch dazu verwendet werden, ein Zielobjekt in einem Video zu verfolgen, um die schnellere Annotation von visuellen Daten für das Training von Computer-Vision-Systemen, einschließlich der in autonomen Fahrzeugen verwendeten, zu unterstützen. Zudem könnte es kreative Methoden ermöglichen, Objekte in Echtzeit oder in Live-Videos auszuwählen und mit ihnen zu interagieren.

Die Verarbeitung von Videos ist weitaus rechenintensiver und zeigt die Fortschritte in der Effizienz der Branche, dass SA2 überhaupt ohne Überhitzung der Rechenzentren laufen kann. Natürlich benötigt das Modell weiterhin leistungsstarke Hardware, aber schnelle, flexible Segmentierung war noch vor einem Jahr praktisch unmöglich.

Das Modell wird, wie das erste, offen und kostenlos nutzbar sein, und es gibt derzeit keine Pläne für eine gehostete Version. Allerdings gibt es eine kostenlose Demo. Für das Training eines solchen Modells wird eine große Menge an Daten benötigt. Meta veröffentlicht deshalb eine umfangreiche, annotierte Datenbank mit 50.000 Videos, die eigens für diesen Zweck erstellt wurde. In der Veröffentlichung zu SA2 wird auch eine weitere Datenbank mit über 100.000 „intern verfügbaren“ Videos erwähnt, die jedoch nicht öffentlich zugänglich gemacht wird.

Meta ist laut dem renommierten Tech-Blog Techcrunch bereits seit einigen Jahren führend im Bereich „offener“ KI und hat Werkzeuge wie PyTorch herausgebracht. Zuletzt haben Modelle wie LLaMa und Segment Anything die Leistungsstandards in ihren Bereichen zugänglicher gemacht. Die Offenheit dieser Modelle ist jedoch umstritten. Zuckerberg erklärte, dass diese Offenheit nicht aus reiner Selbstlosigkeit bei Meta erfolgt: „Wir tun das nicht, weil wir altruistische Menschen sind, obwohl ich denke, dass dies dem Ökosystem helfen wird – wir tun es, weil wir glauben, dass dies das Beste für das, was wir bauen, ist.“

→ Jetzt auch auf LinkedIn oder X (Twitter) folgen und keine News verpassen!
ANZEIGE
Retouren direkt an neue Käufer: Hamburger Startup toern revolutioniert das Retourenmanagement

Retouren direkt an neue Käufer: Hamburger Startup toern revolutioniert das Retourenmanagement

Das Hamburger Startup toern revolutioniert das Retourenmanagement durch nachhaltige Innovation. Durch den Einsatz intelligenter Technologien leitet toern einwandfreie Retouren direkt an neue Käufer weiter, ohne Rücksendung an den Versender.