Statt Bilder nur statisch zu interpretieren, verfolgt Google mit „Agentic Vision“ in Gemini 3 Flash einen dynamischen Ansatz. Die neue Funktion verwandelt Bildverstehen in einen mehrstufigen Prozess, bei dem die KI Bilder analysiert, durch Code verändert und mit zusätzlichen Kontextdaten erneut bewertet. Durch diese Kombination aus visuellem Denken und programmatischem Handeln erzielt Gemini 3 Flash einen Qualitätszuwachs von 5–10 % bei gängigen Benchmarks für Bildverständnis.
Bildverstehen wird zum interaktiven Prozess
Im Zentrum steht laut Google der sogenannte „Think, Act, Observe“-Kreislauf. Zunächst plant das Modell auf Basis des Benutzerinputs und eines Ausgangsbilds eine Abfolge von Schritten („Think“). Anschließend führt es Python-Code aus, um Bilder gezielt zu manipulieren oder auszuwerten – etwa durch Zuschneiden, Drehen oder das Einzeichnen von Informationen („Act“). Das so erzeugte Bild wird in den Kontextrahmen des Modells aufgenommen, um erneut analysiert zu werden („Observe“).
Durch diese Methode kann Gemini 3 Flash auch komplexe visuelle Aufgaben zuverlässig lösen. So wurde die Genauigkeit bei der Prüfung hochauflösender Baupläne um 5 % verbessert. Der Dienstleister PlanCheckSolver.com nutzt Agentic Vision, um mithilfe automatischer Bildausschnitte feine Details wie Dachkanten oder Gebäudeelemente gezielt zu analysieren.
Gewinnen in der Plattform-Ökonomie
Praktische Anwendungsmöglichkeiten
Die Einsatzgebiete sind vielfältig. Bei Aufgaben wie dem Zählen von Fingern auf einem Bild zeichnet das Modell Bounding Boxes und Nummern ein, um sicherzustellen, dass die Antwort auf überprüfbaren Details basiert. Auch bei der Visualisierung von Zahlenwerten aus dichten Tabellen bietet die Fähigkeit, per Code Diagramme zu erstellen, einen klaren Vorteil gegenüber rein probabilistischen Sprachmodellen.
Agentic Vision ist derzeit über die Gemini API in Google AI Studio und Vertex AI verfügbar. Entwickler können die Funktion in der AI Studio Playground-Umgebung testen, indem sie die Codeausführung aktivieren.
Zukünftige Updates sollen weitere Werkzeuge integrieren – darunter Web- oder Reverse-Image-Suche – sowie zusätzliche Modellgrößen unterstützen. Zudem soll das bisher noch manuell anzustoßende Verhalten wie Drehen oder Rechnen künftig automatisch erfolgen.


