Gemini 2.5 von Google DeepMind erhält ein neues Spezialmodell, das im Kampf um die Agentic-AI-Vorreiterschaft den nächsten Entwicklungsschritt in der Mensch-Maschine-Interaktion markieren soll. Unter dem Namen „Computer Use“ ermöglicht es KI-Agenten, grafische Benutzeroberflächen direkt zu bedienen – und damit Aufgaben zu erfüllen, die bisher menschlichen Nutzern vorbehalten waren.
KI bedient Oberflächen wie ein Mensch
Während klassische KI-Modelle vorrangig mit strukturierten Schnittstellen kommunizieren, ist die direkte Interaktion mit grafischen Oberflächen bisher ein Schwachpunkt vieler Systeme. Der neue Ansatz von Google adressiert dieses Problem: Agenten können Webseiten und mobile Interfaces visuell erfassen, analysieren und eigenständig bedienen – etwa durch Klicken, Tippen oder Scrollen.
Einsatzbereiche sind etwa das Ausfüllen und Absenden von Formularen, das Bedienen von Dropdown-Menüs oder das Navigieren durch Logins. Die Modelllogik arbeitet dabei in Schleifen: Nach jedem Handlungsschritt wird eine neue Screenshot-Aufnahme an das Modell gesendet, das auf dieser Basis die nächsten Aktionen plant.
Gewinnen in der Plattform-Ökonomie
Schneller und präziser als Alternativen
Im Vergleich zu bestehenden Lösungen wie denen von Browserbase oder anderen Wettbewerbern schneidet das Gemini-Tool laut Google in Benchmarks deutlich besser ab – sowohl in der Genauigkeit als auch bei der Latenzzeit. In den Tests „Online-Mind2Web“, „WebVoyager“ und „AndroidWorld“ erzielt Gemini 2.5 Bestwerte, auch weil es für den Einsatz im Browser optimiert wurde.
Ein Streudiagramm zeigt die Stärken der Lösung: Mit rund 70 Prozent Genauigkeit bei gleichzeitig geringer Reaktionszeit liegt Gemini vor der Konkurrenz. Desktop-Betriebssysteme werden zwar noch nicht aktiv unterstützt, doch auch im mobilen Kontext zeigt das System Potenzial.
Sicherheit als zentrales Prinzip
Da die Steuerung von Benutzeroberflächen durch KI erhebliche Risiken birgt – etwa durch Fehlverhalten, Sicherheitslücken oder absichtlichen Missbrauch –, wurde das Modell mit Sicherheitsmechanismen ausgestattet. So beurteilt ein separates Sicherheitssystem jeden Handlungsvorschlag, bevor er ausgeführt wird.
Zudem können Entwickler festlegen, dass bestimmte sensible Aktionen – wie etwa Käufe oder sicherheitsrelevante Änderungen – nur nach expliziter Nutzerfreigabe ausgeführt werden. Für kritische Anwendungen wie medizinische Software oder sicherheitsrelevante Systeme kann die KI vollständig eingeschränkt werden.
Erste Einsatzszenarien in der Praxis
Schon jetzt wird das System innerhalb Googles für automatisierte UI-Tests verwendet, etwa bei der Behebung fehlerhafter Workflows im Zahlungsbereich. Auch externe Unternehmen wie Poke.com oder Autotab haben das Modell integriert. Sie berichten von deutlich besseren Ergebnissen in der Prozessautomatisierung und einer bis zu 50 Prozent höheren Effizienz im Vergleich zu bisherigen Lösungen.