ANZEIGE

ANZEIGE

Gemini 2.5: Googles KI-Agent kann jetzt Webseiten selbst bedienen

Google Gemini 2 5 Computer Use
Foto: Google

Key takeaways

Google bringt mit Gemini 2.5 Computer Use ein KI-Modell, das Webseiten und Apps wie ein Mensch bedienen kann. Es ermöglicht eigenständige Interaktionen mit Oberflächen – etwa zum Ausfüllen von Formularen – und übertrifft dabei gängige Lösungen in Genauigkeit und Tempo. Sicherheitsmechanismen sollen Risiken zuverlässig begrenzen.

Lesezeit ca. 2 Minuten

Gemini 2.5 von Google DeepMind erhält ein neues Spezialmodell, das im Kampf um die Agentic-AI-Vorreiterschaft den nächsten Entwicklungsschritt in der Mensch-Maschine-Interaktion markieren soll. Unter dem Namen „Computer Use“ ermöglicht es KI-Agenten, grafische Benutzeroberflächen direkt zu bedienen – und damit Aufgaben zu erfüllen, die bisher menschlichen Nutzern vorbehalten waren.

KI bedient Oberflächen wie ein Mensch

Während klassische KI-Modelle vorrangig mit strukturierten Schnittstellen kommunizieren, ist die direkte Interaktion mit grafischen Oberflächen bisher ein Schwachpunkt vieler Systeme. Der neue Ansatz von Google adressiert dieses Problem: Agenten können Webseiten und mobile Interfaces visuell erfassen, analysieren und eigenständig bedienen – etwa durch Klicken, Tippen oder Scrollen.

Einsatzbereiche sind etwa das Ausfüllen und Absenden von Formularen, das Bedienen von Dropdown-Menüs oder das Navigieren durch Logins. Die Modelllogik arbeitet dabei in Schleifen: Nach jedem Handlungsschritt wird eine neue Screenshot-Aufnahme an das Modell gesendet, das auf dieser Basis die nächsten Aktionen plant.

Anzeige

Gewinnen in der Plattform-Ökonomie

von Alexander Graf – der Leitfaden für Handelsentscheider
★★★★☆ 4,4 / 5 Sterne
Jetzt bei Amazon entdecken

Schneller und präziser als Alternativen

Im Vergleich zu bestehenden Lösungen wie denen von Browserbase oder anderen Wettbewerbern schneidet das Gemini-Tool laut Google in Benchmarks deutlich besser ab – sowohl in der Genauigkeit als auch bei der Latenzzeit. In den Tests „Online-Mind2Web“, „WebVoyager“ und „AndroidWorld“ erzielt Gemini 2.5 Bestwerte, auch weil es für den Einsatz im Browser optimiert wurde.

Ein Streudiagramm zeigt die Stärken der Lösung: Mit rund 70 Prozent Genauigkeit bei gleichzeitig geringer Reaktionszeit liegt Gemini vor der Konkurrenz. Desktop-Betriebssysteme werden zwar noch nicht aktiv unterstützt, doch auch im mobilen Kontext zeigt das System Potenzial.

Sicherheit als zentrales Prinzip

Da die Steuerung von Benutzeroberflächen durch KI erhebliche Risiken birgt – etwa durch Fehlverhalten, Sicherheitslücken oder absichtlichen Missbrauch –, wurde das Modell mit Sicherheitsmechanismen ausgestattet. So beurteilt ein separates Sicherheitssystem jeden Handlungsvorschlag, bevor er ausgeführt wird.

Zudem können Entwickler festlegen, dass bestimmte sensible Aktionen – wie etwa Käufe oder sicherheitsrelevante Änderungen – nur nach expliziter Nutzerfreigabe ausgeführt werden. Für kritische Anwendungen wie medizinische Software oder sicherheitsrelevante Systeme kann die KI vollständig eingeschränkt werden.

Erste Einsatzszenarien in der Praxis

Schon jetzt wird das System innerhalb Googles für automatisierte UI-Tests verwendet, etwa bei der Behebung fehlerhafter Workflows im Zahlungsbereich. Auch externe Unternehmen wie Poke.com oder Autotab haben das Modell integriert. Sie berichten von deutlich besseren Ergebnissen in der Prozessautomatisierung und einer bis zu 50 Prozent höheren Effizienz im Vergleich zu bisherigen Lösungen.

Ähnliche Artikel

Must-read

ANZEIGE
JANGER E-Commerce
Wer als Shop-Betreiber, E-Commerce Manager oder Gründer einer E-Commerce-Marke erfolgreich werden möchte, muss drei grundsätzliche Faktoren, Verkaufspsychologie, Außendarstellung und Design sowie Nutzererlebnis, verinnerlichen.

Top-News

Sponsored

Sponsored