Anthropics Claude Opus 4.5 übertrifft Mensch und Maschine in Software-Tests

25. November 2025

von Retail-News Redaktion

➟ Anthropic stellt mit Claude Opus 4.5 ein KI-Modell vor, das Softwareentwickler übertrifft, kreative Lösungen findet und gleichzeitig robuster gegenüber Angriffen ist. Neben technischen Verbesserungen bringt es neue Tools für Entwickler und zeigt sich besonders effizient im Einsatz von Ressourcen.

Lesezeit ca. 2 Minuten

Claude Opus 4.5 ist das bislang leistungsstärkste KI-Modell von Anthropic. Die neueste Generation überzeugt nicht nur bei Softwareentwicklung, sondern zeigt auch Fortschritte bei komplexen Alltagsaufgaben wie Recherchen oder der Nutzung von Tabellen und Präsentationen. Besonders in Tests wie SWE-bench Verified übertrifft Opus 4.5 laut Anthropic andere Modelle und sogar menschliche Entwickler.

Fortschritte in Code, Multimodalität und Problemlösung

Das Modell setzt neue Maßstäbe in der Programmierleistung und liegt in sieben von acht Programmiersprachen an der Spitze der Benchmark SWE-bench Multilingual. Darüber hinaus beweist Opus 4.5 kreative Lösungsansätze, etwa durch regelkonformes Umgehen von Einschränkungen im Kundenservice – ein Beispiel: Eine Flugbuchung wurde durch ein cleveres Upgrade und anschließende Umbuchung verändert, obwohl dies ursprünglich nicht erlaubt war.

Neben der Codequalität wurde auch die visuelle und mathematische Kompetenz verbessert. In verschiedenen Benchmarks wie τ2-bench oder Vending-Bench schneidet das Modell führend ab. Gleichzeitig bleibt es effizient: Dank reduzierter Tokenanzahl bei vergleichbarer Leistung können komplexe Aufgaben mit deutlich weniger Rechenaufwand erledigt werden.

Gewinnen in der Plattform-Ökonomie

von Alexander Graf – der Leitfaden für Handelsentscheider

★★★★☆ 4,4 / 5 Sterne

Jetzt bei Amazon entdecken

Fokus auf Sicherheit und Anpassbarkeit

Anthropic hebt hervor, dass Opus 4.5 das bislang bestausgerichtete Modell sei – robuster gegen sogenannte Prompt-Injection-Angriffe, bei denen bösartige Anweisungen in scheinbar harmlose Eingaben eingebettet sind. Das Modell zeigte in Sicherheitsbewertungen durch Drittanbieter wie Gray Swan die geringste Anfälligkeit im Vergleich zu anderen Modellen.

Auch für Entwickler bietet das Update neue Möglichkeiten. Über die API lässt sich nun der sogenannte Effort-Level steuern: Je nach Anwendungsfall kann der Fokus auf Effizienz oder maximale Problemlösungskraft gelegt werden. Dadurch lassen sich differenzierte Agentensysteme aufbauen, etwa in Claude Code, wo mehrere KI-Instanzen parallel agieren – zum Debuggen, zur Recherche oder Dokumentation.

Tags: Digitalwirtschaft, Künstliche Intelligenz

Drei Faktoren: Was zeichnet (wirklich) einen erfolgreichen Online-Shop aus?

Wer als Shop-Betreiber, E-Commerce Manager oder Gründer einer E-Commerce-Marke erfolgreich werden möchte, muss drei grundsätzliche Faktoren, Verkaufspsychologie, Außendarstellung und Design sowie Nutzererlebnis, verinnerlichen.