ANZEIGE

ANZEIGE

GPT-Realtime: OpenAI hebt Sprachagenten auf Produktionsniveau

Agentenmodus bei ChatGPT von OpenAI
Foto: OpenAI

Key takeaways

OpenAI hat die Realtime API für Voicebots in der Produktion freigegeben. Mit gpt-realtime, Bild-Input, SIP-Telefonie und Remote-MCP-Unterstützung bietet die API neue Funktionen für realistische Sprachinteraktion.

Lesezeit ca. 2 Minuten

Die Realtime API von OpenAI ist ab sofort allgemein verfügbar – inklusive bedeutender Neuerungen für den produktiven Einsatz von Sprachagenten. Neben einer verbesserten Modellgeneration unter dem Namen gpt-realtime führt OpenAI Funktionen wie Bild-Input, SIP-Telefonie und Remote-MCP-Serverunterstützung ein. Damit positioniert sich die API als umfassende Lösung für Unternehmen, die leistungsfähige Voicebots in ihren Service integrieren möchten.

gpt-realtime: Natürlichere Sprache, bessere Intelligenz

Das neue Modell gpt-realtime verarbeitet Sprache direkt – ohne auf getrennte Komponenten für Speech-to-Text und Text-to-Speech zurückzugreifen. Das reduziert Latenz und erhöht die Ausdrucksstärke. OpenAI hebt die Fähigkeit hervor, komplexe Anweisungen besser zu befolgen, etwa bei der Betonung, Sprechgeschwindigkeit oder dem Wechsel zwischen Sprachen. Mit den neuen Stimmen „Cedar“ und „Marin“ sollen Unterhaltungen noch natürlicher klingen.

Anzeige

Gewinnen in der Plattform-Ökonomie

von Alexander Graf – der Leitfaden für Handelsentscheider
★★★★☆ 4,4 / 5 Sterne
Jetzt bei Amazon entdecken

Erweiterte Tool-Nutzung durch präziseres Function Calling

Sprachmodelle in Echtzeit müssen nicht nur antworten, sondern auch Tools korrekt ansprechen. Laut interner Benchmarks liegt die Trefferquote bei Funktionsaufrufen bei 66,5 % – ein deutlicher Sprung im Vergleich zu früheren Versionen. Auch die Fähigkeit, asynchrone Funktionen zu integrieren, wurde verbessert: Die Konversation läuft weiter, während auf Toolantworten gewartet wird.

Neue API-Funktionen: MCP, Bilderkennung und SIP

Mit dem Update unterstützt die Realtime API erstmals die Integration externer MCP-Server. Entwickler können so neue Tools ohne tiefgreifende Systemanpassungen einbinden. Ebenfalls neu: Die Möglichkeit, Bilder in Echtzeitgespräche einzubinden – etwa für Screenshots oder Fotos, die das Modell interpretieren kann. Zudem erlaubt die Unterstützung von SIP die direkte Einbindung in Telefonsysteme, inklusive Festnetz- oder PBX-Anschlüsse.

Sicherheitsstandards und EU-Datenresidenz

Die Realtime API bringt integrierte Schutzmechanismen mit, die potenziell schädliche Konversationen erkennen und unterbrechen können. Unternehmen können zusätzliche Regeln über das Agent SDK definieren. Zudem ist die API EU-Datenresidenz-fähig und entspricht den Enterprise-Standards in puncto Datenschutz.

Günstiger und flexibler

Mit dem offiziellen Start reduziert OpenAI die Preise um 20 % gegenüber der Beta-Phase. Für eine Million Audio-Input-Tokens fallen 32 US-Dollar (ca. 30 €), für Output-Tokens 64 US-Dollar (ca. 60 €) an. Neue Einstellungen zur Tokenbegrenzung helfen, die Kosten für lange Sessions zu senken.

Ähnliche Artikel

Must-read

ANZEIGE
JANGER E-Commerce
Wer als Shop-Betreiber, E-Commerce Manager oder Gründer einer E-Commerce-Marke erfolgreich werden möchte, muss drei grundsätzliche Faktoren, Verkaufspsychologie, Außendarstellung und Design sowie Nutzererlebnis, verinnerlichen.

Top-News

Sponsored

Sponsored