Die Realtime API von OpenAI ist ab sofort allgemein verfügbar – inklusive bedeutender Neuerungen für den produktiven Einsatz von Sprachagenten. Neben einer verbesserten Modellgeneration unter dem Namen gpt-realtime führt OpenAI Funktionen wie Bild-Input, SIP-Telefonie und Remote-MCP-Serverunterstützung ein. Damit positioniert sich die API als umfassende Lösung für Unternehmen, die leistungsfähige Voicebots in ihren Service integrieren möchten.
gpt-realtime: Natürlichere Sprache, bessere Intelligenz
Das neue Modell gpt-realtime verarbeitet Sprache direkt – ohne auf getrennte Komponenten für Speech-to-Text und Text-to-Speech zurückzugreifen. Das reduziert Latenz und erhöht die Ausdrucksstärke. OpenAI hebt die Fähigkeit hervor, komplexe Anweisungen besser zu befolgen, etwa bei der Betonung, Sprechgeschwindigkeit oder dem Wechsel zwischen Sprachen. Mit den neuen Stimmen „Cedar“ und „Marin“ sollen Unterhaltungen noch natürlicher klingen.
Gewinnen in der Plattform-Ökonomie
Erweiterte Tool-Nutzung durch präziseres Function Calling
Sprachmodelle in Echtzeit müssen nicht nur antworten, sondern auch Tools korrekt ansprechen. Laut interner Benchmarks liegt die Trefferquote bei Funktionsaufrufen bei 66,5 % – ein deutlicher Sprung im Vergleich zu früheren Versionen. Auch die Fähigkeit, asynchrone Funktionen zu integrieren, wurde verbessert: Die Konversation läuft weiter, während auf Toolantworten gewartet wird.
Neue API-Funktionen: MCP, Bilderkennung und SIP
Mit dem Update unterstützt die Realtime API erstmals die Integration externer MCP-Server. Entwickler können so neue Tools ohne tiefgreifende Systemanpassungen einbinden. Ebenfalls neu: Die Möglichkeit, Bilder in Echtzeitgespräche einzubinden – etwa für Screenshots oder Fotos, die das Modell interpretieren kann. Zudem erlaubt die Unterstützung von SIP die direkte Einbindung in Telefonsysteme, inklusive Festnetz- oder PBX-Anschlüsse.
Sicherheitsstandards und EU-Datenresidenz
Die Realtime API bringt integrierte Schutzmechanismen mit, die potenziell schädliche Konversationen erkennen und unterbrechen können. Unternehmen können zusätzliche Regeln über das Agent SDK definieren. Zudem ist die API EU-Datenresidenz-fähig und entspricht den Enterprise-Standards in puncto Datenschutz.
Günstiger und flexibler
Mit dem offiziellen Start reduziert OpenAI die Preise um 20 % gegenüber der Beta-Phase. Für eine Million Audio-Input-Tokens fallen 32 US-Dollar (ca. 30 €), für Output-Tokens 64 US-Dollar (ca. 60 €) an. Neue Einstellungen zur Tokenbegrenzung helfen, die Kosten für lange Sessions zu senken.


