Amazon hat mit Nova Sonic ein neues Foundation Model vorgestellt, das Sprachverständnis und Sprachgenerierung in einer einzigen Architektur vereint. Ziel ist es, die Entwicklung von Sprachdialogsystemen zu vereinfachen und deutlich natürlichere Gespräche mit KI-Anwendungen zu ermöglichen. Das Modell steht über eine neue bidirektionale Streaming-API auf Amazon Bedrock zur Verfügung und richtet sich an Einsatzfelder wie Kundenservice, Reise, Bildung oder Gesundheitswesen.
Sprach-KI ohne Brüche: Ein Modell für alles
Traditionelle Sprachlösungen kombinieren mehrere getrennte KI-Modelle für Spracherkennung, Sprachverständnis und Sprachausgabe – ein Ansatz, der nicht nur komplex, sondern auch wenig natürlich wirkt. Nova Sonic vereinfacht diesen Prozess mit einer einheitlichen Architektur, die es ermöglicht, den Tonfall, das Sprechtempo und stilistische Nuancen des Nutzers aufzunehmen und in die Antwort zu integrieren. So entstehen deutlich flüssigere und menschlichere Dialoge.

Amazon unaufhaltsam
Starke Benchmarks im Vergleich zur Konkurrenz
In Tests gegen andere Echtzeit-Sprachmodelle wie OpenAIs GPT-4o (Realtime) und Googles Gemini Flash 2.0 konnte Nova Sonic überzeugen. In amerikanisch-englischer Sprachausgabe mit männlicher Stimme erreichte es eine Siegquote von 51 % gegenüber GPT-4o und sogar 69,7 % gegen Gemini. Auch in britischem Englisch schnitt das Modell besser ab. Ein weiterer Vorteil: die niedrige Wortfehlerrate (WER) von 4,2 % auf dem Multilingual LibriSpeech-Datensatz – rund 36 % besser als GPT-4o Transcribe.
Robust, schnell und kostengünstig
Nova Sonic zeigt sich robust gegenüber Störgeräuschen und mehrsprachigen Dialogen. Bei Tests in realen Besprechungssituationen schnitt es bei englischsprachigen Audios um 47 % besser ab als GPT-4o Transcribe. Gleichzeitig punktet es mit einer niedrigen Latenzzeit von 1,09 Sekunden vom Ende der Spracheingabe bis zur Antwort – schneller als die Konkurrenz. Auch in Sachen Kosten ist Nova Sonic mit bis zu 80 % Preisvorteil marktführend im Bereich der Echtzeit-Sprach-KI.
Erweiterte Einsatzmöglichkeiten durch Tool-Nutzung
Neben der Sprachverarbeitung kann Nova Sonic auch externe Tools ansteuern, um beispielsweise Buchungsanfragen, Preisabfragen oder Terminvereinbarungen auszuführen. Damit eignet sich das Modell insbesondere für dialogbasierte Agenten im Kundenservice oder im Reise- und Gesundheitsbereich. Zur Auswahl stehen derzeit drei ausdrucksstarke Stimmen in amerikanischem und britischem Englisch. Weitere Sprachen und Akzente sind laut Amazon in Planung.