OpenAI hat mit GPT-4.1 eine neue Modellreihe vorgestellt, die gezielt für Entwickleranwendungen über die API konzipiert wurde. Neben dem Hauptmodell GPT-4.1 erscheinen auch die Varianten GPT-4.1 mini und GPT-4.1 nano. Alle drei Modelle bieten eine deutlich verbesserte Leistung im Vergleich zum bisherigen Flaggschiff GPT-4o – insbesondere beim Codieren, bei der Befolgung von Anweisungen und beim Umgang mit langen Kontexten.
Verbesserte Leistung bei Programmieraufgaben
GPT-4.1 erzielt mit 54,6 % auf dem SWE-bench Verified Benchmark einen neuen Bestwert für reale Programmieraufgaben. Das entspricht einem Zuwachs von 21,4 Prozentpunkten gegenüber GPT-4o und liegt auch über dem Wert von GPT-4.5. Damit ist GPT-4.1 besonders gut geeignet für Entwickler, die komplexe Aufgaben automatisiert lösen wollen – vom Code-Review bis hin zu Frontend-Anwendungen. Die Modelle verstehen Code besser im Kontext, folgen Formatvorgaben zuverlässiger und machen seltener unnötige Änderungen.
Langkontext-Fähigkeit: Bis zu 1 Million Token
Ein zentrales Highlight der GPT-4.1-Modelle ist die Unterstützung von bis zu 1 Million Token im Kontextfenster – ein Sprung von der bisherigen Grenze von 128.000 Token. Damit lassen sich etwa große Codebasen, umfassende juristische Dokumente oder lange Kundenhistorien effizient verarbeiten. In internen Tests zeigte GPT-4.1 eine durchgängig hohe Präzision beim Wiederfinden von Informationen selbst bei maximaler Kontextlänge.
Stärkere Instruktionsbefolgung
In Benchmarks wie MultiChallenge und IFEval zeigt GPT-4.1 deutliche Fortschritte bei der präzisen Umsetzung komplexer Anweisungen. Dazu zählen etwa formatierte Antworten, negative Anweisungen oder mehrstufige Aufgaben. In Anwendungen wie juristischer Recherche (z. B. bei Thomson Reuters) oder Datenanalysen (z. B. bei Hex) konnten die Modelle deutlich präzisere Ergebnisse liefern und verringerten den manuellen Nachbesserungsaufwand spürbar.
GPT-4.1 mini und nano: Schnell und effizient
Neben der Vollversion bietet OpenAI zwei weitere Modellvarianten an: GPT-4.1 mini schlägt GPT-4o in vielen Benchmarks, bei 83 % geringeren Kosten und nahezu halbierter Latenz. GPT-4.1 nano richtet sich an besonders latenzkritische Anwendungen und eignet sich für Aufgaben wie Klassifikation oder Autovervollständigung. Beide Modelle unterstützen ebenfalls die 1-Million-Token-Kontextfenster.
Vision-Fähigkeiten und Preise
Auch bei der Bildverarbeitung zeigen GPT-4.1-Modelle Fortschritte. In Benchmarks wie MMMU und MathVista erreichen sie durchgängig höhere Werte als GPT-4o. Preislich sinken die Nutzungskosten: GPT-4.1 ist im Median 26 % günstiger als GPT-4o. Die Modelle profitieren zudem von einem höheren Rabatt (75 %) bei Verwendung gecachter Prompts.
Ausblick: GPT-4.5 wird abgeschaltet
Im Zuge der Einführung wird die Vorschauversion GPT-4.5 in drei Monaten eingestellt. Entwickler erhalten bis zum 14. Juli 2025 Zeit zur Umstellung. Mit GPT-4.1 stellt OpenAI ein leistungsfähigeres, kosteneffizienteres und vielseitiger einsetzbares Modell bereit – speziell optimiert für reale Entwickleranforderungen.