Amazon hat mit den neuen EC2 Trn3 UltraServern eine leistungsstarke Plattform für KI-Training und -Inference vorgestellt. Herzstück der Server ist der Trainium3-Chip, der in 3nm-Technologie gefertigt wird und im Vergleich zur Vorgängergeneration bis zu 4,4-mal mehr Rechenleistung, viermal höhere Energieeffizienz und fast viermal so viel Speicherbandbreite bietet. Damit lassen sich auch große KI-Modelle schneller trainieren und kostengünstiger bereitstellen.
Skalierbare Leistung für anspruchsvolle KI-Projekte
Jede Trn3 UltraServer-Einheit kann bis zu 144 Trainium3-Chips enthalten und erreicht eine Rechenleistung von bis zu 362 FP8-PFLOPs. Unternehmen wie Anthropic, Metagenomi und Splash Music berichten bereits von bis zu 50 % geringeren Kosten bei Training und Inference. Besonders Decart, ein Anbieter für generative Video-KI, erzielt durch Trainium3 eine viermal schnellere Bildsynthese bei halbem GPU-Kostenaufwand. Amazon Bedrock nutzt die neue Plattform bereits produktiv.
Die Leistungsgewinne resultieren aus einer Kombination von optimierter Chiparchitektur, verbesserter Speicheranbindung und effizientem Datenfluss innerhalb der Server. Zudem wurde das Netzwerkdesign überarbeitet: Der neue NeuronSwitch-v1 verdoppelt die Bandbreite innerhalb eines UltraServers, während die Latenz zwischen den Chips auf unter 10 Mikrosekunden reduziert wurde.
Amazon unaufhaltsam
Jassy: „Trainium ist bereits ein Milliarden-Geschäft“
Amazon-CEO Andy Jassy betonte auf der re:Invent-Konferenz, dass Trainium längst mehr als ein ambitioniertes Technikprojekt sei: Die zweite Generation des Chips befinde sich mit über einer Million produzierten Exemplaren in großflächiger Nutzung. Mehr als 100.000 Unternehmen setzen ihn ein – überwiegend im Rahmen von Amazon Bedrock. Der Umsatz sei bereits auf Milliardenhöhe angewachsen, so Jassy in einem Beitrag auf X.
Jassy verweist auf klare Preis-Leistungs-Vorteile gegenüber herkömmlichen GPUs. Diese hätten zwar lange den Markt dominiert, doch Trainium biete eine Kombination aus höherer Effizienz und geringeren Betriebskosten. Auch in Zukunft werde Amazon weiter in diese Infrastruktur investieren, um noch größere und komplexere KI-Anwendungen zu ermöglichen.
Infrastruktur für das Zeitalter riesiger KI-Modelle
Amazon verfolgt mit Trainium3 das Ziel, KI-Rechenleistung für eine breite Kundengruppe zugänglich zu machen. Die neue Architektur adressiert zentrale Engpässe, etwa die limitierte Parallelisierung bei wachsender Clustergröße oder die Anforderungen von Inferenz in Echtzeit. Dank der neuen UltraCluster-Generation lassen sich bis zu eine Million Trainium-Chips verbinden – das Zehnfache der bisherigen Skalierbarkeit.
Mit Blick auf die Zukunft ist bereits Trainium4 in Entwicklung. Es soll unter anderem eine sechsfach höhere FP4-Leistung und eine dreifache FP8-Leistung liefern und zusätzlich Nvidia NVLink Fusion unterstützen, was hybride GPU-Trainium-Infrastrukturen ermöglicht. Amazon will damit die Grundlage für künftige Foundation Models und agentenbasierte Systeme schaffen, die in Echtzeit agieren und riesige Datenmengen verarbeiten können.


