Die europäische KI-Hoffnung Mistral AI bringt mit der Mistral-3-Familie eine neue Generation multilingualer, multimodaler Open-Source-KI-Modelle auf den Markt – optimiert für den Einsatz auf NVIDIA-Hardware, vom Rechenzentrum bis zum Edge-Gerät. Die Partnerschaft beider Unternehmen zielt darauf ab, sogenannte „Distributed Intelligence“ Wirklichkeit werden zu lassen, also skalierbare KI, die sich flexibel über unterschiedliche Plattformen hinweg einsetzen lässt.
Effizienz durch Expertenmodelle
Im Zentrum der Reihe steht Mistral Large 3 – ein sogenanntes Mixture-of-Experts-Modell (MoE), das pro Eingabe nur einen Teil seiner neuronalen Netzwerke aktiviert. Dadurch steigt die Effizienz erheblich: Mit 41 Milliarden aktiven und 675 Milliarden Gesamtparametern sowie einem Kontextfenster von 256.000 Tokens bietet das Modell ein Höchstmaß an Skalierbarkeit.
Dank der Kopplung mit NVIDIAs GB200-NVL72-Systemen lässt sich Mistral Large 3 besonders performant betreiben. Im Vergleich zur Vorgängergeneration H200 erzielt das Modell laut Hersteller eine zehnfache Leistungssteigerung. Möglich machen das unter anderem die NVFP4-Präzision, die NVLink-Architektur mit gemeinsamem Speicherzugriff und spezialisierte Inferenz-Optimierungen wie NVIDIA Dynamo.
Gewinnen in der Plattform-Ökonomie
Vom Rechenzentrum bis zum Edge
Neben dem Flaggschiffmodell bringt Mistral AI auch neun kompakte Modelle unter dem Namen „Ministral 3“ auf den Markt. Diese sind für Edge-Plattformen wie NVIDIA Jetson, RTX-Laptops und Spark-Systeme konzipiert. Durch die Zusammenarbeit mit Frameworks wie Llama.cpp und Ollama lassen sich diese Modelle besonders effizient auf GPUs ausführen – selbst auf kleinen Geräten.
Die Mistral-3-Modelle stehen ab sofort offen zur Verfügung und richten sich sowohl an Unternehmen als auch an Entwickler und Forscher. Über offene Frameworks wie NVIDIA NeMo lassen sich die Modelle weiter anpassen und in produktive KI-Agenten überführen. Gleichzeitig hat NVIDIA mit TensorRT-LLM, SGLang und vLLM eigene Inferenz-Frameworks für die neue Modellreihe angepasst, um eine durchgängige Leistungsfähigkeit von der Cloud bis zum Edge zu gewährleisten.


