Alibaba Cloud hat mit seinem neuesten großen Sprachmodell (LLM), Qwen2.5-Max, eine Spitzenposition in der renommierten Chatbot Arena erreicht. Das Modell belegt dort insgesamt Platz 7 und stellt seine herausragenden Fähigkeiten insbesondere in den Bereichen Mathematik und Programmierung unter Beweis, wo es den ersten Platz belegt. In der Kategorie „Hard Prompts“, die besonders anspruchsvolle Aufgabenstellungen umfasst, erreicht es den zweiten Platz.
Qwen2.5-Max wurde mit führenden KI-Modellen wie DeepSeek V3, GPT-4o und Claude-3.5-Sonnet verglichen. Besonders in den Benchmarks Arena-Hard, LiveBench, LiveCodeBench und GPQA-Diamond erzielte es bessere oder gleichwertige Ergebnisse im Vergleich zu DeepSeek V3. Im MMLU-Pro-Test, der akademisches Wissen bewertet, schnitt es ebenfalls wettbewerbsfähig ab.
Bei der Bewertung der Basismodelle wurde Qwen2.5-Max mit DeepSeek V3, Llama-3.1-405B und Qwen2.5-72B verglichen. Auch hier zeigte das Modell in den meisten Tests überdurchschnittliche Ergebnisse. Da proprietäre Modelle wie GPT-4o und Claude-3.5-Sonnet nicht zugänglich sind, konnte in dieser Kategorie kein direkter Vergleich stattfinden.
Qwen2.5-Max basiert auf der Mixture-of-Experts-Architektur (MoE) und wurde mit über 20 Billionen Token vortrainiert. Durch Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF) konnte das Modell weiter optimiert werden. In wichtigen Benchmarks wie MMLU-Pro, LiveCodeBench und Arena-Hard erzielte es führende Werte und beweist seine Stärke in den Bereichen Wissen, Programmierung und allgemeine Sprachfähigkeiten.
Entwickler und Unternehmen weltweit können Qwen2.5-Max über Model Studio, die generative KI-Entwicklungsplattform von Alibaba Cloud, nutzen. Zudem ist das Modell über die Plattform Qwen Chat zugänglich.
Alibaba Cloud baut seine KI-Modelle kontinuierlich aus. Vor Kurzem wurde mit Qwen2.5-VL ein Open-Source-Visuallanguage-Modell veröffentlicht, das multimodale Fähigkeiten bietet und als visueller Agent fungieren kann. Mit Qwen2.5-1M stellte das Unternehmen zudem ein Modell vor, das Kontexte mit bis zu einer Million Tokens verarbeiten kann.
Alibaba plant, die Skalierung von KI-Modellen weiter voranzutreiben. Besonders die Optimierung durch skalierte Reinforcement-Learning-Techniken steht im Fokus. Das Unternehmen sieht darin das Potenzial, die Denk- und Analysefähigkeiten der Modelle weiter zu verbessern und in Zukunft neue Forschungsbereiche zu erschließen.