Die Welt der künstlichen Intelligenz erfährt einen bemerkenswerten Fortschritt mit der Veröffentlichung der neuen Modelle von Xiaomi: MiMo-V2.5-Pro und MiMo-V2.5. Diese Modelle zeigen in ihren aktuellen Benchmarks und realen Anwendungsdemonstrationen, wie sie im Vergleich zu anderen führenden Modellen agieren. Beide stehen ab sofort über APIs zur Verfügung und bieten ein hervorragendes Preis-Leistungs-Verhältnis.
Was ist ein agentisches Modell und warum ist es wichtig?
Agentische Modelle gehen über herkömmliche LLM- (Large Language Model) Benchmarks hinaus, die oft nur die Fähigkeit eines Modells testen, auf eine einzelne, abgeschlossene Anfrage zu antworten. Agentische Benchmarks hingegen zielen darauf ab, die Fähigkeit eines Modells zu bewerten, mehrstufige Ziele autonom zu erreichen, indem es eine Vielzahl von Werkzeugen (wie Websuche, Codierung, Dateioperationen und API-Aufrufe) über mehrere Schritte hinweg nutzt. Dies ist eine bedeutende Entwicklung in der KI, da es zeigt, dass Modelle in der Lage sind, komplexe Aufgaben selbstständig abzuwickeln.
MiMo-V2.5-Pro: Das Flaggschiff-Modell
MiMo-V2.5-Pro ist das leistungsstärkste Modell von Xiaomi und bietet signifikante Verbesserungen im Vergleich zum Vorgänger MiMo-V2-Pro. Es bietet vergleichbare Benchmark-Zahlen mit führenden geschlossenen Modellen wie SWE-bench Pro (57.2), Claw-Eval (63.8) und τ3-Bench (72.9). Diese Werte positionieren es auf Augenhöhe mit führenden Modellen wie Claude Opus 4.6 und GPT-5.4.
Das Modell zeigt bemerkenswerte Fortschritte in der Ausführung komplexer, langfristiger Aufgaben, und kann dabei über 1000 Tool-Anfragen und Anweisungen effizient umsetzen. Ein einzigartiges Merkmal ist die so genannte “Harness Awareness”-Fähigkeit, die es MiMo-V2.5-Pro ermöglicht, die Vorzüge seiner Umgebung voll auszunutzen, sein Gedächtnis zu verwalten und kontextbezogene Anforderungen präzise zu erfassen.
Beispielhafte Demonstrationen
Demo 1 – SysY Compiler in Rust
In dieser deutlich anspruchsvollen Aufgabe, die normalerweise mehrere Wochen dauert, hat das Modell in nur 4,3 Stunden und mit 672 Tool-Anfragen einen vollständigen SysY-Compiler in Rust erstellt. Die Qualität der Ausführung wurde an einer versteckten Testsuite gemessen, bei der MiMo-V2.5-Pro eine maximale Punktzahl von 233/233 erreichte.
Demo 2 – Komplettfunktioneller Desktop Video Editor
Mit wenigen einfachen Eingaben lieferte MiMo-V2.5-Pro eine funktionsfähige Desktop-Anwendung, die mehr als 8.192 Codezeilen umfasste und über 11 Stunden autonomer Arbeit entstand.
Demo 3 – Analog EDA- FVF-LDO Design
Hierbei handelte es sich um eine komplexe, technische Aufgabe, die die Gestaltung eines Flipped-Voltage-Follower (FVF-LDO) erforderte. Mit einer Iteration über eine Stunde und insgesamt sechs Leistungskennzahlen, traf es alle Spezifikationen und verbesserte vier wesentliche Parameter erheblich.
Token-Effizienz
Ein entscheidendes Kriterium für die Verwendung von AI auf der Grenze ist die Kosten-Effektivität. MiMo-V2.5-Pro zeichnet sich dabei durch eine signifikante Token-Einsparung aus: Es erzielt 64% Pass³ bei nur etwa 70.000 Tokens pro Trajektorie, was 40-60% weniger ist als bei vergleichbaren Modellen wie Claude Opus 4.6.
MiMo-V2.5: Niedrigere Kosten, hohe Leistung
Während MiMo-V2.5-Pro auf komplexe agentische Aufgaben ausgelegt ist, hebt sich MiMo-V2.5 durch native multimodale Fähigkeiten hervor. Das Modell kann visuelle und akustische Informationen verstehen und seamlessly über 1 Million Tokens Kontext bedanken.
Preisgestaltung
Die Preisgestaltung für MiMo-V2.5 ist klar: 1x (1 Token = 1 Credit), während MiMo-V2.5-Pro zu 2x (1 Token = 2 Credits) angeboten wird. Der erwähnte 1 Million Token Kontext verursachte daher keine zusätzlichen Kosten.
Fazit
Xiaomi liefert mit den Modellen MiMo-V2.5-Pro und MiMo-V2.5 echte Innovationsbeweise in der Welt der agentischen KI. Während MiMo-V2.5-Pro in der Lage ist, anspruchsvolle technische Herausforderungen autonom zu bewältigen und dabei deutlich effizienter zu arbeiten, bietet MiMo-V2.5 für den täglichen Einsatz eine erschwingliche Lösung, die kaum Kompromisse bei der Leistung verlangt. Ob für Fachleute oder Entwicklungsteams — diese Modelle sind eine wegweisende Entwicklung in der KI-Technologie.
Quelle: MarkTechPost


