Am 6. März 2026 stellte Microsoft sein neuestes Modell, Phi-4-Reasoning-Vision-15B, vor, ein multimodales Modell mit 15 Milliarden Parametern, das speziell für Aufgaben entwickelt wurde, die sowohl Bild- als auch Textverarbeitung kombinieren. Mit einem besonderen Fokus auf wissenschaftliches und mathematisches Denken sowie auf das Verständnis von Benutzeroberflächen, stellt dieses kompakte Modell einen bedeutenden Fortschritt in der künstlichen Intelligenz dar. Die Fähigkeit, selektives Denken in Kombination mit einer präzisen Bilderkennung zu ermöglichen, wird als ein Kernmerkmal des Modells hervorgehoben.
Grundlagen des Modells
Phi-4-Reasoning-Vision-15B basiert auf der Phi-4-Reasoning Sprachbasis und dem SigLIP-2 Vision-Encoder, die über eine Mid-Fusion-Architektur miteinander verbunden sind. In dieser Struktur konvertiert der Vision-Encoder Bilder in visuelle Tokens, welche anschließend in den Einbettungsraum des Sprachmodells projiziert werden. Diese Herangehensweise bietet einen praktischen Kompromiss, indem sie starkes cross-modales Denken bewahrt und gleichzeitig die Kosten für Training und Inferenz im Vergleich zu traditionellen Ansätzen, die oft auf umfangreiche Datenmengen angewiesen sind, reduziert.

Der Ansatz von Microsoft: Klein, aber oho
Im Gegensatz zu den meisten neueren Modellen, die stark an Parameteranzahl und Token-Nutzung zugenommen haben, verbraucht Phi-4-Reasoning-Vision-15B weniger Ressourcen, ohne dabei auf die Lösung häufiger multimodaler Aufgaben verzichten zu müssen. Das Modell wurde auf der Grundlage von 200 Milliarden multimodalen Tokens trainiert. Zum Vergleich: Einige andere bekannte Modelle, wie Qwen 2.5 VL, nutzen über 1 Billion Tokens.
Hochauflösende Bildwahrnehmung
Ein zentrales Designmerkmal des Modells ist die hochauflösende Bildwahrnehmung. Microsoft stellt fest, dass viele multimodalen Modelle aufgrund von Wahrnehmungsfehlern scheitern können, anstatt dass das Modell an logischem Denken fehlt. Aus diesem Grund nutzt Phi-4-Reasoning-Vision-15B einen dynamischen Auflösungsvision-Encoder, der es ermöglicht, bis zu 3.600 visuelle Tokens zu verarbeiten. Diese Fähigkeit ist entscheidend, um komplexe Aufgaben wie das Verstehen von Benutzeroberflächen (GUIs) und die Analyse von Dokumenten in hoher Detailtreue zu erfüllen.
Mischdenkensstrategie
Ein weiterer wichtiger Aspekt des Modells ist die implementierte Mischdenkensstrategie. Statt alle Aufgaben im Stil des kettenförmigen Denkens zu behandeln, wurde das Modell so trainiert, dass es zwischen zwei Modi wechselt. Dieser Ansatz ermöglicht es, spezifische Aufgaben wie Bildunterschriften oder einfache visuelle Frage-Antwort-Sitzungen effizient zu bewältigen, während es gleichzeitig komplexere Denkprozesse bei mathematischen und wissenschaftlichen Fragestellungen aktiviert.
Stärkste Anwendungsbereiche
Das Modell zeigt besondere Stärken in zwei Hauptanwendungsbereichen:
- Wissenschaftliches und mathematisches Denken über visuelle Eingaben, einschließlich handschriftlicher Gleichungen und Diagrammen.
- Aufgaben als Computer-Nutzer, bei denen das Modell Inhalte auf dem Bildschirm interpretiert und bei der Interaktion mit GUIs unterstützt. Die Leistung wurde anhand verschiedener Benchmarks gemessen und zeigt bemerkenswerte Ergebnisse in Bereichen wie AI2DTEST und MathVisionMINI.
Benchmark Ergebnisse
Die Ergebnisse sind vielversprechend: (
- AI2DTEST: 84.8
- ChartQATEST: 83.3
- MathVerseMINI: 44.9
- OCRBench: 76.0
- ScreenSpotv2: 88.2
) Diese Werte belegen die Leistungsfähigkeit des Modells unter kontrollierten Bedingungen und stellen einen neuen Standard für kompakte multimodale Modelle dar.
Fazit
Die Veröffentlichung von Phi-4-Reasoning-Vision-15B durch Microsoft ist ein beeindruckender Schritt in Richtung einer KI, die sowohl das visuelle als auch das textuelle Verständnis effizient vereint. Die intelligenten Designentscheidungen hinter dem Modell machen es nicht nur leistungsfähig, sondern auch für Anwendungsfälle geeignet, die bisher großen, ressourcenintensiven Modellen vorbehalten waren. Wie Microsoft betont, bleibt die Herausforderung, das Modell optimal für verschiedene Aufgaben einzusetzen, jedoch besteht der Wunsch, eine Balance zwischen Effizienz und Effektivität aufrechtzuerhalten.
Quelle: MarkTechPost


