4 Minuten
Xiaomi hat sich mit einem kräftigen Stoß in das Wettrennen um autonomes Fahren eingemischt. Sein neu veröffentlichtes OneVL Framework ist jetzt Open Source, und das Ziel ist ehrgeizig: autonomen Fahrsystemen eine bessere Möglichkeit zu geben, die Straße zu lesen, mit Unsicherheit umzugehen und vorherzusagen, was als Nächstes passiert.
Das ist wichtig, weil die KI für autonomes Fahren lange Zeit zwischen zwei Denkschulen gespalten war. Die eine Seite konzentriert sich auf Vision-Language-Action-Modelle, also VLA-Systeme, die Verkehrsszenen interpretieren und dieses Verständnis in Fahrentscheidungen übersetzen. Die andere setzt auf Weltmodelle, die dazu gedacht sind, zu simulieren, wie sich eine Situation in den nächsten Sekunden entwickeln könnte. Xiaomi sagt, OneVL vereine diese beiden Stränge in einem einzigen Framework durch Schlussfolgern im latenten Raum, eine Methode, die Vorhersagen und Entscheidungsfindung schneller und effizienter machen soll.
Einfach gesagt versucht das Unternehmen, eines der schwierigsten Probleme der selbstfahrenden Technologie zu lösen: nicht nur die Straße zu sehen, sondern Ursache und Wirkung in Echtzeit zu verstehen. Ein Fußgänger steigt vom Bordstein. Ein Elektroscooter schneidet eine Spur. Ein vorausfahrendes Auto zögert an einer Kreuzung. Das sind keine statischen Bilder. Sie sind bewegliche Puzzles. Xiaomi argumentiert, dass OneVL darauf ausgelegt ist, diese Unordnung mit mehr Präzision zu handhaben als konventionelle Ansätze.
Das Unternehmen erklärt, das Framework erweitere die Schlussfolgerungsfähigkeiten seines XLA-Modells und steigere zugleich sowohl die Inferenzgeschwindigkeit als auch die Genauigkeit. Zudem behauptet es starke Ergebnisse bei gängigen Benchmarks in den Bereichen Perzeption, Schlussfolgern und Planung, drei Kernfeldern der Software für autonome Fahrzeuge. Xiaomi geht weiter und sagt, OneVL könne die explizite Gedankenkette in der Schlussfolgerung in der Genauigkeit übertreffen, während die Geschwindigkeit nahe an latent-inferenziellen Systemen bleibe, die hauptsächlich für die Vorhersage der Endantwort optimiert sind.
Nicht nur schneller, sondern auch vertrauenswürdiger
Ein besonders interessanter Teil der Veröffentlichung ist Xiaomis Betonung der Interpretierbarkeit. Beim autonomen Fahren sind Leistungszahlen nur ein Teil der Geschichte. Ingenieurinnen und Ingenieure, Regulierungsbehörden und schließlich Fahrgäste wollen wissen, warum eine Maschine eine Entscheidung getroffen hat. Xiaomi sagt, OneVL könne sein Handeln sowohl in natürlicher Sprache als auch visuell erklären und gebe Entwickelnden damit ein klareres Fenster dafür, wie das Modell zu einer Schlussfolgerung gelangte und was es als Nächstes auf der Straße erwartet.
Das könnte weit über Forschungsdemos hinaus nützlich sein. Wenn ein System zeigen kann, warum es langsamer geworden ist, die Spur gewechselt oder Vorfahrt gewährt hat, wird es leichter zu prüfen, zu verfeinern und gegebenenfalls in sicherheitskritischen Umgebungen zu validieren. Für eine Branche, die oft wegen Black-Box-Entscheidungen kritisiert wird, ist das kein kleines Detail.
Das Timing ist ebenfalls auffällig. OneVL erscheint kurz nachdem Xiaomi Omnivoice, sein Audio-Generierungsmodell, als Open Source veröffentlicht hat, was darauf hindeutet, dass das Unternehmen in mehreren Bereichen stärker auf offene KI-Entwicklung setzt. Es geht dabei nicht nur um das Veröffentlichen von Code aus Wohlwollen. Es ist ein Signal. Xiaomi will in der KI-Debatte lauter gehört werden und sieht intelligente Mobilität eindeutig als eines der Schlachtfelder, die es zu besetzen gilt.
Der Wettbewerb im Bereich autonomes Fahren und verkörperte KI wird von Monat zu Monat härter. Technologiekonzerne, Autohersteller und spezialisierte Start-ups jagen alle dem gleichen Ziel nach: Systeme zu entwickeln, die die physische Welt gut genug verstehen, um sicher in ihr zu handeln. Indem Xiaomi OneVL als Open Source freigibt, tritt das Unternehmen nicht nur diesem Wettstreit bei. Es versucht, die Bedingungen mitzubestimmen.
Kommentar hinterlassen