Huawei trainiert DeepSeek V4-Pro auf tausend Ascend-Chips

Stellen Sie sich einen Serverraum vor, dicht gepackt mit Silizium, und jeder Chip arbeitet sich durch einen Berg von Text. Das ist das Bild, das Huaweis Forschungsteam zeichnet, nachdem es angekündigt hat, DeepSeek V4-Pro zu trainieren, ein Modell mit 1,6 Billionen Parametern, auf einem Cluster, das auf mindestens tausend Ascend 910C-Chips basiert.

Die Geschichte klingt einfach: inländisch gefertigte KI-Siliziumchips bewältigen endlich großflächige Modellaufgaben. Die Realität ist jedoch vielschichtig. Huawei sagt, das Team habe vollständige Parameteraktualisierungen durchgeführt, das heißt, jeder Gewichtungswert im Modell wurde trainiert, statt nur eine dünne Adapter-Schicht hinzuzufügen, und dass das Vortraining für V4-Pro auf einem erstaunlichen Korpus beruhte, der Berichten zufolge mehr als 32 Billionen Token umfasste. Das Vortraining bildet die Kernfähigkeiten des Modells; die spätere Feinabstimmungsphase formt das Verhalten durch Instruktionsanpassung und Sicherheitsausrichtung.

Warum ist das wichtig? Weil das Training aller Parameter deutlich anspruchsvoller ist als leichtgewichtige Verfahren, die nur einen kleinen Teil eines Netzwerks anpassen. Es erfordert konstanten Durchsatz, stabile Verbindungen und enge Orchestrierung über die Chips hinweg. Historisch hatten chinesische Teams Schwierigkeiten, schwere Trainingslasten von Nvidia-Hardware zu verlagern, ohne auf Engpässe bei Leistung und Verbindungsstabilität zu stoßen.

Huawei verweist auf die Dual-Design-Architektur des Ascend 910C als Wendepunkt. Unabhängige Tests aus früheren DeepSeek-Experimenten deuteten darauf hin, dass ein Ascend-Baustein etwa 60% der Inferenzleistung der Nvidia H100 erreichen könne, doch das betraf Inferenz, nicht groß angelegtes, synchronisiertes Training. Trainingslasten legen andere Schwächen offen: kollektive Kommunikation, Speicherverwaltung und Softwarereife werden dann entscheidend.

Dennoch enthält die Behauptung Vorbehalte. Die Forschenden berichteten über den Abschluss des Trainings aller Parameter, lieferten aber keine belastbaren Benchmarks: keine Angaben zur Gesamtdauer, keine Durchsatzmetriken, kein direkter Vergleich mit H100-Clustern und keine detaillierte Aufschlüsselung von Energieverbrauch oder Effizienz. Ohne diese Zahlen liest sich die Ankündigung genau so, wie sie ist, ein ermutigender technischer Meilenstein, aber noch kein unabhängiger Beweis dafür, dass Ascend-Cluster etablierte Alternativen beim State-of-the-art-Vortraining erreichen oder übertreffen.

Es spricht für Vorsicht. Frühere Berichte besagten, dass Versuche, ein anderes Modell, R2, auf Huawei-Silizium zu trainieren, auf Instabilitäten und langsame Chip-Verbindungen gestoßen seien. Der Übergang von erfolgreichen Inferenz-Demonstrationen zu zuverlässigem, großangelegtem Vortraining ist ein großer Schritt. Unternehmen können manchmal genügend Engineering zusammenflicken, um einen einzelnen Lauf abzuschließen, während es ihnen noch an der Robustheit fehlt, die für routinemäßige Modellentwicklung im großen Maßstab erforderlich ist.

Was ist die Erkenntnis für das breitere KI-Ökosystem? Hält Huaweis Darstellung einer genaueren Prüfung stand, signalisiert das eine wachsende Wettbewerbsfähigkeit chinesischer KI-Hardware und einen reifenden Software-Stack, der in der Lage ist, Trainingsläufe mit tausend Chips zu orchestrieren. Trifft das nicht zu, unterstreicht es, dass Hype noch vor überprüfbaren Fortschritten liegt. In jedem Fall ist der nächste Schritt klar: unabhängige Benchmarks und transparente Laufzeitdaten.

Wir werden auf diese Zahlen achten. Unabhängige Verifikation wird zeigen, ob dies eine echte Wende in der globalen KI-Infrastruktur ist oder lediglich ein ambitionierter Proof of Concept.

Maximilian Fischer

"KI und Software sind meine Welt. Ich erkläre komplexe Algorithmen so, dass jeder sie verstehen kann."