8 Minuten
Der chinesische GPU-Hersteller Moore Threads stellte auf der MUSA 2025 Developer Conference seine nächste Generation der Huagang-Architektur (zu Deutsch: „Blumentopf“) vor und kündigte damit deutlich gesteigerte Leistungswerte sowohl für Gaming- als auch für KI-Workloads an. Das Unternehmen präsentierte außerdem zwei Chips, die auf dieser Architektur basieren: Lushan für Grafik-Anwendungen und Huashan für KI-Rechenaufgaben. Beide Produkte sind auf einen Marktstart im Jahr 2026 ausgelegt.
Zwei Chips, zwei Aufgaben: Lushan für Gamer, Huashan für KI
Im Zentrum von Huagang steht dichterer und effizienterer Rechenaufwand: Die Compute-Einheiten wurden überarbeitet, wodurch Moore Threads angibt, die Compute-Dichte um etwa 50 % erhöht und die Energieeffizienz ungefähr um 10 % verbessert zu haben. Die Architektur erweitert das Support-Portfolio um eine neue Befehlssatz-Erweiterung, asynchrones Programmiermodell und eine intelligentere Thread-Planung — Funktionen, die gezielt für moderne Echtzeit-Rendering-Szenarien und großskalige KI-Inferenz optimiert wurden.
Lushan ersetzt die älteren MTT S80- und S90-Karten und richtet sich sowohl an Spieler als auch an professionelle Anwender. Moore Threads behauptet erhebliche Zugewinne: bis zu 15× bessere Performance in AAA-Titeln, eine 50-fach stärkere Raytracing-Leistung und in bestimmten Workloads eine 64-fach höhere KI-Rechenleistung. Das Unternehmen hebt außerdem deutliche Verbesserungen bei der Geometrie-Verarbeitung und der Texture-Fill-Rate hervor sowie eine Speichererweiterung von 16 GB auf bis zu 64 GB — ein spürbarer Vorteil bei großen Szenen und in CAD-/CAE-Anwendungen. Lushan führt die UniTE-Unified-Rendering-Architektur ein und beinhaltet einen dedizierten AI-Block, um kombinierte Grafik-/KI-Aufgaben zu beschleunigen.
Die genannten Verbesserungen zielen direkt auf wichtige Anforderungen von Gamern, Kreativen und professionellen Anwendern ab: realistischere Beleuchtung durch Raytracing, schnellere Geometrie- und Mesh-Verarbeitung für komplexe Szenen sowie ausreichend VRAM für große Texturen und Simulationsdaten. Für Anwender in den Bereichen 3D-Modellierung, Architekturvisualisierung oder professionelle Videoproduktion bedeutet mehr lokaler Speicher einen geringeren Bedarf an teurem und langsamerem Datentransfer zum Host-Speicher, was zu niedrigeren Latenzen und stabileren Frameraten führen kann.
Technisch gesehen setzt Lushan auf eine Kombination aus erhöhter Compute-Dichte und optimierter Speicherarchitektur. Die UniTE-Architektur soll Rendering-Pipelines vereinheitlichen, wodurch Shader, Raytracing und AI-gestützte Post-Processing-Schritte enger zusammenarbeiten können. Das eröffnet Potenzial für Funktionen wie hardwarebeschleunigte DLSS-ähnliche Upscaling-Methoden, intelligente Texturkompression oder hybride Raster/Raytracing-Workflows, die in Echtzeit effizienter sind. Darüber hinaus könnte ein dedizierter AI-Block bei Aufgaben wie Neural Rendering, AI-gestützter Denoising oder Szenenoptimierung signifikante Vorteile bringen.
Aus Sicht der Spieleentwicklung und der Gaming-Performance sind drei Aspekte besonders relevant: raw Shader-Leistung, Raytracing-Fähigkeiten und Speicherbandbreite/-kapazität. Moore Threads adressiert alle drei Punkte: erhöhte Compute-Dichte verbessert Shader- und Raster-Performance, bessere Raytracing-Einheiten steigern die Beleuchtungsqualität und mehr lokaler Speicher erlaubt höhere Texturbedingungen und größere Szenen. Wie groß der praktische Vorteil gegenüber etablierten Wettbewerbern wie NVIDIA und AMD sein wird, bleibt allerdings abzuwarten, da unabhängige Benchmarks sowie Treiber-Optimierungen entscheidend sind.

Huashan dagegen ist für schwere KI-Workloads ausgelegt. Die Architektur verwendet ein Dual-Chiplet-Layout in Verbindung mit neun HBM-Modulen und unterstützt sowohl das FP4- als auch das FP64-Format. Moore Threads verglich Huashan direkt mit NVIDIAs Hopper- und Blackwell-Familien und behauptet eine Gleitkomma-Leistung, die nahe an die Blackwell B200 heranreiche, sowie eine vergleichbare Gesamtspeicherbandbreite mit besonders starken Speicherzugriffseigenschaften. Der Chip kann über MTLink 4.0 skaliert werden; Moore Threads nennt eine Interconnect-Geschwindigkeit von 1.314 GB/s und eine theoretische Skalierbarkeit auf über 100.000 Einheiten.
Die Dual-Chiplet-Topologie erlaubt es, große Mengen an Recheneinheiten und Speichermodulen effizient zu integrieren, ohne dass die Single-Die-Größe unhandlich wird. Durch die Verwendung mehrerer HBM-Stacks wird eine sehr hohe Speicherbandbreite erreicht, die für datenintensive KI-Modelle von zentraler Bedeutung ist. FP4-Unterstützung zielt auf moderne Quantisierungs-Ansätze ab, die in vielen Trainings- und Inferenzszenarien die Rechen- und Speicheranforderungen drastisch reduzieren können, während FP64-Kompatibilität Relevanz in wissenschaftlichen und High-Performance-Computing-Anwendungen sicherstellt, in denen hohe numerische Präzision nötig ist.
Wichtig ist hier auch die Rolle des Interconnects: MTLink 4.0 ist als skalierbare Lösung konzipiert, um mehrere GPUs zu einem kohärenten System zusammenzufassen. Eine Interconnect-Geschwindigkeit von 1.314 GB/s je Link deutet auf eine hohe Bandbreite hin, die Überkopfkosten bei verteilten Trainingsläufen minimieren kann. Theoretische Skalierbarkeit auf enorme Clustergrößen klingt ambitioniert; in der Praxis hängen die tatsächliche Skalierbarkeit und Effizienz jedoch stark von Software-Stacks, Netzwerk-Topologie, Kühlung und Workload-Eigenschaften ab.
Moore Threads hat diese Leistungswerte als Firmenangaben veröffentlicht; unabhängige Benchmarks und Tests durch Dritte sind nötig, um reale Leistungsdaten gegenüber etablierten Anbietern zu verifizieren. Dabei spielen neben roher Hardware-Leistung auch Treiberreife, Software-Ökosystem (z. B. Support für CUDA-Alternativen, Compiler, ML-Framework-Integration), vorhandene Optimierungen für populäre KI-Modelle und das Partnernetzwerk der entscheidende Rolle.
Dennoch signalisieren Moore Threads' Schwerpunktsetzungen — größere lokale Speicherkapazität, eine vereinheitlichte Rendering-Architektur und dedizierte AI-Hardware — einen klaren Versuch, die Lücken sowohl im Gaming- als auch im Data-Center-Bereich zu verringern. Höherer lokaler Speicher und verbesserte Raytracing-Leistung könnten Lushan für Prosumer und kreative Profis attraktiv machen, während Huashans Chiplet-Ansatz und MTLink-Skalierbarkeit insbesondere in KI-Clustern interessant sein könnten.
Für Endkunden und Rechenzentrumsbetreiber ergeben sich daraus mehrere Fragen: Wie gut ist die Ökosystem-Unterstützung (Treiber, Middleware, Framework-Integrationen)? Wie robust ist die Hardware in realen Produktionsumgebungen? Und welche Preis-/Leistungsrelation bieten die Karten im Vergleich zu Konkurrenzprodukten? Moore Threads plant, die ersten Lushan-basierten Consumer-Karten 2026 auf den Markt zu bringen, wobei Huashan-basierte Produkte zeitgleich oder kurz danach erwartet werden.
Ökonomisch betrachtet könnte Moore Threads mit diesen Produkten eine attraktivere Kostenstruktur für bestimmte Märkte bieten. Chinesische Anbieter streben häufig eine Kombination aus konkurrenzfähigen Preisen und lokalem Ökosystem-Support an, was vor allem für inländische Rechenzentren, Gaming-Anwendungen und industrielle KI-Projekte interessant sein kann. Wenn Moore Threads zudem lokale Fertigungspartnerschaften und ein abgestimmtes Lieferkettenmanagement vorweisen kann, wäre das ein zusätzlicher Vorteil gegenüber Importabhängigkeit.
Auf technischer Ebene sind einige Punkte besonders relevant für Entwickler und Integratoren: die Unterstützung von asynchronen Programmiermodellen kann Latenzen minimieren und die Auslastung der Recheneinheiten verbessern, während eine intelligente Thread-Planung die Parallelität in Rendering- und KI-Pipelines effizienter nutzt. Die neue Befehlssatzerweiterung könnte darüber hinaus dedizierte Anweisungen für Matrix-Operationen, Raytracing-Primitive oder spezielle Speicheroperationen enthalten, die in modernen Workloads den Unterschied machen. Allerdings ist die praktische Wirkung solcher ISA-Erweiterungen stark von Compiler- und Driver-Optimierungen abhängig.
Für Spieleentwickler und Engine-Entwickler sind außerdem folgende Aspekte von Bedeutung: Wie einfach ist die Portierung bestehender Engines (z. B. Unreal Engine, Unity) auf die neue Plattform? Unterstützt Moore Threads gängige APIs wie Vulkan, DirectX 12 und eventuell Produkt-spezifische Extensions? Ein offenes und gut dokumentiertes SDK, zusammen mit laufenden Treiber-Updates, ist für eine breite Akzeptanz entscheidend. Die Integration von UniTE könnte als Unique Selling Point dienen, wenn sie offene Standards unterstützt oder eine leicht zu nutzende Brücke zu bestehenden Rendering-Pipelines bietet.
Im KI-Bereich ist die Software-Ökologie oft sogar noch wichtiger als die reine Hardware-Architektur. Unterstützung für populäre Frameworks (z. B. PyTorch, TensorFlow) sowie Optimierungen und Bibliotheken für verteiltes Training und Inferenz sind nötig, damit Huashan in großen KI-Projekten tatsächlich eingesetzt wird. Dazu gehören auch Tools für Profiling, Debugging und Performance-Tuning, die gerade bei komplexen, verteilten Trainingsläufen den Unterschied zwischen theoretischer und real erreichter Effizienz ausmachen.
Ein weiterer Aspekt ist Energieeffizienz und Thermik: Gerade in dichten Server-Racks oder bei Workstations mit begrenztem Kühlvolumen zählen Performance-per-Watt-Werte. Moore Threads nennt in seinen Angaben Verbesserungen bei der Energieeffizienz, doch die realen Werte in produktiven Umgebungen hängen stark von der Implementierung der Kühlung, dem Power-Management der Karten und der Software-Abstimmung ab. Für Rechenzentren spielen außerdem Skalierbarkeit, Fehlertoleranz und Fernverwaltungsfunktionen eine große Rolle.
Auch rechtliche und geopolitische Faktoren können die Adoption beeinflussen. Das Wettbewerbsumfeld im GPU-Markt ist stark, und Marktzugänge können durch Handelsbeschränkungen, Zertifizierungsanforderungen oder Partnerschaftsnetze beeinflusst werden. In diesem Kontext können lokale Hersteller wie Moore Threads von regionalen Programmen, staatlicher Unterstützung oder bevorzugten Regierungsaufträgen profitieren, was die Marktdurchdringung in bestimmten Regionen beschleunigen könnte.
Abschließend lässt sich sagen: Die Huagang-Architektur und die darauf basierenden Chips Lushan und Huashan sind ambitionierte Schritte von Moore Threads, die sowohl Gaming- als auch KI-Märkte adressieren. Wenn die versprochenen Leistungs- und Effizienzsteigerungen durch unabhängige Tests bestätigt werden und das Software- und Treiber-Ökosystem ausreichend schnell reift, könnten diese GPUs eine ernste Alternative zu etablierten Lösungen werden. Beobachter sollten insbesondere auf unabhängige Benchmarks, Treiber-Stabilität, Framework-Integration und Preisgestaltung achten, um das tatsächliche Marktpotenzial fundiert einzuschätzen. Die ersten Lushan-Grafikkarten und Huashan-basierten KI-Produkte werden für 2026 erwartet; bis dahin bleibt Zeit für Test, Validierung und Optimierung durch Moore Threads und deren Partner.
Quelle: gizmochina
Kommentar hinterlassen