Nvidia Vera: Neue CPU-Architektur für KI-Rechenzentren

3 Minuten

Rechenzentren ändern sich selten über Nacht. Wenn doch, hört man das Summen. Die Racks werden dichter. Latenzzeiten sinken. Kosten werden neu geordnet. Nvidia setzt darauf, dass dieses Summen bald einen neuen Namen trägt: Vera.

Nvidia sagt, Vera liefert ungefähr das 1,8-fache der Leistung führender x86-Chips. Diese Behauptung ist die Schlagzeile. Die Hardware dahinter ist der Gesprächsstoff. Vera ist die CPU-Seite der Vera Rubin-Plattform und koppelt eine ARM-basierte CPU mit einer Rubin-GPU für Workloads, die enorme Speicherdurchsatzraten und enge CPU-GPU-Abstimmung erfordern.

Warum Vera das Denken über KI-Server verändert

Vera basiert auf 88 Olympus-Kernen mit Spatial Multithreading und bietet 176 Threads pro Sockel. Speicher ist kein Nachgedanke: Eine einzelne CPU lässt sich mit bis zu 1,5 Terabyte LPDDR5X kombinieren und liefert rund 1,2 Terabyte pro Sekunde Bandbreite. Für KI-Inferenz und agentenbasierte Modelle, die große Kontext- und Gewichtsmengen verarbeiten, ist diese Bandbreite überlebenswichtig.

Denk an Skalierung. Nvidia zeigte ein Vera-CPU-Rack, das 256 CPUs in einem einzigen Gehäuse unterbringt. Das entspricht 22.528 Kernen und 45.056 Threads. Diese Dichte ist genau das, was Cloud-Anbieter suchen, wenn sie große Modelle aus teuren GPU-Nur-Inseln in flexiblere, CPU-zentrierte Architekturen überführen wollen.

Vera harmoniert auch mit Rubin-GPUs. Die NVL72-Konfiguration kombiniert 36 Vera-CPUs mit 72 Rubin-GPUs, und Nvidia nennt einen NVLink-C2C-Interconnect mit 1,8 Terabyte pro Sekunde zwischen ihnen. Ziel ist nicht, GPUs zu ersetzen, sondern die Beziehung zwischen Host und Accelerator so zu überarbeiten, dass Daten schneller fließen und Software auf weniger Engpässe trifft.

Anwendungsfälle sind vertraut, aber wachsend: agentenbasierte KI, Reinforcement Learning, umfangreiche Analysen und Inferenz in großem Maßstab. Vera kann als eigenständiger Compute-Knoten für diese Aufgaben fungieren oder als Host, der Rubin-GPUs versorgt und synchron hält.

Die Einführung läuft bereits. Anthropic, OpenAI und SpaceXAI haben sich für die Plattform für ihre Modell-Workloads verpflichtet, und Hyperscaler wie ByteDance, CoreWeave und Oracle Cloud Infrastructure sind mit an Bord. Auf Systemebene werden Dell, HP, Lenovo und Supermicro Vera-basierte Server anbieten. Große Hersteller wie Asus, Compal, Foxconn, Gigabyte, Pegatron, Quanta Cloud Technology, Wistron und Wiwynn werden Hardware rund um den Chip produzieren.

Sogar unkonventionelle Kunden nehmen Notiz. Die New York Stock Exchange, die rund 1,1 Billionen Nachrichten am Tag verarbeitet, prüft Vera gemeinsam mit den Partnern Redpanda und HP, um latenzempfindliche Infrastruktur neu zu denken. Dieses Interesse zeigt, dass die Plattform nicht nur für Modelltraining bewertet wird, sondern auch für Echtzeit-, hochdurchsatzfähige Systeme, in denen jede Mikrosekunde zählt.

Für Nvidia erweitert Vera ein vertrautes Spielbuch: Erkenntnisse aus GPU-zentrierten KI-Einsätzen aufnehmen und auf das CPU-Design übertragen. Das Unternehmen hat seine KI-Arbeit zuvor in Produkte wie RTX Spark integriert, die Grace-CPUs und Blackwell-GPUs mit LPDDR5X-Speicher in den Fokus rückten. Nun verlagert sich die Diskussion von Ein-Knoten-GPU-Leistung hin zu systemweiter Balance und Durchsatz.

Wird Vera x86 im Rechenzentrum verdrängen? Nicht über Nacht. Aber die Architektur zielt auf spezifische Schmerzpunkte von KI-Workloads ab: Speicherdurchsatz, Thread-Dichte und schnelle CPU-GPU-Interconnects. Für Ingenieure und Architekten, die mit Modellkosten und Durchsatz kämpfen, ist das ein pragmatischer Anfang.

Sarah Hoffmann

"Nachhaltige Technologie ist die Zukunft. Ich schreibe über Green-Tech und wie Digitalisierung dem Planeten helfen kann."