NVIDIA Nemotron-Labs-Diffusion: Tri-Mode-LLM mit 4× Speed-up auf GB200

Warum es zählt

Self-Speculation kombiniert Diffusion-Drafting mit AR-Verifikation und liefert 2,2× Speed-up gegenüber Qwen3-8B-Eagle3 in SGLang — mit einem einzigen Modell für alle Concurrency-Szenarien, was Deployment-Komplexität reduziert.

— Lumeric Redaktion

Nemotron-Labs-Diffusion ist eine von NVIDIA veröffentlichte Sprachmodellfamilie in den Größen 3B, 8B und 14B, die drei Dekodiermodi in einem einzigen Modell vereint: klassisches Autoregressive (AR) Decoding, Diffusion-basiertes paralleles Decoding sowie einen hybriden „Self-Speculation"-Modus. Letzterer nutzt Diffusion für das schnelle Drafting und AR für die Verifikation bei gemeinsam genutztem KV-Cache. Der Moduswechsel erfolgt allein durch Änderung des Attention-Patterns zur Inferenzzeit — ohne Modellwechsel. Auf einem GB200 erreicht das 8B-Modell bei Concurrency 1 bis zu 1015 Tokens/Sekunde mit Custom CUDA Kernels (4× gegenüber reinem AR mit 253 tok/sec). Auf dem DGX Spark erzielt dasselbe Modell 112 tok/sec (2,7× vs. 41,8 tok/sec AR, w4a16-Quantisierung). Im Vergleich zu Qwen3-8B-Eagle3 in SGLang werden eine 3× höhere Acceptance Length und 2,2× Speed-up gemessen; gegenüber Qwen3-8B ohne MTP werden 5,9× mehr Tokens pro Forward-Pass bei gleicher Genauigkeit erreicht. Die Modelle sind auf Hugging Face unter dem nvidia-Namespace in Base-, Instruct- und Vision-Language-Varianten verfügbar.

Was wir noch wissen

Self-Speculation: Diffusion-Drafting + AR-Verifikation mit geteiltem KV-Cache in einem einzigen Modell
DGX Spark (8B, w4a16): 112 tok/sec vs. 41,8 tok/sec AR — Faktor 2,7×
GB200 (8B): 850 tok/sec vs. 253 tok/sec AR; mit Custom CUDA Kernels 1015 tok/sec (4×)
5,9× Tokens pro Forward-Pass vs. Qwen3-8B (kein MTP) bei gleicher Genauigkeit
Modelle verfügbar als 3B, 8B, 14B in Base, Instruct und VLM-Varianten auf Hugging Face

Quelle lesenreddit.com

4×

Speed-up auf GB200 mit Custom CUDA Kernels

Foundation Modelle Inferenz Infra Chips Silizium

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

NVIDIA Nemotron-Labs-Diffusion: Tri-Mode-LLM mit 4× Speed-up auf GB200

ToolsQwen NVIDIA Hardware Hugging Face

CompaniesHugging Face NVIDIA

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Self-Speculation: Diffusion-Drafting + AR-Verifikation mit geteiltem KV-Cache in einem einzigen Modell
DGX Spark (8B, w4a16): 112 tok/sec vs. 41,8 tok/sec AR — Faktor 2,7×
GB200 (8B): 850 tok/sec vs. 253 tok/sec AR; mit Custom CUDA Kernels 1015 tok/sec (4×)
5,9× Tokens pro Forward-Pass vs. Qwen3-8B (kein MTP) bei gleicher Genauigkeit
Modelle verfügbar als 3B, 8B, 14B in Base, Instruct und VLM-Varianten auf Hugging Face

4×

Speed-up auf GB200 mit Custom CUDA Kernels

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

NVIDIA Nemotron-Labs-Diffusion: Tri-Mode-LLM mit 4× Speed-up auf GB200

Frag die KI zum Artikel

Verwandte Beiträge

NVIDIA Nemotron-Labs-Diffusion: Tri-Mode-LLM mit 4× Speed-up auf GB200

Frag die KI zum Artikel

Verwandte Beiträge