NVIDIA Nemotron-Labs-Diffusion: Tri-Mode-LLM mit 4× Speed-up auf GB200
Nemotron-Labs-Diffusion ist eine von NVIDIA veröffentlichte Sprachmodellfamilie in den Größen 3B, 8B und 14B, die drei Dekodiermodi in einem einzigen Modell vereint: klassisches Autoregressive (AR) Decoding, Diffusion-basiertes paralleles Decoding sowie einen hybriden „Self-Speculation"-Modus. Letzterer nutzt Diffusion für das schnelle Drafting und AR für die Verifikation bei gemeinsam genutztem KV-Cache. Der Moduswechsel erfolgt allein durch Änderung des Attention-Patterns zur Inferenzzeit — ohne Modellwechsel. Auf einem GB200 erreicht das 8B-Modell bei Concurrency 1 bis zu 1015 Tokens/Sekunde mit Custom CUDA Kernels (4× gegenüber reinem AR mit 253 tok/sec). Auf dem DGX Spark erzielt dasselbe Modell 112 tok/sec (2,7× vs. 41,8 tok/sec AR, w4a16-Quantisierung). Im Vergleich zu Qwen3-8B-Eagle3 in SGLang werden eine 3× höhere Acceptance Length und 2,2× Speed-up gemessen; gegenüber Qwen3-8B ohne MTP werden 5,9× mehr Tokens pro Forward-Pass bei gleicher Genauigkeit erreicht. Die Modelle sind auf Hugging Face unter dem nvidia-Namespace in Base-, Instruct- und Vision-Language-Varianten verfügbar.
- Self-Speculation: Diffusion-Drafting + AR-Verifikation mit geteiltem KV-Cache in einem einzigen Modell
- DGX Spark (8B, w4a16): 112 tok/sec vs. 41,8 tok/sec AR — Faktor 2,7×
- GB200 (8B): 850 tok/sec vs. 253 tok/sec AR; mit Custom CUDA Kernels 1015 tok/sec (4×)
- 5,9× Tokens pro Forward-Pass vs. Qwen3-8B (kein MTP) bei gleicher Genauigkeit
- Modelle verfügbar als 3B, 8B, 14B in Base, Instruct und VLM-Varianten auf Hugging Face
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
NVIDIA Nemotron-Labs-Diffusion: Tri-Mode-LLM mit 4× Speed-up auf GB200
Nemotron-Labs-Diffusion ist eine von NVIDIA veröffentlichte Sprachmodellfamilie in den Größen 3B, 8B und 14B, die drei Dekodiermodi in einem einzigen Modell vereint: klassisches Autoregressive (AR) Decoding, Diffusion-basiertes paralleles Decoding sowie einen hybriden „Self-Speculation"-Modus. Letzterer nutzt Diffusion für das schnelle Drafting und AR für die Verifikation bei gemeinsam genutztem KV-Cache. Der Moduswechsel erfolgt allein durch Änderung des Attention-Patterns zur Inferenzzeit — ohne Modellwechsel. Auf einem GB200 erreicht das 8B-Modell bei Concurrency 1 bis zu 1015 Tokens/Sekunde mit Custom CUDA Kernels (4× gegenüber reinem AR mit 253 tok/sec). Auf dem DGX Spark erzielt dasselbe Modell 112 tok/sec (2,7× vs. 41,8 tok/sec AR, w4a16-Quantisierung). Im Vergleich zu Qwen3-8B-Eagle3 in SGLang werden eine 3× höhere Acceptance Length und 2,2× Speed-up gemessen; gegenüber Qwen3-8B ohne MTP werden 5,9× mehr Tokens pro Forward-Pass bei gleicher Genauigkeit erreicht. Die Modelle sind auf Hugging Face unter dem nvidia-Namespace in Base-, Instruct- und Vision-Language-Varianten verfügbar.
- Self-Speculation: Diffusion-Drafting + AR-Verifikation mit geteiltem KV-Cache in einem einzigen Modell
- DGX Spark (8B, w4a16): 112 tok/sec vs. 41,8 tok/sec AR — Faktor 2,7×
- GB200 (8B): 850 tok/sec vs. 253 tok/sec AR; mit Custom CUDA Kernels 1015 tok/sec (4×)
- 5,9× Tokens pro Forward-Pass vs. Qwen3-8B (kein MTP) bei gleicher Genauigkeit
- Modelle verfügbar als 3B, 8B, 14B in Base, Instruct und VLM-Varianten auf Hugging Face
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.