~2000 Tokens/s mit vLLM, NVFP4 und 30 parallelen Streams auf Blackwell-GPU

CompaniesNVIDIA

Warum es zählt

MoE-Modelle wie Qwen 35B bleiben auch bei hoher Parallelität (c=30) effizient: Selbst dann werden nur ~61% der Experten pro Forward-Pass aktiviert, was sie gegenüber dense Modellen im Durchsatz klar im Vorteil hält. NVFP4-Quantisierung (22–23 GB) erlaubt den Betrieb auf Consumer-Klasse-Hardware.

— Lumeric Redaktion

Quelle lesenreddit.com

~2000 Tokens/s

Aggregierter Durchsatz, 30 parallele Streams

Inferenz Infra Open Source Multimodal

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

~2000 Tokens/s mit vLLM, NVFP4 und 30 parallelen Streams auf Blackwell-GPU

ToolsQwen NVIDIA Hardware

CompaniesNVIDIA

Warum es zählt

— Lumeric Redaktion

~2000 Tokens/s

Aggregierter Durchsatz, 30 parallele Streams

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

~2000 Tokens/s mit vLLM, NVFP4 und 30 parallelen Streams auf Blackwell-GPU

Frag die KI zum Artikel

Verwandte Beiträge

~2000 Tokens/s mit vLLM, NVFP4 und 30 parallelen Streams auf Blackwell-GPU

Frag die KI zum Artikel

Verwandte Beiträge