~2000 Tokens/s mit vLLM, NVFP4 und 30 parallelen Streams auf Blackwell-GPU
CompaniesNVIDIA
Warum es zählt
MoE-Modelle wie Qwen 35B bleiben auch bei hoher Parallelität (c=30) effizient: Selbst dann werden nur ~61% der Experten pro Forward-Pass aktiviert, was sie gegenüber dense Modellen im Durchsatz klar im Vorteil hält. NVFP4-Quantisierung (22–23 GB) erlaubt den Betrieb auf Consumer-Klasse-Hardware.
— Lumeric Redaktion
~2000 Tokens/s
Aggregierter Durchsatz, 30 parallele Streams
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
~2000 Tokens/s mit vLLM, NVFP4 und 30 parallelen Streams auf Blackwell-GPU
CompaniesNVIDIA
Warum es zählt
MoE-Modelle wie Qwen 35B bleiben auch bei hoher Parallelität (c=30) effizient: Selbst dann werden nur ~61% der Experten pro Forward-Pass aktiviert, was sie gegenüber dense Modellen im Durchsatz klar im Vorteil hält. NVFP4-Quantisierung (22–23 GB) erlaubt den Betrieb auf Consumer-Klasse-Hardware.
— Lumeric Redaktion
~2000 Tokens/s
Aggregierter Durchsatz, 30 parallele Streams
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.