NVIDIA veröffentlicht DiffusionGemma 26B A4B als NVFP4-Quantisierung auf Hugging Face
Warum es zählt
Die NVFP4-Quantisierung ermöglicht den Einsatz des 25,2B-Parameter-MoE-Modells mit nur 3,8B aktiven Parametern auf Consumer-naher Hardware. Entwickler erhalten damit ein kommerzielle nutzbare, schnelle Inferenz-Option für multimodale Pipelines mit 256K Kontextfenster und nativer Funktionsaufruf-Unterstützung.
— Lumeric Redaktion
>1.100 Token/Sek.
auf NVIDIA H100 (FP8) bei niedrigem Batch
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
NVIDIA veröffentlicht DiffusionGemma 26B A4B als NVFP4-Quantisierung auf Hugging Face
Warum es zählt
Die NVFP4-Quantisierung ermöglicht den Einsatz des 25,2B-Parameter-MoE-Modells mit nur 3,8B aktiven Parametern auf Consumer-naher Hardware. Entwickler erhalten damit ein kommerzielle nutzbare, schnelle Inferenz-Option für multimodale Pipelines mit 256K Kontextfenster und nativer Funktionsaufruf-Unterstützung.
— Lumeric Redaktion
>1.100 Token/Sek.
auf NVIDIA H100 (FP8) bei niedrigem Batch
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.