NVIDIA quantisiert Qwen3.6-35B-A3B auf NVFP4 mit nur 3× Speicherbedarf
NVIDIA hat das Qwen3.6-35B-A3B-Modell von Alibaba mithilfe des eigenen Model Optimizer Tools post-training auf den NVFP4-Datentyp quantisiert und auf Hugging Face veröffentlicht. Dabei werden ausschließlich Gewichte und Aktivierungen der linearen Operatoren innerhalb der Transformer-Blöcke des Mixture-of-Experts-Anteils (MoE) quantisiert — von 16 auf 4 Bit. Das Ergebnis ist eine Reduktion des Disk- und GPU-Speicherbedarfs um den Faktor 3,06×, bei gleichzeitig sehr geringem Qualitätsverlust. Auf MMLU Pro erreicht das NVFP4-Modell 85,0 gegenüber 85,6 im BF16-Original; auf GPQA Diamond 84,8 vs. 84,9; auf AIME 2025 sind beide Präzisionen mit 62,0 identisch. Das Modell ist direkt für den Einsatz mit vLLM vorbereitet und richtet sich an Entwickler, die leistungsfähige MoE-Modelle auf begrenzter GPU-Hardware produktiv betreiben möchten.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
NVIDIA quantisiert Qwen3.6-35B-A3B auf NVFP4 mit nur 3× Speicherbedarf
NVIDIA hat das Qwen3.6-35B-A3B-Modell von Alibaba mithilfe des eigenen Model Optimizer Tools post-training auf den NVFP4-Datentyp quantisiert und auf Hugging Face veröffentlicht. Dabei werden ausschließlich Gewichte und Aktivierungen der linearen Operatoren innerhalb der Transformer-Blöcke des Mixture-of-Experts-Anteils (MoE) quantisiert — von 16 auf 4 Bit. Das Ergebnis ist eine Reduktion des Disk- und GPU-Speicherbedarfs um den Faktor 3,06×, bei gleichzeitig sehr geringem Qualitätsverlust. Auf MMLU Pro erreicht das NVFP4-Modell 85,0 gegenüber 85,6 im BF16-Original; auf GPQA Diamond 84,8 vs. 84,9; auf AIME 2025 sind beide Präzisionen mit 62,0 identisch. Das Modell ist direkt für den Einsatz mit vLLM vorbereitet und richtet sich an Entwickler, die leistungsfähige MoE-Modelle auf begrenzter GPU-Hardware produktiv betreiben möchten.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.