wird geladen

NVIDIA quantisiert Qwen3.6-35B-A3B auf NVFP4 mit nur 3× Speicherbedarf · Lumeric

Beitrag

LAUNCH

reddit.com· r/LocalLLaMA1w

NVIDIA quantisiert Qwen3.6-35B-A3B auf NVFP4 mit nur 3× Speicherbedarf

ToolsQwen NVIDIA Hardware Hugging Face

CompaniesAlibaba (Qwen)Hugging Face NVIDIA

Warum es zählt

Die Quantisierung erlaubt es, ein 35B-Parameter-MoE-Modell mit deutlich geringerem GPU-Speicher via vLLM zu betreiben, während Benchmark-Ergebnisse (MMLU Pro: 85,0 vs. 85,6 BF16) nahezu identisch bleiben.

— Lumeric Redaktion

NVIDIA hat das Qwen3.6-35B-A3B-Modell von Alibaba mithilfe des eigenen Model Optimizer Tools post-training auf den NVFP4-Datentyp quantisiert und auf Hugging Face veröffentlicht. Dabei werden ausschließlich Gewichte und Aktivierungen der linearen Operatoren innerhalb der Transformer-Blöcke des Mixture-of-Experts-Anteils (MoE) quantisiert — von 16 auf 4 Bit. Das Ergebnis ist eine Reduktion des Disk- und GPU-Speicherbedarfs um den Faktor 3,06×, bei gleichzeitig sehr geringem Qualitätsverlust. Auf MMLU Pro erreicht das NVFP4-Modell 85,0 gegenüber 85,6 im BF16-Original; auf GPQA Diamond 84,8 vs. 84,9; auf AIME 2025 sind beide Präzisionen mit 62,0 identisch. Das Modell ist direkt für den Einsatz mit vLLM vorbereitet und richtet sich an Entwickler, die leistungsfähige MoE-Modelle auf begrenzter GPU-Hardware produktiv betreiben möchten.

Quelle lesenreddit.com

MMLU Pro · Spitzenwert

85.6%

Qwen3.6-35B-A3B BF16

Foundation Modelle Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

LAUNCH

reddit.com· r/LocalLLaMA1w

NVIDIA quantisiert Qwen3.6-35B-A3B auf NVFP4 mit nur 3× Speicherbedarf

ToolsQwen NVIDIA Hardware Hugging Face

CompaniesAlibaba (Qwen)Hugging Face NVIDIA

Warum es zählt

Die Quantisierung erlaubt es, ein 35B-Parameter-MoE-Modell mit deutlich geringerem GPU-Speicher via vLLM zu betreiben, während Benchmark-Ergebnisse (MMLU Pro: 85,0 vs. 85,6 BF16) nahezu identisch bleiben.

— Lumeric Redaktion

NVIDIA hat das Qwen3.6-35B-A3B-Modell von Alibaba mithilfe des eigenen Model Optimizer Tools post-training auf den NVFP4-Datentyp quantisiert und auf Hugging Face veröffentlicht. Dabei werden ausschließlich Gewichte und Aktivierungen der linearen Operatoren innerhalb der Transformer-Blöcke des Mixture-of-Experts-Anteils (MoE) quantisiert — von 16 auf 4 Bit. Das Ergebnis ist eine Reduktion des Disk- und GPU-Speicherbedarfs um den Faktor 3,06×, bei gleichzeitig sehr geringem Qualitätsverlust. Auf MMLU Pro erreicht das NVFP4-Modell 85,0 gegenüber 85,6 im BF16-Original; auf GPQA Diamond 84,8 vs. 84,9; auf AIME 2025 sind beide Präzisionen mit 62,0 identisch. Das Modell ist direkt für den Einsatz mit vLLM vorbereitet und richtet sich an Entwickler, die leistungsfähige MoE-Modelle auf begrenzter GPU-Hardware produktiv betreiben möchten.

MMLU Pro · Spitzenwert

85.6%

Qwen3.6-35B-A3B BF16

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge