Qwen3-35B-A3B mit Claude-4.7-Reasoning als APEX-MTP-GGUF veröffentlicht

ToolsClaude Qwen NVIDIA Hardware Llama Hugging Face

Warum es zählt

Mit llama.cpp ab Commit 255582687 lässt sich self-speculative Decoding via `--draft-mtp` ohne separates Draft-Modell aktivieren – das vereinfacht Deployments von MoE-Modellen mit Spec-Decode erheblich.

— Lumeric Redaktion

Der Nutzer mudler (bekannt für APEX-Quantisierungen auf Hugging Face) veröffentlicht eine neue GGUF-Variante des Modells lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled – destilliert auf Claude 4.7 Opus Reasoning. Das Besondere dieser MTP-Variante: Der Multi-Token-Prediction-Head (blk.40) ist direkt in die GGUF-Datei eingebettet, ermöglicht durch llama.cpp PR #22673. Damit lässt sich self-speculative Decoding mit nur einem einzigen Modell-File starten (`--draft-mtp`), ohne ein separates Draft-Modell vorhalten zu müssen. Die MTP-Dateien sind ca. 2,5 % größer als ihre non-MTP-Pendants. Der MTP-Head wird auf Q8_0 quantisiert (außer I-Nano), um hohe Draft-Akzeptanzraten beim Spec-Decoding zu gewährleisten. Die Architektur basiert auf Qwen3_5MoeForCausalLM mit 40 Trunk-Layern, 256 gerouteten Experten plus einem geteilten Experten, 8 aktiven Experten pro Token und einer Hidden-Size von 2048. Für größere Modelle (200B+) betreibt mudler Rented-Compute auf H100/H200/Blackwell zu Kosten von 20–100 USD pro Quant.

Was wir noch wissen

Architektur: Qwen3_5MoeForCausalLM, 40 Trunk-Layer + 1 MTP-Layer, 256 geroutete + 1 geteilter Experte, 8 aktiv pro Token
MTP-Head (blk.40) wird auf Q8_0 quantisiert; I-Nano-Tier behält Trunk-Präzision mit Q3_K/Q4_K
Self-speculative Decoding per Flag --draft-mtp, benötigt llama.cpp >= Commit 255582687
Patch für imatrix-Aktivierungserfassung während MTP-Forward-Passes in Arbeit (mudler/llama.cpp#mtp-imatrix)
Hardware: mudler nutzt NVIDIA DGX Spark (122 GB unified memory) für ≤50B-MoEs; größere Runs auf H100/H200/Blackwell

Quelle lesenreddit.com

Open Source Inferenz Infra Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3-35B-A3B mit Claude-4.7-Reasoning als APEX-MTP-GGUF veröffentlicht

ToolsClaude Qwen NVIDIA Hardware Llama Hugging Face

CompaniesHugging Face NVIDIA

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Architektur: Qwen3_5MoeForCausalLM, 40 Trunk-Layer + 1 MTP-Layer, 256 geroutete + 1 geteilter Experte, 8 aktiv pro Token
MTP-Head (blk.40) wird auf Q8_0 quantisiert; I-Nano-Tier behält Trunk-Präzision mit Q3_K/Q4_K
Self-speculative Decoding per Flag --draft-mtp, benötigt llama.cpp >= Commit 255582687
Patch für imatrix-Aktivierungserfassung während MTP-Forward-Passes in Arbeit (mudler/llama.cpp#mtp-imatrix)
Hardware: mudler nutzt NVIDIA DGX Spark (122 GB unified memory) für ≤50B-MoEs; größere Runs auf H100/H200/Blackwell

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3-35B-A3B mit Claude-4.7-Reasoning als APEX-MTP-GGUF veröffentlicht

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3-35B-A3B mit Claude-4.7-Reasoning als APEX-MTP-GGUF veröffentlicht

Frag die KI zum Artikel

Verwandte Beiträge