Qwen3-35B-A3B mit Claude-4.7-Reasoning als APEX-MTP-GGUF veröffentlicht
Der Nutzer mudler (bekannt für APEX-Quantisierungen auf Hugging Face) veröffentlicht eine neue GGUF-Variante des Modells lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled – destilliert auf Claude 4.7 Opus Reasoning. Das Besondere dieser MTP-Variante: Der Multi-Token-Prediction-Head (blk.40) ist direkt in die GGUF-Datei eingebettet, ermöglicht durch llama.cpp PR #22673. Damit lässt sich self-speculative Decoding mit nur einem einzigen Modell-File starten (`--draft-mtp`), ohne ein separates Draft-Modell vorhalten zu müssen. Die MTP-Dateien sind ca. 2,5 % größer als ihre non-MTP-Pendants. Der MTP-Head wird auf Q8_0 quantisiert (außer I-Nano), um hohe Draft-Akzeptanzraten beim Spec-Decoding zu gewährleisten. Die Architektur basiert auf Qwen3_5MoeForCausalLM mit 40 Trunk-Layern, 256 gerouteten Experten plus einem geteilten Experten, 8 aktiven Experten pro Token und einer Hidden-Size von 2048. Für größere Modelle (200B+) betreibt mudler Rented-Compute auf H100/H200/Blackwell zu Kosten von 20–100 USD pro Quant.
- Architektur: Qwen3_5MoeForCausalLM, 40 Trunk-Layer + 1 MTP-Layer, 256 geroutete + 1 geteilter Experte, 8 aktiv pro Token
- MTP-Head (blk.40) wird auf Q8_0 quantisiert; I-Nano-Tier behält Trunk-Präzision mit Q3_K/Q4_K
- Self-speculative Decoding per Flag --draft-mtp, benötigt llama.cpp >= Commit 255582687
- Patch für imatrix-Aktivierungserfassung während MTP-Forward-Passes in Arbeit (mudler/llama.cpp#mtp-imatrix)
- Hardware: mudler nutzt NVIDIA DGX Spark (122 GB unified memory) für ≤50B-MoEs; größere Runs auf H100/H200/Blackwell
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3-35B-A3B mit Claude-4.7-Reasoning als APEX-MTP-GGUF veröffentlicht
Der Nutzer mudler (bekannt für APEX-Quantisierungen auf Hugging Face) veröffentlicht eine neue GGUF-Variante des Modells lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled – destilliert auf Claude 4.7 Opus Reasoning. Das Besondere dieser MTP-Variante: Der Multi-Token-Prediction-Head (blk.40) ist direkt in die GGUF-Datei eingebettet, ermöglicht durch llama.cpp PR #22673. Damit lässt sich self-speculative Decoding mit nur einem einzigen Modell-File starten (`--draft-mtp`), ohne ein separates Draft-Modell vorhalten zu müssen. Die MTP-Dateien sind ca. 2,5 % größer als ihre non-MTP-Pendants. Der MTP-Head wird auf Q8_0 quantisiert (außer I-Nano), um hohe Draft-Akzeptanzraten beim Spec-Decoding zu gewährleisten. Die Architektur basiert auf Qwen3_5MoeForCausalLM mit 40 Trunk-Layern, 256 gerouteten Experten plus einem geteilten Experten, 8 aktiven Experten pro Token und einer Hidden-Size von 2048. Für größere Modelle (200B+) betreibt mudler Rented-Compute auf H100/H200/Blackwell zu Kosten von 20–100 USD pro Quant.
- Architektur: Qwen3_5MoeForCausalLM, 40 Trunk-Layer + 1 MTP-Layer, 256 geroutete + 1 geteilter Experte, 8 aktiv pro Token
- MTP-Head (blk.40) wird auf Q8_0 quantisiert; I-Nano-Tier behält Trunk-Präzision mit Q3_K/Q4_K
- Self-speculative Decoding per Flag --draft-mtp, benötigt llama.cpp >= Commit 255582687
- Patch für imatrix-Aktivierungserfassung während MTP-Forward-Passes in Arbeit (mudler/llama.cpp#mtp-imatrix)
- Hardware: mudler nutzt NVIDIA DGX Spark (122 GB unified memory) für ≤50B-MoEs; größere Runs auf H100/H200/Blackwell
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.