llama.cpp Docker-Images für MTP-Modelle mit Qwen3.6-Support
Reddit-Nutzer /u/havenoammo hat Docker-Images für llama.cpp gebaut, die den noch nicht im Haupt-Branch gemergten MTP-Pull-Request (Multi-Token Prediction) bereits enthalten. Verfügbar sind Varianten für CUDA 13, CUDA 12, Vulkan, Intel und ROCm. Getestet wurde bisher nur die CUDA-13-Variante. Zeitgleich hat Unsloth offizielle MTP-GGUF-Modelle für Qwen3.6-27B und Qwen3.6-35B-A3B auf Hugging Face veröffentlicht, was frühere Community-Grafts weitgehend ersetzt. Der Autor behält seine eigenen Q8-Versionen vorerst, da er vermutet, dass höhere MTP-Layer-Quantisierung zwar mehr Geschwindigkeit bringt, aber auch mehr VRAM verbraucht, und er Benchmarks noch abschließen möchte. Das mitgelieferte Docker-Beispielkommando zeigt u. a. einen Context von 262.144 Tokens, Flash-Attention, KV-Cache in q8_0 sowie die entscheidenden MTP-Parameter --spec-type mtp und --spec-draft-n-max 3.
- 5 Image-Tags verfügbar: cuda13-server, cuda12-server, vulkan-server, intel-server, rocm-server
- Unsloth-MTP-Modelle: Qwen3.6-27B-MTP-GGUF und Qwen3.6-35B-A3B-MTP-GGUF auf Hugging Face
- Schlüssel-Parameter für MTP: --spec-type mtp und --spec-draft-n-max 3
- Beispiel-Setup nutzt --ctx-size 262144 und KV-Cache-Typ q8_0 für K und V
- Autor quantisiert MTP-Layer auf Q8 für höhere Vorhersagegenauigkeit vs. Unsloth-Variante
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama.cpp Docker-Images für MTP-Modelle mit Qwen3.6-Support
Reddit-Nutzer /u/havenoammo hat Docker-Images für llama.cpp gebaut, die den noch nicht im Haupt-Branch gemergten MTP-Pull-Request (Multi-Token Prediction) bereits enthalten. Verfügbar sind Varianten für CUDA 13, CUDA 12, Vulkan, Intel und ROCm. Getestet wurde bisher nur die CUDA-13-Variante. Zeitgleich hat Unsloth offizielle MTP-GGUF-Modelle für Qwen3.6-27B und Qwen3.6-35B-A3B auf Hugging Face veröffentlicht, was frühere Community-Grafts weitgehend ersetzt. Der Autor behält seine eigenen Q8-Versionen vorerst, da er vermutet, dass höhere MTP-Layer-Quantisierung zwar mehr Geschwindigkeit bringt, aber auch mehr VRAM verbraucht, und er Benchmarks noch abschließen möchte. Das mitgelieferte Docker-Beispielkommando zeigt u. a. einen Context von 262.144 Tokens, Flash-Attention, KV-Cache in q8_0 sowie die entscheidenden MTP-Parameter --spec-type mtp und --spec-draft-n-max 3.
- 5 Image-Tags verfügbar: cuda13-server, cuda12-server, vulkan-server, intel-server, rocm-server
- Unsloth-MTP-Modelle: Qwen3.6-27B-MTP-GGUF und Qwen3.6-35B-A3B-MTP-GGUF auf Hugging Face
- Schlüssel-Parameter für MTP: --spec-type mtp und --spec-draft-n-max 3
- Beispiel-Setup nutzt --ctx-size 262144 und KV-Cache-Typ q8_0 für K und V
- Autor quantisiert MTP-Layer auf Q8 für höhere Vorhersagegenauigkeit vs. Unsloth-Variante
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.