llama.cpp Docker-Images für MTP-Modelle mit Qwen3.6-Support

Warum es zählt

Wer MTP-Modelle wie Qwen3.6-27B lokal betreiben will, kann sofort einsatzfertige Docker-Images nutzen, ohne llama.cpp selbst zu kompilieren. Unsloth bietet zudem offizielle MTP-GGUF-Varianten für Qwen3.6-27B und Qwen3.6-35B-A3B an.

— Lumeric Redaktion

Reddit-Nutzer /u/havenoammo hat Docker-Images für llama.cpp gebaut, die den noch nicht im Haupt-Branch gemergten MTP-Pull-Request (Multi-Token Prediction) bereits enthalten. Verfügbar sind Varianten für CUDA 13, CUDA 12, Vulkan, Intel und ROCm. Getestet wurde bisher nur die CUDA-13-Variante. Zeitgleich hat Unsloth offizielle MTP-GGUF-Modelle für Qwen3.6-27B und Qwen3.6-35B-A3B auf Hugging Face veröffentlicht, was frühere Community-Grafts weitgehend ersetzt. Der Autor behält seine eigenen Q8-Versionen vorerst, da er vermutet, dass höhere MTP-Layer-Quantisierung zwar mehr Geschwindigkeit bringt, aber auch mehr VRAM verbraucht, und er Benchmarks noch abschließen möchte. Das mitgelieferte Docker-Beispielkommando zeigt u. a. einen Context von 262.144 Tokens, Flash-Attention, KV-Cache in q8_0 sowie die entscheidenden MTP-Parameter --spec-type mtp und --spec-draft-n-max 3.

Was wir noch wissen

5 Image-Tags verfügbar: cuda13-server, cuda12-server, vulkan-server, intel-server, rocm-server
Unsloth-MTP-Modelle: Qwen3.6-27B-MTP-GGUF und Qwen3.6-35B-A3B-MTP-GGUF auf Hugging Face
Schlüssel-Parameter für MTP: --spec-type mtp und --spec-draft-n-max 3
Beispiel-Setup nutzt --ctx-size 262144 und KV-Cache-Typ q8_0 für K und V
Autor quantisiert MTP-Layer auf Q8 für höhere Vorhersagegenauigkeit vs. Unsloth-Variante

Quelle lesenreddit.com

Open Source Inferenz Infra Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp Docker-Images für MTP-Modelle mit Qwen3.6-Support

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

5 Image-Tags verfügbar: cuda13-server, cuda12-server, vulkan-server, intel-server, rocm-server
Unsloth-MTP-Modelle: Qwen3.6-27B-MTP-GGUF und Qwen3.6-35B-A3B-MTP-GGUF auf Hugging Face
Schlüssel-Parameter für MTP: --spec-type mtp und --spec-draft-n-max 3
Beispiel-Setup nutzt --ctx-size 262144 und KV-Cache-Typ q8_0 für K und V
Autor quantisiert MTP-Layer auf Q8 für höhere Vorhersagegenauigkeit vs. Unsloth-Variante

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp Docker-Images für MTP-Modelle mit Qwen3.6-Support

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp Docker-Images für MTP-Modelle mit Qwen3.6-Support

Frag die KI zum Artikel

Verwandte Beiträge