Experiment: MTP-Modelle bei 16 GB VRAM schneller als Standard-Varianten?
Ein Nutzer aus r/LocalLLaMA testete, ob Multi-Token Prediction (MTP) auf Consumer-Hardware mit 16 GB VRAM tatsächlich einen Geschwindigkeitsvorteil bringt. Als Testplattform diente eine AMD RX 9070XT mit 32 GB DDR5-RAM. Alle Modelle wurden über llama-server mit identischem Prompt, 8192-Token-Kontextfenster und Q4_K_XL-Quantisierung ausgeführt. Das Ergebnis: Qwen 35B A3B MTP (unsloth-GGUF) erzielte 43,74 T/S, während die Standard-Variante desselben Modells bei 38,07 T/S lag — ein Vorteil von rund 15 %. Für MTP wurde der Parameter --spec-type draft-mtp --spec-draft-n-max 2 gesetzt. Das dichtere Qwen 27B MTP schnitt mit nur 12,38 T/S deutlich schlechter ab, was darauf hindeutet, dass MTP vor allem bei Sparse-MoE-Architekturen (A3B steht für aktive 3B Parameter) Sinn ergibt. Während des Tests traten Initialisierungswarnungen auf (common_fit_params), die die Ergebnisse möglicherweise beeinflusst haben. Die Studie ist informell und basiert auf einem einzigen Prompt, liefert aber erste Praxishinweise für lokale Inferenz mit MTP-Modellen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Experiment: MTP-Modelle bei 16 GB VRAM schneller als Standard-Varianten?
Ein Nutzer aus r/LocalLLaMA testete, ob Multi-Token Prediction (MTP) auf Consumer-Hardware mit 16 GB VRAM tatsächlich einen Geschwindigkeitsvorteil bringt. Als Testplattform diente eine AMD RX 9070XT mit 32 GB DDR5-RAM. Alle Modelle wurden über llama-server mit identischem Prompt, 8192-Token-Kontextfenster und Q4_K_XL-Quantisierung ausgeführt. Das Ergebnis: Qwen 35B A3B MTP (unsloth-GGUF) erzielte 43,74 T/S, während die Standard-Variante desselben Modells bei 38,07 T/S lag — ein Vorteil von rund 15 %. Für MTP wurde der Parameter --spec-type draft-mtp --spec-draft-n-max 2 gesetzt. Das dichtere Qwen 27B MTP schnitt mit nur 12,38 T/S deutlich schlechter ab, was darauf hindeutet, dass MTP vor allem bei Sparse-MoE-Architekturen (A3B steht für aktive 3B Parameter) Sinn ergibt. Während des Tests traten Initialisierungswarnungen auf (common_fit_params), die die Ergebnisse möglicherweise beeinflusst haben. Die Studie ist informell und basiert auf einem einzigen Prompt, liefert aber erste Praxishinweise für lokale Inferenz mit MTP-Modellen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.