Strix Halo: Llama.cpp MTP beschleunigt Qwen3.6-27B um 136 % beim Generieren
Ein Reddit-Nutzer hat auf einem AMD Ryzen AI MAX+ 395 (Strix Halo) mit integrierter Radeon 8060S und 30 GiB RAM systematische Benchmarks für llama.cpps Multi-Token-Prediction (MTP) veröffentlicht. Getestet wurden vier Qwen3.6-Modelle in Q8_0-Quantisierung von Unsloth – jeweils in der Standard- und der MTP-Variante – unter Ubuntu 24.04 mit llama.cpp Build 9187. Zwei Szenarien wurden verglichen: ein 15k-Token-Single-Turn-Prompt (uncached) und ein 5-Turn-Chat, der auf rund 28.500 Token anwächst. Beim 27B-Modell im Chat-Szenario steigt die durchschnittliche Generierungsrate von 7,61 auf 17,98 t/s (+136 %), die Gesamtlaufzeit sinkt von 258,65 s auf 200,55 s (–22,46 %). Das 35B-MoE-Modell zeigt zwar ebenfalls höhere Generierungsraten (+24,8 %), verliert aber durch langsameres Prompt-Processing (–14,89 %) am Ende minimal Zeit. Die Kernaussage: MTP lohnt sich auf dieser Hardware stark für decode-dominante Workloads (27B Dense), während prefill-dominante MoE-Architekturen (35B-A3B) kaum oder gar nicht profitieren. Die verwendeten MTP-Parameter waren --spec-draft-n-max 3 und --spec-draft-p-min 0.75.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Strix Halo: Llama.cpp MTP beschleunigt Qwen3.6-27B um 136 % beim Generieren
Ein Reddit-Nutzer hat auf einem AMD Ryzen AI MAX+ 395 (Strix Halo) mit integrierter Radeon 8060S und 30 GiB RAM systematische Benchmarks für llama.cpps Multi-Token-Prediction (MTP) veröffentlicht. Getestet wurden vier Qwen3.6-Modelle in Q8_0-Quantisierung von Unsloth – jeweils in der Standard- und der MTP-Variante – unter Ubuntu 24.04 mit llama.cpp Build 9187. Zwei Szenarien wurden verglichen: ein 15k-Token-Single-Turn-Prompt (uncached) und ein 5-Turn-Chat, der auf rund 28.500 Token anwächst. Beim 27B-Modell im Chat-Szenario steigt die durchschnittliche Generierungsrate von 7,61 auf 17,98 t/s (+136 %), die Gesamtlaufzeit sinkt von 258,65 s auf 200,55 s (–22,46 %). Das 35B-MoE-Modell zeigt zwar ebenfalls höhere Generierungsraten (+24,8 %), verliert aber durch langsameres Prompt-Processing (–14,89 %) am Ende minimal Zeit. Die Kernaussage: MTP lohnt sich auf dieser Hardware stark für decode-dominante Workloads (27B Dense), während prefill-dominante MoE-Architekturen (35B-A3B) kaum oder gar nicht profitieren. Die verwendeten MTP-Parameter waren --spec-draft-n-max 3 und --spec-draft-p-min 0.75.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.