Strix Halo: Llama.cpp MTP beschleunigt Qwen3.6-27B um 136 % beim Generieren

CompaniesAMD

Warum es zählt

Wer auf Strix-Halo-Hardware decode-lastige Workloads fährt, kann mit 27B-MTP-Modellen die End-to-End-Latenz um bis zu 26 % senken; bei prefill-dominanten 35B-MoE-Workloads lohnt sich der Wechsel dagegen nicht.

— Lumeric Redaktion

Ein Reddit-Nutzer hat auf einem AMD Ryzen AI MAX+ 395 (Strix Halo) mit integrierter Radeon 8060S und 30 GiB RAM systematische Benchmarks für llama.cpps Multi-Token-Prediction (MTP) veröffentlicht. Getestet wurden vier Qwen3.6-Modelle in Q8_0-Quantisierung von Unsloth – jeweils in der Standard- und der MTP-Variante – unter Ubuntu 24.04 mit llama.cpp Build 9187. Zwei Szenarien wurden verglichen: ein 15k-Token-Single-Turn-Prompt (uncached) und ein 5-Turn-Chat, der auf rund 28.500 Token anwächst. Beim 27B-Modell im Chat-Szenario steigt die durchschnittliche Generierungsrate von 7,61 auf 17,98 t/s (+136 %), die Gesamtlaufzeit sinkt von 258,65 s auf 200,55 s (–22,46 %). Das 35B-MoE-Modell zeigt zwar ebenfalls höhere Generierungsraten (+24,8 %), verliert aber durch langsameres Prompt-Processing (–14,89 %) am Ende minimal Zeit. Die Kernaussage: MTP lohnt sich auf dieser Hardware stark für decode-dominante Workloads (27B Dense), während prefill-dominante MoE-Architekturen (35B-A3B) kaum oder gar nicht profitieren. Die verwendeten MTP-Parameter waren --spec-draft-n-max 3 und --spec-draft-p-min 0.75.

Quelle lesenreddit.com

Wall-Time Delta MTP vs. Base (5-Turn Chat, ~28,5k Kontext) · Spitzenwert

-22.46%

Qwen3.6-27B MTP

Inferenz Infra Open Source Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Strix Halo: Llama.cpp MTP beschleunigt Qwen3.6-27B um 136 % beim Generieren

ToolsQwen Llama

CompaniesAMD

Warum es zählt

— Lumeric Redaktion

Wall-Time Delta MTP vs. Base (5-Turn Chat, ~28,5k Kontext) · Spitzenwert

-22.46%

Qwen3.6-27B MTP

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Strix Halo: Llama.cpp MTP beschleunigt Qwen3.6-27B um 136 % beim Generieren

Frag die KI zum Artikel

Verwandte Beiträge

Strix Halo: Llama.cpp MTP beschleunigt Qwen3.6-27B um 136 % beim Generieren

Frag die KI zum Artikel

Verwandte Beiträge