MTP-Spekulation in llama.cpp zeigt 50% Speed-up auf Strix Halo

Warum es zählt

MTP ermöglicht schnellere Inferenz auf lokaler Hardware ohne Modelltraining oder Architekturänderung – besonders relevant für Entwickler, die auf Budget-GPUs (wie Strix Halo mit 128GB VRAM) laufen.

— Lumeric Redaktion

Ein Reddit-Nutzer hat die experimentelle Multi-Token Prediction (MTP) in llama.cpp PR #22673 auf einem AMD AI Max 395 mit 128GB DDR5-8000-RAM getestet. Das System basiert auf der radv-Container aus dem AMD Strix Halo Toolbox und wurde mit Qwen 3.6 35B in GGUF-Format (ca. 36GB) und den Parametern `--spec-type mtp --spec-draft-n-max 3` betrieben. Die Inferenzgeschwindigkeit stieg dabei deutlich von ~40–45 Token/s (Vulkan-Baseline) auf 60–80 Token/s an – abhängig von der Aufgabe, wobei mathematische Operationen die höchsten Geschwindigkeiten erreichten. Die Prefill-Performance (PP) blieb unverändert. MTP funktioniert durch spekulative Dekodierung mehrerer Token in einem Schritt, ohne dass das Basismodell modifiziert werden muss. Der Nutzer plant noch Tests auf Qwen 3.5 122B und weitere Parametertweaks.

Was wir noch wissen

MTP-Geschwindigkeit: 60–80 Token/s vs. 40–45 Token/s Baseline (Vulkan), das entspricht ~50% Speed-up
Getestet mit Qwen 3.6 35B GGUF (~36GB) auf AMD AI Max 395 mit 128GB DDR5-8000
Prefill-Performance unverändert, Variabilität je nach Aufgabentyp (Math-Operationen am schnellsten)
Basierend auf kyuz0/amd-strix-halo-toolboxes und GGML-org llama.cpp PR #22673
Parameter: --spec-type mtp --spec-draft-n-max 3; weitere Tests mit Qwen 3.5 122B geplant

Quelle lesenreddit.com

Open Source Inferenz Infra Long Context

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MTP-Spekulation in llama.cpp zeigt 50% Speed-up auf Strix Halo

ToolsQwen Llama Hugging Face

CompaniesHugging Face AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

MTP-Geschwindigkeit: 60–80 Token/s vs. 40–45 Token/s Baseline (Vulkan), das entspricht ~50% Speed-up
Getestet mit Qwen 3.6 35B GGUF (~36GB) auf AMD AI Max 395 mit 128GB DDR5-8000
Prefill-Performance unverändert, Variabilität je nach Aufgabentyp (Math-Operationen am schnellsten)
Basierend auf kyuz0/amd-strix-halo-toolboxes und GGML-org llama.cpp PR #22673
Parameter: --spec-type mtp --spec-draft-n-max 3; weitere Tests mit Qwen 3.5 122B geplant

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MTP-Spekulation in llama.cpp zeigt 50% Speed-up auf Strix Halo

Frag die KI zum Artikel

Verwandte Beiträge

MTP-Spekulation in llama.cpp zeigt 50% Speed-up auf Strix Halo

Frag die KI zum Artikel

Verwandte Beiträge