MTP-Spekulation in llama.cpp zeigt 50% Speed-up auf Strix Halo
Ein Reddit-Nutzer hat die experimentelle Multi-Token Prediction (MTP) in llama.cpp PR #22673 auf einem AMD AI Max 395 mit 128GB DDR5-8000-RAM getestet. Das System basiert auf der radv-Container aus dem AMD Strix Halo Toolbox und wurde mit Qwen 3.6 35B in GGUF-Format (ca. 36GB) und den Parametern `--spec-type mtp --spec-draft-n-max 3` betrieben. Die Inferenzgeschwindigkeit stieg dabei deutlich von ~40–45 Token/s (Vulkan-Baseline) auf 60–80 Token/s an – abhängig von der Aufgabe, wobei mathematische Operationen die höchsten Geschwindigkeiten erreichten. Die Prefill-Performance (PP) blieb unverändert. MTP funktioniert durch spekulative Dekodierung mehrerer Token in einem Schritt, ohne dass das Basismodell modifiziert werden muss. Der Nutzer plant noch Tests auf Qwen 3.5 122B und weitere Parametertweaks.
- MTP-Geschwindigkeit: 60–80 Token/s vs. 40–45 Token/s Baseline (Vulkan), das entspricht ~50% Speed-up
- Getestet mit Qwen 3.6 35B GGUF (~36GB) auf AMD AI Max 395 mit 128GB DDR5-8000
- Prefill-Performance unverändert, Variabilität je nach Aufgabentyp (Math-Operationen am schnellsten)
- Basierend auf kyuz0/amd-strix-halo-toolboxes und GGML-org llama.cpp PR #22673
- Parameter: --spec-type mtp --spec-draft-n-max 3; weitere Tests mit Qwen 3.5 122B geplant
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
MTP-Spekulation in llama.cpp zeigt 50% Speed-up auf Strix Halo
Ein Reddit-Nutzer hat die experimentelle Multi-Token Prediction (MTP) in llama.cpp PR #22673 auf einem AMD AI Max 395 mit 128GB DDR5-8000-RAM getestet. Das System basiert auf der radv-Container aus dem AMD Strix Halo Toolbox und wurde mit Qwen 3.6 35B in GGUF-Format (ca. 36GB) und den Parametern `--spec-type mtp --spec-draft-n-max 3` betrieben. Die Inferenzgeschwindigkeit stieg dabei deutlich von ~40–45 Token/s (Vulkan-Baseline) auf 60–80 Token/s an – abhängig von der Aufgabe, wobei mathematische Operationen die höchsten Geschwindigkeiten erreichten. Die Prefill-Performance (PP) blieb unverändert. MTP funktioniert durch spekulative Dekodierung mehrerer Token in einem Schritt, ohne dass das Basismodell modifiziert werden muss. Der Nutzer plant noch Tests auf Qwen 3.5 122B und weitere Parametertweaks.
- MTP-Geschwindigkeit: 60–80 Token/s vs. 40–45 Token/s Baseline (Vulkan), das entspricht ~50% Speed-up
- Getestet mit Qwen 3.6 35B GGUF (~36GB) auf AMD AI Max 395 mit 128GB DDR5-8000
- Prefill-Performance unverändert, Variabilität je nach Aufgabentyp (Math-Operationen am schnellsten)
- Basierend auf kyuz0/amd-strix-halo-toolboxes und GGML-org llama.cpp PR #22673
- Parameter: --spec-type mtp --spec-draft-n-max 3; weitere Tests mit Qwen 3.5 122B geplant
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.