StepFun 3.7 Flash MTP: 26 tok/s auf AMD Strix Halo APU mit 128 GB RAM

CompaniesAMD

Warum es zählt

Ein ~200B-Parameter-MoE-Modell erreicht auf einem einzigen Consumer-APU-System (128 GB Unified Memory) dieselbe Decode-Geschwindigkeit wie Qwen 122B MTP – lokale Inferenz großer MoE-Modelle wird damit praktisch nutzbar, ohne dedizierte GPU-Server.

— Lumeric Redaktion

Der Benchmark stammt aus der r/LocalLLaMA-Community und wurde von Nutzer /u/westsunset auf einem AMD Ryzen AI Max+ 395 durchgeführt – einer APU mit integrierter Radeon 8060S-GPU (gfx1151) und 128 GB Unified LPDDR5X-Arbeitsspeicher. Als Software-Stack kommt ein gepatchter llama.cpp-Build (Revision b9360) mit Vulkan/RADV-Backend zum Einsatz, der die Step-3.7-spezifische MTP-Unterstützung (Multi-Token Prediction) erst ermöglicht. Das Hauptmodell liegt als UD-IQ4_XS-Quantisierung vor und belegt knapp 88,8 GiB auf dem Speicher; das separate MTP-Drafting-Modell (Step-3.7-Flash-MTP-Q8_0.gguf) kommt mit rund 3,5 GiB aus. Die MTP-Konfiguration nutzt zwei Draft-Tokens (DRAFT_N=2) bei einem Mindest-Akzeptanzschwellwert von 0,60 und einem Micro-Batch von 512. Bemerkenswert ist der Energieverbrauch: Mit MTP sinkt die Socket-Leistung während der Decode-Phase von ~85 W auf ~73 W – ein Rückgang von rund 14 %, obwohl der Durchsatz steigt. Bei zwei gleichzeitigen Anfragen liefert das System je Slot 19,7 bzw. 19,6 tok/s, was einem Gewinn von etwa 15 % gegenüber dem Non-MTP-Betrieb entspricht. Das System lief unter Ubuntu 25.04 mit Kernel 6.18.1 und Mesa 25.2.8; ROCm 7.1.1 diente als Baseline, einzelne Tabellenzeilen referenzieren auch ROCm-7.2.x-Laufzeitbibliotheken.

Was wir noch wissen

Hauptmodell belegt 88,79 GiB in 3 Shards; der GTT-Speicher des Systems ist auf 112 GiB gedeckelt.
MTP-Einstellungen: DRAFT_N=2, PMIN=0.60, UBATCH=512 bei einem Kontext von 12.288 Token.
Die 84,7 % Draft-Akzeptanz stammt aus tg_probe.json-Rohzählern (491 entworfene / 416 akzeptierte Tokens); das Feld 'mtp.acceptance_pct' in bench.json ist null.
Normalisierte Wanduhr-Zeit für 1.150 Input-/2.000 Output-Tokens: 82,4 s (MTP) vs. 103,4 s (kein MTP) – 20,8 % schneller.
Zum Vergleich: gpt-oss-120b erreicht auf derselben Hardware 46,7 tok/s Decode mit MXFP4-Quantisierung und 787 tok/s Prefill.

Quelle lesenreddit.com

Local Decode Throughput (tok/s, Vulkan/RADV, Strix Halo) · Spitzenwert

26%

StepFun 3.7 Flash MTP (~200B/A11B)

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

StepFun 3.7 Flash MTP: 26 tok/s auf AMD Strix Halo APU mit 128 GB RAM

ToolsGPT Qwen Llama

CompaniesAMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Hauptmodell belegt 88,79 GiB in 3 Shards; der GTT-Speicher des Systems ist auf 112 GiB gedeckelt.
MTP-Einstellungen: DRAFT_N=2, PMIN=0.60, UBATCH=512 bei einem Kontext von 12.288 Token.
Die 84,7 % Draft-Akzeptanz stammt aus tg_probe.json-Rohzählern (491 entworfene / 416 akzeptierte Tokens); das Feld 'mtp.acceptance_pct' in bench.json ist null.
Normalisierte Wanduhr-Zeit für 1.150 Input-/2.000 Output-Tokens: 82,4 s (MTP) vs. 103,4 s (kein MTP) – 20,8 % schneller.
Zum Vergleich: gpt-oss-120b erreicht auf derselben Hardware 46,7 tok/s Decode mit MXFP4-Quantisierung und 787 tok/s Prefill.

Local Decode Throughput (tok/s, Vulkan/RADV, Strix Halo) · Spitzenwert

26%

StepFun 3.7 Flash MTP (~200B/A11B)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

StepFun 3.7 Flash MTP: 26 tok/s auf AMD Strix Halo APU mit 128 GB RAM

Frag die KI zum Artikel

Verwandte Beiträge

StepFun 3.7 Flash MTP: 26 tok/s auf AMD Strix Halo APU mit 128 GB RAM

Frag die KI zum Artikel

Verwandte Beiträge