StepFun 3.7 Flash MTP: 26 tok/s auf AMD Strix Halo APU mit 128 GB RAM
Der Benchmark stammt aus der r/LocalLLaMA-Community und wurde von Nutzer /u/westsunset auf einem AMD Ryzen AI Max+ 395 durchgeführt – einer APU mit integrierter Radeon 8060S-GPU (gfx1151) und 128 GB Unified LPDDR5X-Arbeitsspeicher. Als Software-Stack kommt ein gepatchter llama.cpp-Build (Revision b9360) mit Vulkan/RADV-Backend zum Einsatz, der die Step-3.7-spezifische MTP-Unterstützung (Multi-Token Prediction) erst ermöglicht. Das Hauptmodell liegt als UD-IQ4_XS-Quantisierung vor und belegt knapp 88,8 GiB auf dem Speicher; das separate MTP-Drafting-Modell (Step-3.7-Flash-MTP-Q8_0.gguf) kommt mit rund 3,5 GiB aus. Die MTP-Konfiguration nutzt zwei Draft-Tokens (DRAFT_N=2) bei einem Mindest-Akzeptanzschwellwert von 0,60 und einem Micro-Batch von 512. Bemerkenswert ist der Energieverbrauch: Mit MTP sinkt die Socket-Leistung während der Decode-Phase von ~85 W auf ~73 W – ein Rückgang von rund 14 %, obwohl der Durchsatz steigt. Bei zwei gleichzeitigen Anfragen liefert das System je Slot 19,7 bzw. 19,6 tok/s, was einem Gewinn von etwa 15 % gegenüber dem Non-MTP-Betrieb entspricht. Das System lief unter Ubuntu 25.04 mit Kernel 6.18.1 und Mesa 25.2.8; ROCm 7.1.1 diente als Baseline, einzelne Tabellenzeilen referenzieren auch ROCm-7.2.x-Laufzeitbibliotheken.
- Hauptmodell belegt 88,79 GiB in 3 Shards; der GTT-Speicher des Systems ist auf 112 GiB gedeckelt.
- MTP-Einstellungen: DRAFT_N=2, PMIN=0.60, UBATCH=512 bei einem Kontext von 12.288 Token.
- Die 84,7 % Draft-Akzeptanz stammt aus tg_probe.json-Rohzählern (491 entworfene / 416 akzeptierte Tokens); das Feld 'mtp.acceptance_pct' in bench.json ist null.
- Normalisierte Wanduhr-Zeit für 1.150 Input-/2.000 Output-Tokens: 82,4 s (MTP) vs. 103,4 s (kein MTP) – 20,8 % schneller.
- Zum Vergleich: gpt-oss-120b erreicht auf derselben Hardware 46,7 tok/s Decode mit MXFP4-Quantisierung und 787 tok/s Prefill.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
StepFun 3.7 Flash MTP: 26 tok/s auf AMD Strix Halo APU mit 128 GB RAM
Der Benchmark stammt aus der r/LocalLLaMA-Community und wurde von Nutzer /u/westsunset auf einem AMD Ryzen AI Max+ 395 durchgeführt – einer APU mit integrierter Radeon 8060S-GPU (gfx1151) und 128 GB Unified LPDDR5X-Arbeitsspeicher. Als Software-Stack kommt ein gepatchter llama.cpp-Build (Revision b9360) mit Vulkan/RADV-Backend zum Einsatz, der die Step-3.7-spezifische MTP-Unterstützung (Multi-Token Prediction) erst ermöglicht. Das Hauptmodell liegt als UD-IQ4_XS-Quantisierung vor und belegt knapp 88,8 GiB auf dem Speicher; das separate MTP-Drafting-Modell (Step-3.7-Flash-MTP-Q8_0.gguf) kommt mit rund 3,5 GiB aus. Die MTP-Konfiguration nutzt zwei Draft-Tokens (DRAFT_N=2) bei einem Mindest-Akzeptanzschwellwert von 0,60 und einem Micro-Batch von 512. Bemerkenswert ist der Energieverbrauch: Mit MTP sinkt die Socket-Leistung während der Decode-Phase von ~85 W auf ~73 W – ein Rückgang von rund 14 %, obwohl der Durchsatz steigt. Bei zwei gleichzeitigen Anfragen liefert das System je Slot 19,7 bzw. 19,6 tok/s, was einem Gewinn von etwa 15 % gegenüber dem Non-MTP-Betrieb entspricht. Das System lief unter Ubuntu 25.04 mit Kernel 6.18.1 und Mesa 25.2.8; ROCm 7.1.1 diente als Baseline, einzelne Tabellenzeilen referenzieren auch ROCm-7.2.x-Laufzeitbibliotheken.
- Hauptmodell belegt 88,79 GiB in 3 Shards; der GTT-Speicher des Systems ist auf 112 GiB gedeckelt.
- MTP-Einstellungen: DRAFT_N=2, PMIN=0.60, UBATCH=512 bei einem Kontext von 12.288 Token.
- Die 84,7 % Draft-Akzeptanz stammt aus tg_probe.json-Rohzählern (491 entworfene / 416 akzeptierte Tokens); das Feld 'mtp.acceptance_pct' in bench.json ist null.
- Normalisierte Wanduhr-Zeit für 1.150 Input-/2.000 Output-Tokens: 82,4 s (MTP) vs. 103,4 s (kein MTP) – 20,8 % schneller.
- Zum Vergleich: gpt-oss-120b erreicht auf derselben Hardware 46,7 tok/s Decode mit MXFP4-Quantisierung und 787 tok/s Prefill.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.