StepFun 3.7 Flash: Speed-Benchmark auf Apple M5 Max mit 128 GB
Nutzer Beamsters hat am 29. Mai 2026 einen Day-0-Branch von llama.cpp genutzt, um StepFun 3.7 Flash auf einem Apple M5 Max mit 128 GB RAM zu testen. Das Modell wurde im Format Q4_K_S geladen; der Speicherbedarf lag bei über 120 GB, was das System spürbar auslastete. Trotzdem blieb das Modell nutzbar. Bei kurzem Kontext (unter 16k Tokens) wird das Modell als schnell und responsiv beschrieben. Die Prefill-Geschwindigkeit (PP) sinkt von rund 1.057 t/s bei 2k auf 368 t/s bei 65k Tokens. Der Token-Generierungs-Durchsatz (TG) fällt von 62,8 t/s ohne Kontext auf 33,9 t/s bei 65k KV-Cache. Zusätzlich wurde ein Pelican-Bench ausgeführt, dessen Screenshot im Post verlinkt ist. Der Test liefert damit einen der ersten öffentlichen Anhaltspunkte für die lokale Ausführung von StepFun 3.7 Flash auf Consumer-Hardware.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
StepFun 3.7 Flash: Speed-Benchmark auf Apple M5 Max mit 128 GB
Nutzer Beamsters hat am 29. Mai 2026 einen Day-0-Branch von llama.cpp genutzt, um StepFun 3.7 Flash auf einem Apple M5 Max mit 128 GB RAM zu testen. Das Modell wurde im Format Q4_K_S geladen; der Speicherbedarf lag bei über 120 GB, was das System spürbar auslastete. Trotzdem blieb das Modell nutzbar. Bei kurzem Kontext (unter 16k Tokens) wird das Modell als schnell und responsiv beschrieben. Die Prefill-Geschwindigkeit (PP) sinkt von rund 1.057 t/s bei 2k auf 368 t/s bei 65k Tokens. Der Token-Generierungs-Durchsatz (TG) fällt von 62,8 t/s ohne Kontext auf 33,9 t/s bei 65k KV-Cache. Zusätzlich wurde ein Pelican-Bench ausgeführt, dessen Screenshot im Post verlinkt ist. Der Test liefert damit einen der ersten öffentlichen Anhaltspunkte für die lokale Ausführung von StepFun 3.7 Flash auf Consumer-Hardware.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.