StepFun 3.7 Flash: Speed-Benchmark auf Apple M5 Max mit 128 GB

Warum es zählt

Entwickler, die große MoE-Modelle lokal auf Apple-Silicon betreiben wollen, erhalten erste Anhaltspunkte: Bis 32k Kontext bleibt StepFun 3.7 Flash auf M5 Max brauchbar (~45 t/s TG), bei 65k wird es merklich langsamer.

— Lumeric Redaktion

Nutzer Beamsters hat am 29. Mai 2026 einen Day-0-Branch von llama.cpp genutzt, um StepFun 3.7 Flash auf einem Apple M5 Max mit 128 GB RAM zu testen. Das Modell wurde im Format Q4_K_S geladen; der Speicherbedarf lag bei über 120 GB, was das System spürbar auslastete. Trotzdem blieb das Modell nutzbar. Bei kurzem Kontext (unter 16k Tokens) wird das Modell als schnell und responsiv beschrieben. Die Prefill-Geschwindigkeit (PP) sinkt von rund 1.057 t/s bei 2k auf 368 t/s bei 65k Tokens. Der Token-Generierungs-Durchsatz (TG) fällt von 62,8 t/s ohne Kontext auf 33,9 t/s bei 65k KV-Cache. Zusätzlich wurde ein Pelican-Bench ausgeführt, dessen Screenshot im Post verlinkt ist. Der Test liefert damit einen der ersten öffentlichen Anhaltspunkte für die lokale Ausführung von StepFun 3.7 Flash auf Consumer-Hardware.

Quelle lesenreddit.com

llama.cpp TG-Durchsatz (t/s) – StepFun 3.7 Flash auf M5 Max · Spitzenwert

62.8%

0k KV (kein Kontext)

Inferenz Infra Open Source Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

StepFun 3.7 Flash: Speed-Benchmark auf Apple M5 Max mit 128 GB

ToolsLlama

Warum es zählt

— Lumeric Redaktion

llama.cpp TG-Durchsatz (t/s) – StepFun 3.7 Flash auf M5 Max · Spitzenwert

62.8%

0k KV (kein Kontext)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

StepFun 3.7 Flash: Speed-Benchmark auf Apple M5 Max mit 128 GB

Frag die KI zum Artikel

Verwandte Beiträge

StepFun 3.7 Flash: Speed-Benchmark auf Apple M5 Max mit 128 GB

Frag die KI zum Artikel

Verwandte Beiträge