llama.cpp erhält Support für Step3.7-Flash via Pull Request

Warum es zählt

Step3.7-Flash kann damit lokal mit llama.cpp betrieben werden; GGUF-Quants sind sofort nutzbar. Offen bleibt, wann MTP-Support (Multi-Token Prediction) nachfolgt – ein separater PR für Step-3.5-Flash (#23274) ist noch in Bearbeitung.

— Lumeric Redaktion

Der GitHub-Nutzer forforever73 hat einen Pull Request (#23845) im offiziellen llama.cpp-Repository (ggml-org) eingereicht, der Modell-Support für Step3.7-Flash von stepfun-ai ergänzt. Das Modell stammt von StepFun AI und reiht sich in die Step-3.x-Flash-Familie ein. Bereits zum Zeitpunkt des PRs sind GGUF-Quantisierungen auf Hugging Face verfügbar und nach Trending sortiert abrufbar. In der Community-Diskussion auf r/LocalLLaMA wird als nächster Schritt die Frage nach MTP-Support (Multi-Token Prediction) aufgeworfen. Ein verwandter PR (#23274) für das Vorgängermodell Step-3.5-Flash befindet sich ebenfalls noch in Bearbeitung, was auf eine schrittweise Integration der Step-Flash-Modellfamilie in llama.cpp hindeutet.

Was wir noch wissen

PR #23845 im ggml-org/llama.cpp-Repository ergänzt Support für Step3.7-Flash
GGUF-Quantisierungen von Step3.7-Flash sind auf Hugging Face bereits nach Trending sortiert verfügbar
MTP-Support (Multi-Token Prediction) ist noch nicht enthalten und wird in der Community als nächster Schritt diskutiert
Ein separater PR #23274 für Step-3.5-Flash ist ebenfalls noch offen und in Bearbeitung

Quelle lesenreddit.com

Open Source Inferenz Infra Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp erhält Support für Step3.7-Flash via Pull Request

ToolsLlama Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

PR #23845 im ggml-org/llama.cpp-Repository ergänzt Support für Step3.7-Flash
GGUF-Quantisierungen von Step3.7-Flash sind auf Hugging Face bereits nach Trending sortiert verfügbar
MTP-Support (Multi-Token Prediction) ist noch nicht enthalten und wird in der Community als nächster Schritt diskutiert
Ein separater PR #23274 für Step-3.5-Flash ist ebenfalls noch offen und in Bearbeitung

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp erhält Support für Step3.7-Flash via Pull Request

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp erhält Support für Step3.7-Flash via Pull Request

Frag die KI zum Artikel

Verwandte Beiträge