Agents-A1-Q8_0-GGUF: 262K Kontext mit 40 t/s auf M1 Max
CompaniesHugging Face
Warum es zählt
Das Modell läuft lokal via llama-server mit 262K Kontext auf Consumer-Hardware (M1 Max 64 GB) und erreicht praxistaugliche Geschwindigkeiten. Für Coding-Workflows (z. B. opencode) könnte es eine lokale Alternative zu Cloud-Modellen auf Qwen-Niveau sein.
— Lumeric Redaktion
40 t/s tg
Token Generation auf M1 Max, 262K Kontext
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Agents-A1-Q8_0-GGUF: 262K Kontext mit 40 t/s auf M1 Max
CompaniesHugging Face
Warum es zählt
Das Modell läuft lokal via llama-server mit 262K Kontext auf Consumer-Hardware (M1 Max 64 GB) und erreicht praxistaugliche Geschwindigkeiten. Für Coding-Workflows (z. B. opencode) könnte es eine lokale Alternative zu Cloud-Modellen auf Qwen-Niveau sein.
— Lumeric Redaktion
40 t/s tg
Token Generation auf M1 Max, 262K Kontext
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.