wird geladen

Agents-A1-Q8_0-GGUF: 262K Kontext mit 40 t/s auf M1 Max · Lumeric

Feed
Digest
Lounge
Stash
Profil

Beitrag

MEINUNG

reddit.com· r/LocalLLaMA2h

Agents-A1-Q8_0-GGUF: 262K Kontext mit 40 t/s auf M1 Max

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

Das Modell läuft lokal via llama-server mit 262K Kontext auf Consumer-Hardware (M1 Max 64 GB) und erreicht praxistaugliche Geschwindigkeiten. Für Coding-Workflows (z. B. opencode) könnte es eine lokale Alternative zu Cloud-Modellen auf Qwen-Niveau sein.

— Lumeric Redaktion

Quelle lesenreddit.com

40 t/s tg

Token Generation auf M1 Max, 262K Kontext

Open Source Inferenz Infra Coding Assistenten

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

MEINUNGreddit.com1w
MiniMax 2.7 lokal auf 96 GB VRAM mit 1200 PP/s betrieben
LAUNCHreddit.com1w
Community-Finetuning: LiquidAI LFM2.5-230M auf Coding-Traces als GGUF
BENCHMARKreddit.com3w
JetBrains Mellum 2: 12B-MoE-Modell erreicht 111 t/s auf Consumer-GPU

MEINUNG

reddit.com· r/LocalLLaMA2h

Agents-A1-Q8_0-GGUF: 262K Kontext mit 40 t/s auf M1 Max

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

Das Modell läuft lokal via llama-server mit 262K Kontext auf Consumer-Hardware (M1 Max 64 GB) und erreicht praxistaugliche Geschwindigkeiten. Für Coding-Workflows (z. B. opencode) könnte es eine lokale Alternative zu Cloud-Modellen auf Qwen-Niveau sein.

— Lumeric Redaktion

40 t/s tg

Token Generation auf M1 Max, 262K Kontext

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Quelle lesenreddit.com

Themen

Open Source Inferenz Infra Coding Assistenten

Reaktion

Speichern

Verwandte Beiträge

MEINUNGreddit.com1w
MiniMax 2.7 lokal auf 96 GB VRAM mit 1200 PP/s betrieben
LAUNCHreddit.com1w
Community-Finetuning: LiquidAI LFM2.5-230M auf Coding-Traces als GGUF
BENCHMARKreddit.com3w
JetBrains Mellum 2: 12B-MoE-Modell erreicht 111 t/s auf Consumer-GPU