wird geladen

Lokales LLM-Setup: Autocomplete + Agentisches Coding auf einer RTX 5080 · Lumeric

Beitrag

MEINUNG

reddit.com· r/LocalLLaMA2w

Lokales LLM-Setup: Autocomplete + Agentisches Coding auf einer RTX 5080

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

Das Setup zeigt, dass agentisches Coding mit einem 35B-MoE-Modell auf Consumer-Hardware realisierbar ist – sofern mindestens 64 GB RAM vorhanden sind. Die konkrete llama.cpp-Konfiguration mit --cpu-moe und Q8-Quantisierung ist direkt nachnutzbar.

— Lumeric Redaktion

Der Reddit-Nutzer grumd beschreibt ein praxiserprobtes lokales Coding-Setup auf einer einzigen RTX 5080 mit 16 GB VRAM und 96 GB RAM (Minimalanforderung laut Post: 64 GB). Für Autocomplete kommt bartowski/Qwen2.5-Coder-7B-Instruct-GGUF in Q6_K_L-Quantisierung zum Einsatz – rund 8 GB VRAM, subjektiv „instant"-Geschwindigkeit. Als agentisches Modell dient unsloth/Qwen3.6-35B-A3B-GGUF in UD-Q8_K_XL; die MoE-Experten werden via --cpu-moe in den RAM ausgelagert, während die 3B aktiven Parameter ins verbleibende VRAM passen. Der Autor betont, dass Q4-Quantisierung für das Agentenmodell unbrauchbar sei, weil das Modell sich „verlaufe" – Q8 hingegen liefere zuverlässige Ergebnisse. Gemessene Inferenz-Werte: pp4096 bei ~2094 Tokens/s, tg128 bei ~35,3 Tokens/s. llama.cpp verteilt den Kontext automatisch; mit den genannten Befehlen ergeben sich rund 145k Kontext. Für Nutzer mit weniger RAM empfiehlt grumd Q6_K, warnt aber vor spürbaren Qualitätseinbußen bei noch niedrigeren Quantisierungsstufen.

Quelle lesenreddit.com

35.29 t/s (tg128)

Token-Generierung, Qwen3.6-35B-A3B auf RTX 5080

Open Source Coding Assistenten Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MEINUNG

reddit.com· r/LocalLLaMA2w

Lokales LLM-Setup: Autocomplete + Agentisches Coding auf einer RTX 5080

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

Das Setup zeigt, dass agentisches Coding mit einem 35B-MoE-Modell auf Consumer-Hardware realisierbar ist – sofern mindestens 64 GB RAM vorhanden sind. Die konkrete llama.cpp-Konfiguration mit --cpu-moe und Q8-Quantisierung ist direkt nachnutzbar.

— Lumeric Redaktion

Der Reddit-Nutzer grumd beschreibt ein praxiserprobtes lokales Coding-Setup auf einer einzigen RTX 5080 mit 16 GB VRAM und 96 GB RAM (Minimalanforderung laut Post: 64 GB). Für Autocomplete kommt bartowski/Qwen2.5-Coder-7B-Instruct-GGUF in Q6_K_L-Quantisierung zum Einsatz – rund 8 GB VRAM, subjektiv „instant"-Geschwindigkeit. Als agentisches Modell dient unsloth/Qwen3.6-35B-A3B-GGUF in UD-Q8_K_XL; die MoE-Experten werden via --cpu-moe in den RAM ausgelagert, während die 3B aktiven Parameter ins verbleibende VRAM passen. Der Autor betont, dass Q4-Quantisierung für das Agentenmodell unbrauchbar sei, weil das Modell sich „verlaufe" – Q8 hingegen liefere zuverlässige Ergebnisse. Gemessene Inferenz-Werte: pp4096 bei ~2094 Tokens/s, tg128 bei ~35,3 Tokens/s. llama.cpp verteilt den Kontext automatisch; mit den genannten Befehlen ergeben sich rund 145k Kontext. Für Nutzer mit weniger RAM empfiehlt grumd Q6_K, warnt aber vor spürbaren Qualitätseinbußen bei noch niedrigeren Quantisierungsstufen.

35.29 t/s (tg128)

Token-Generierung, Qwen3.6-35B-A3B auf RTX 5080

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.