Lokales LLM-Setup: Autocomplete + Agentisches Coding auf einer RTX 5080
Der Reddit-Nutzer grumd beschreibt ein praxiserprobtes lokales Coding-Setup auf einer einzigen RTX 5080 mit 16 GB VRAM und 96 GB RAM (Minimalanforderung laut Post: 64 GB). Für Autocomplete kommt bartowski/Qwen2.5-Coder-7B-Instruct-GGUF in Q6_K_L-Quantisierung zum Einsatz – rund 8 GB VRAM, subjektiv „instant"-Geschwindigkeit. Als agentisches Modell dient unsloth/Qwen3.6-35B-A3B-GGUF in UD-Q8_K_XL; die MoE-Experten werden via --cpu-moe in den RAM ausgelagert, während die 3B aktiven Parameter ins verbleibende VRAM passen. Der Autor betont, dass Q4-Quantisierung für das Agentenmodell unbrauchbar sei, weil das Modell sich „verlaufe" – Q8 hingegen liefere zuverlässige Ergebnisse. Gemessene Inferenz-Werte: pp4096 bei ~2094 Tokens/s, tg128 bei ~35,3 Tokens/s. llama.cpp verteilt den Kontext automatisch; mit den genannten Befehlen ergeben sich rund 145k Kontext. Für Nutzer mit weniger RAM empfiehlt grumd Q6_K, warnt aber vor spürbaren Qualitätseinbußen bei noch niedrigeren Quantisierungsstufen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Lokales LLM-Setup: Autocomplete + Agentisches Coding auf einer RTX 5080
Der Reddit-Nutzer grumd beschreibt ein praxiserprobtes lokales Coding-Setup auf einer einzigen RTX 5080 mit 16 GB VRAM und 96 GB RAM (Minimalanforderung laut Post: 64 GB). Für Autocomplete kommt bartowski/Qwen2.5-Coder-7B-Instruct-GGUF in Q6_K_L-Quantisierung zum Einsatz – rund 8 GB VRAM, subjektiv „instant"-Geschwindigkeit. Als agentisches Modell dient unsloth/Qwen3.6-35B-A3B-GGUF in UD-Q8_K_XL; die MoE-Experten werden via --cpu-moe in den RAM ausgelagert, während die 3B aktiven Parameter ins verbleibende VRAM passen. Der Autor betont, dass Q4-Quantisierung für das Agentenmodell unbrauchbar sei, weil das Modell sich „verlaufe" – Q8 hingegen liefere zuverlässige Ergebnisse. Gemessene Inferenz-Werte: pp4096 bei ~2094 Tokens/s, tg128 bei ~35,3 Tokens/s. llama.cpp verteilt den Kontext automatisch; mit den genannten Befehlen ergeben sich rund 145k Kontext. Für Nutzer mit weniger RAM empfiehlt grumd Q6_K, warnt aber vor spürbaren Qualitätseinbußen bei noch niedrigeren Quantisierungsstufen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.