r/LocalLLaMA: Lohnt sich ein RTX-5090-Rig für ~10.000 $ jetzt oder später?
Ein erfahrener LocalLLaMA-Nutzer (u/knob-0u812) stellt seine konkrete Kaufentscheidung zur Diskussion: Er betreibt bereits einen M3 MacBook Pro Max (128 GB RAM, 40-Core GPU) mit rund einem Dutzend täglicher Produktions-Cronjobs – von BERT-Modellen bis zu 30B-LLMs mit RSLoRA-Adaptern – sowie drei Agent-Harnesses, darunter eine auf Basis von Hermes. Für Orchestrierung und schwere Coding-Tasks greift er ergänzend auf OpenRouter (GLM-5.1/MiniMax) und Anthropic zurück. Nun überlegt er, ein headless Inferenz-Rig aufzubauen: AMD Ryzen 9 9950X, 64 GB DDR5, RTX 5090 (32 GB), erweiterbar auf drei GPUs plus Plug-and-Play mit einer Pro 6000 – Gesamtkosten rund 10.000 $. Ziel ist es, Qwen3.6-35B-A3B-4bit und Qwen3-27B-4bit in Produktion zu betreiben und vier Sub-Agents parallel mit ausreichend KV-Cache zu versorgen. Die zentrale Frage an die Community: Werden GPU-Preise in den nächsten Monaten sinken, oder ist weiteres Warten riskant? Auch RAM-Preisentwicklung wird als Unsicherheitsfaktor genannt.
- Aktuelles Setup: M3 MBP Max, 128 GB RAM, 40-Core GPU, 20 TB externer Speicher
- Produktiv-Einsatz: BERT bis 30B-LLM, RSLoRA-Adapter, 3 Agent-Harnesses (inkl. Hermes)
- Geplantes Rig: RTX 5090 32 GB, Ryzen 9 9950X, 64 GB DDR5, 2 TB NVMe Gen5 – ca. 10.000 $
- Zielmodelle: Qwen3.6-35B-A3B-4bit und Qwen3-27B-4bit, 4 Sub-Agents concurrent mit KV-Cache
- Erweiterbarkeit auf 3× GPU + Pro 6000 als Plug-and-Play geplant
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
r/LocalLLaMA: Lohnt sich ein RTX-5090-Rig für ~10.000 $ jetzt oder später?
Ein erfahrener LocalLLaMA-Nutzer (u/knob-0u812) stellt seine konkrete Kaufentscheidung zur Diskussion: Er betreibt bereits einen M3 MacBook Pro Max (128 GB RAM, 40-Core GPU) mit rund einem Dutzend täglicher Produktions-Cronjobs – von BERT-Modellen bis zu 30B-LLMs mit RSLoRA-Adaptern – sowie drei Agent-Harnesses, darunter eine auf Basis von Hermes. Für Orchestrierung und schwere Coding-Tasks greift er ergänzend auf OpenRouter (GLM-5.1/MiniMax) und Anthropic zurück. Nun überlegt er, ein headless Inferenz-Rig aufzubauen: AMD Ryzen 9 9950X, 64 GB DDR5, RTX 5090 (32 GB), erweiterbar auf drei GPUs plus Plug-and-Play mit einer Pro 6000 – Gesamtkosten rund 10.000 $. Ziel ist es, Qwen3.6-35B-A3B-4bit und Qwen3-27B-4bit in Produktion zu betreiben und vier Sub-Agents parallel mit ausreichend KV-Cache zu versorgen. Die zentrale Frage an die Community: Werden GPU-Preise in den nächsten Monaten sinken, oder ist weiteres Warten riskant? Auch RAM-Preisentwicklung wird als Unsicherheitsfaktor genannt.
- Aktuelles Setup: M3 MBP Max, 128 GB RAM, 40-Core GPU, 20 TB externer Speicher
- Produktiv-Einsatz: BERT bis 30B-LLM, RSLoRA-Adapter, 3 Agent-Harnesses (inkl. Hermes)
- Geplantes Rig: RTX 5090 32 GB, Ryzen 9 9950X, 64 GB DDR5, 2 TB NVMe Gen5 – ca. 10.000 $
- Zielmodelle: Qwen3.6-35B-A3B-4bit und Qwen3-27B-4bit, 4 Sub-Agents concurrent mit KV-Cache
- Erweiterbarkeit auf 3× GPU + Pro 6000 als Plug-and-Play geplant
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.