r/LocalLLaMA: Lohnt sich ein RTX-5090-Rig für ~10.000 $ jetzt oder später?

ToolsClaude Qwen NVIDIA Hardware OpenRouter

Warum es zählt

Die Diskussion spiegelt eine reale Kaufentscheidung für lokale Multi-Agent-Inferenz wider: RTX-5090-Rigs bleiben teuer, und die Community-Einschätzung zu GPU-Preisentwicklung ist direkt relevant für alle, die on-premise Inferenz-Server planen.

— Lumeric Redaktion

Ein erfahrener LocalLLaMA-Nutzer (u/knob-0u812) stellt seine konkrete Kaufentscheidung zur Diskussion: Er betreibt bereits einen M3 MacBook Pro Max (128 GB RAM, 40-Core GPU) mit rund einem Dutzend täglicher Produktions-Cronjobs – von BERT-Modellen bis zu 30B-LLMs mit RSLoRA-Adaptern – sowie drei Agent-Harnesses, darunter eine auf Basis von Hermes. Für Orchestrierung und schwere Coding-Tasks greift er ergänzend auf OpenRouter (GLM-5.1/MiniMax) und Anthropic zurück. Nun überlegt er, ein headless Inferenz-Rig aufzubauen: AMD Ryzen 9 9950X, 64 GB DDR5, RTX 5090 (32 GB), erweiterbar auf drei GPUs plus Plug-and-Play mit einer Pro 6000 – Gesamtkosten rund 10.000 $. Ziel ist es, Qwen3.6-35B-A3B-4bit und Qwen3-27B-4bit in Produktion zu betreiben und vier Sub-Agents parallel mit ausreichend KV-Cache zu versorgen. Die zentrale Frage an die Community: Werden GPU-Preise in den nächsten Monaten sinken, oder ist weiteres Warten riskant? Auch RAM-Preisentwicklung wird als Unsicherheitsfaktor genannt.

Was wir noch wissen

Aktuelles Setup: M3 MBP Max, 128 GB RAM, 40-Core GPU, 20 TB externer Speicher
Produktiv-Einsatz: BERT bis 30B-LLM, RSLoRA-Adapter, 3 Agent-Harnesses (inkl. Hermes)
Geplantes Rig: RTX 5090 32 GB, Ryzen 9 9950X, 64 GB DDR5, 2 TB NVMe Gen5 – ca. 10.000 $
Zielmodelle: Qwen3.6-35B-A3B-4bit und Qwen3-27B-4bit, 4 Sub-Agents concurrent mit KV-Cache
Erweiterbarkeit auf 3× GPU + Pro 6000 als Plug-and-Play geplant

Quelle lesenreddit.com

Inferenz Infra Open Source Agents

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

r/LocalLLaMA: Lohnt sich ein RTX-5090-Rig für ~10.000 $ jetzt oder später?

ToolsClaude Qwen NVIDIA Hardware OpenRouter

CompaniesAnthropic NVIDIA AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Aktuelles Setup: M3 MBP Max, 128 GB RAM, 40-Core GPU, 20 TB externer Speicher
Produktiv-Einsatz: BERT bis 30B-LLM, RSLoRA-Adapter, 3 Agent-Harnesses (inkl. Hermes)
Geplantes Rig: RTX 5090 32 GB, Ryzen 9 9950X, 64 GB DDR5, 2 TB NVMe Gen5 – ca. 10.000 $
Zielmodelle: Qwen3.6-35B-A3B-4bit und Qwen3-27B-4bit, 4 Sub-Agents concurrent mit KV-Cache
Erweiterbarkeit auf 3× GPU + Pro 6000 als Plug-and-Play geplant

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

r/LocalLLaMA: Lohnt sich ein RTX-5090-Rig für ~10.000 $ jetzt oder später?

Frag die KI zum Artikel

Verwandte Beiträge

r/LocalLLaMA: Lohnt sich ein RTX-5090-Rig für ~10.000 $ jetzt oder später?

Frag die KI zum Artikel

Verwandte Beiträge