Alte RTX 2070 Super als VRAM-Boost: 8 GB extra verändern lokale LLM-Nutzung massiv

CompaniesAMD

Warum es zählt

Wer llama.cpp lokal betreibt, kann durch eine günstige Zweit-GPU (z. B. 3090 mit 24 GB) den nutzbaren VRAM drastisch erhöhen und so deutlich größere Modelle oder Kontextlängen laufen lassen — ohne teure neue Hardware.

— Lumeric Redaktion

Der Reddit-Nutzer PferdOne berichtet auf r/LocalLLaMA von einem überraschenden Effizienzgewinn durch Multi-GPU-Betrieb mit llama.cpp. Sein Hauptsystem basiert auf einer RTX 5090, einem AMD Ryzen 9800X3D und 96 GB RAM; als Betriebssystem setzt er aktuell CachyOS ein. Nachdem er eine ältere RTX 2070 Super (8 GB VRAM) aus seinem alten PC ausgebaut und als zweite GPU eingebunden hatte, konnte er Qwen3-27B vollständig in Q8_0-Quantisierung bei einem Kontextfenster von 144k Tokens (ebenfalls Q8_0) und mit aktiviertem MTP ausführen – mit einer Generierungsrate von 40–70 Token/s. Zuvor war diese Konfiguration VRAM-seitig nicht möglich. Das Erlebnis bewog ihn dazu, Angebote für RTX 5070 Ti und RTX 3090 zu sondieren, wobei er die 3090 wegen ihrer 24 GB VRAM bevorzugt. Sein Fazit: Akzeptable Performance mit mehr VRAM übertrifft reine GPU-Leistung mit weniger VRAM – eine Erkenntnis, die für viele lokale LLM-Nutzer relevant ist, die ältere GPUs ungenutzt herumliegen haben.

Was wir noch wissen