Alte RTX 2070 Super als VRAM-Boost: 8 GB extra verändern lokale LLM-Nutzung massiv
Der Reddit-Nutzer PferdOne berichtet auf r/LocalLLaMA von einem überraschenden Effizienzgewinn durch Multi-GPU-Betrieb mit llama.cpp. Sein Hauptsystem basiert auf einer RTX 5090, einem AMD Ryzen 9800X3D und 96 GB RAM; als Betriebssystem setzt er aktuell CachyOS ein. Nachdem er eine ältere RTX 2070 Super (8 GB VRAM) aus seinem alten PC ausgebaut und als zweite GPU eingebunden hatte, konnte er Qwen3-27B vollständig in Q8_0-Quantisierung bei einem Kontextfenster von 144k Tokens (ebenfalls Q8_0) und mit aktiviertem MTP ausführen – mit einer Generierungsrate von 40–70 Token/s. Zuvor war diese Konfiguration VRAM-seitig nicht möglich. Das Erlebnis bewog ihn dazu, Angebote für RTX 5070 Ti und RTX 3090 zu sondieren, wobei er die 3090 wegen ihrer 24 GB VRAM bevorzugt. Sein Fazit: Akzeptable Performance mit mehr VRAM übertrifft reine GPU-Leistung mit weniger VRAM – eine Erkenntnis, die für viele lokale LLM-Nutzer relevant ist, die ältere GPUs ungenutzt herumliegen haben.
- Hauptsystem: RTX 5090 + AMD 9800X3D + 96 GB RAM, Betriebssystem CachyOS
- Zweite GPU: RTX 2070 Super (8 GB VRAM) aus altem PC, unentgeltlich verfügbar
- Ergebnis: Qwen3-27B in Q8_0 + 144k-Kontext (Q8_0) + MTP bei 40–70 Token/s
- Nutzer evaluiert nun RTX 3090 (24 GB VRAM) als nächsten Upgrade-Schritt
- Täglicher Workflow: llama.cpp-Builds, Quantisierungs-Tests, Agent-CLI-Harnesses
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Alte RTX 2070 Super als VRAM-Boost: 8 GB extra verändern lokale LLM-Nutzung massiv
Der Reddit-Nutzer PferdOne berichtet auf r/LocalLLaMA von einem überraschenden Effizienzgewinn durch Multi-GPU-Betrieb mit llama.cpp. Sein Hauptsystem basiert auf einer RTX 5090, einem AMD Ryzen 9800X3D und 96 GB RAM; als Betriebssystem setzt er aktuell CachyOS ein. Nachdem er eine ältere RTX 2070 Super (8 GB VRAM) aus seinem alten PC ausgebaut und als zweite GPU eingebunden hatte, konnte er Qwen3-27B vollständig in Q8_0-Quantisierung bei einem Kontextfenster von 144k Tokens (ebenfalls Q8_0) und mit aktiviertem MTP ausführen – mit einer Generierungsrate von 40–70 Token/s. Zuvor war diese Konfiguration VRAM-seitig nicht möglich. Das Erlebnis bewog ihn dazu, Angebote für RTX 5070 Ti und RTX 3090 zu sondieren, wobei er die 3090 wegen ihrer 24 GB VRAM bevorzugt. Sein Fazit: Akzeptable Performance mit mehr VRAM übertrifft reine GPU-Leistung mit weniger VRAM – eine Erkenntnis, die für viele lokale LLM-Nutzer relevant ist, die ältere GPUs ungenutzt herumliegen haben.
- Hauptsystem: RTX 5090 + AMD 9800X3D + 96 GB RAM, Betriebssystem CachyOS
- Zweite GPU: RTX 2070 Super (8 GB VRAM) aus altem PC, unentgeltlich verfügbar
- Ergebnis: Qwen3-27B in Q8_0 + 144k-Kontext (Q8_0) + MTP bei 40–70 Token/s
- Nutzer evaluiert nun RTX 3090 (24 GB VRAM) als nächsten Upgrade-Schritt
- Täglicher Workflow: llama.cpp-Builds, Quantisierungs-Tests, Agent-CLI-Harnesses
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.