llama.cpp CPU/GPU-Split: Wie VRAM-Overflow in Systemspeicher funktioniert
Der Nutzer /u/Mrinohk betreibt auf Ubuntu 26.04 das Modell Gemma4 26B (unsloth Q5_K_XL, ~21 GB) mit einer AMD RX6600XT (8 GB VRAM) und einem Ryzen 7 5700X mit 32 GB DDR4-3200. Da das Modell den VRAM deutlich übersteigt, spielt ein Teil des Modells in den Systemspeicher über. Er erzielt dabei rund 20 Tokens/s beim Decode und ~235 Tokens/s beim Prefill. Kernfrage ist, ob llama.cpp bei einem VRAM-Overflow die überschüssigen Modell-Layer auf der CPU ausführt (womit CPU-Rechenleistung und RAM-Bandbreite relevant wären) oder ob stattdessen ständig Modell-Teile zwischen RAM und VRAM über den PCIe-Bus transferiert werden (womit Bandbreite der Verbindung entscheidend wäre). Zusätzlich setzt er ngram-basiertes Speculative Decoding (`--spec-type ngram-mod`) ein und hat die KV-Cache-Wiederverwendung für seinen Agenten-Prompt optimiert. Er erwähnt, dass ein MTP-Fork (atomic bot) beim Prefill so schlecht abschnitt, dass er darauf verzichtete. Der Post liefert keinen abschließenden Befund, sondern ist eine Community-Diskussion mit praxisnahem Setup-Kontext.
- Modell: unsloth Gemma4 26B Q5_K_XL (~21 GB), läuft auf RX6600XT mit 8 GB VRAM + 32 GB DDR4-3200
- Decode-Throughput: ~20 Tokens/s, Prefill: ~235 Tokens/s unter llama-server
- Speculative Decoding via --spec-type ngram-mod mit n-match 24, draft-n-min 12, draft-n-max 48
- Atomic-Bot-Fork (Gemma MTP) wegen schlechtem Prefill zugunsten von Standard llama.cpp aufgegeben
- Betriebssystem: Ubuntu 26.04, headless-Betrieb – kein GPU-Speicher durch Desktop belegt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama.cpp CPU/GPU-Split: Wie VRAM-Overflow in Systemspeicher funktioniert
Der Nutzer /u/Mrinohk betreibt auf Ubuntu 26.04 das Modell Gemma4 26B (unsloth Q5_K_XL, ~21 GB) mit einer AMD RX6600XT (8 GB VRAM) und einem Ryzen 7 5700X mit 32 GB DDR4-3200. Da das Modell den VRAM deutlich übersteigt, spielt ein Teil des Modells in den Systemspeicher über. Er erzielt dabei rund 20 Tokens/s beim Decode und ~235 Tokens/s beim Prefill. Kernfrage ist, ob llama.cpp bei einem VRAM-Overflow die überschüssigen Modell-Layer auf der CPU ausführt (womit CPU-Rechenleistung und RAM-Bandbreite relevant wären) oder ob stattdessen ständig Modell-Teile zwischen RAM und VRAM über den PCIe-Bus transferiert werden (womit Bandbreite der Verbindung entscheidend wäre). Zusätzlich setzt er ngram-basiertes Speculative Decoding (`--spec-type ngram-mod`) ein und hat die KV-Cache-Wiederverwendung für seinen Agenten-Prompt optimiert. Er erwähnt, dass ein MTP-Fork (atomic bot) beim Prefill so schlecht abschnitt, dass er darauf verzichtete. Der Post liefert keinen abschließenden Befund, sondern ist eine Community-Diskussion mit praxisnahem Setup-Kontext.
- Modell: unsloth Gemma4 26B Q5_K_XL (~21 GB), läuft auf RX6600XT mit 8 GB VRAM + 32 GB DDR4-3200
- Decode-Throughput: ~20 Tokens/s, Prefill: ~235 Tokens/s unter llama-server
- Speculative Decoding via --spec-type ngram-mod mit n-match 24, draft-n-min 12, draft-n-max 48
- Atomic-Bot-Fork (Gemma MTP) wegen schlechtem Prefill zugunsten von Standard llama.cpp aufgegeben
- Betriebssystem: Ubuntu 26.04, headless-Betrieb – kein GPU-Speicher durch Desktop belegt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.