llama.cpp CPU/GPU-Split: Wie VRAM-Overflow in Systemspeicher funktioniert

CompaniesAMD

Warum es zählt

Das Verständnis des CPU/GPU-Splits in llama.cpp ist entscheidend für die Optimierung von `-ngl` und Threading-Flags: Landet ein Layer auf der CPU, ist CPU-Rechenleistung und RAM-Bandbreite relevant – landet er im VRAM-Overflow mit kontinuierlichem Swapping, zählt primär die PCIe-Geschwindigkeit.

— Lumeric Redaktion

Der Nutzer /u/Mrinohk betreibt auf Ubuntu 26.04 das Modell Gemma4 26B (unsloth Q5_K_XL, ~21 GB) mit einer AMD RX6600XT (8 GB VRAM) und einem Ryzen 7 5700X mit 32 GB DDR4-3200. Da das Modell den VRAM deutlich übersteigt, spielt ein Teil des Modells in den Systemspeicher über. Er erzielt dabei rund 20 Tokens/s beim Decode und ~235 Tokens/s beim Prefill. Kernfrage ist, ob llama.cpp bei einem VRAM-Overflow die überschüssigen Modell-Layer auf der CPU ausführt (womit CPU-Rechenleistung und RAM-Bandbreite relevant wären) oder ob stattdessen ständig Modell-Teile zwischen RAM und VRAM über den PCIe-Bus transferiert werden (womit Bandbreite der Verbindung entscheidend wäre). Zusätzlich setzt er ngram-basiertes Speculative Decoding (`--spec-type ngram-mod`) ein und hat die KV-Cache-Wiederverwendung für seinen Agenten-Prompt optimiert. Er erwähnt, dass ein MTP-Fork (atomic bot) beim Prefill so schlecht abschnitt, dass er darauf verzichtete. Der Post liefert keinen abschließenden Befund, sondern ist eine Community-Diskussion mit praxisnahem Setup-Kontext.

Was wir noch wissen

Modell: unsloth Gemma4 26B Q5_K_XL (~21 GB), läuft auf RX6600XT mit 8 GB VRAM + 32 GB DDR4-3200
Decode-Throughput: ~20 Tokens/s, Prefill: ~235 Tokens/s unter llama-server
Speculative Decoding via --spec-type ngram-mod mit n-match 24, draft-n-min 12, draft-n-max 48
Atomic-Bot-Fork (Gemma MTP) wegen schlechtem Prefill zugunsten von Standard llama.cpp aufgegeben
Betriebssystem: Ubuntu 26.04, headless-Betrieb – kein GPU-Speicher durch Desktop belegt

Quelle lesenreddit.com

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp CPU/GPU-Split: Wie VRAM-Overflow in Systemspeicher funktioniert

ToolsLlama

CompaniesAMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Modell: unsloth Gemma4 26B Q5_K_XL (~21 GB), läuft auf RX6600XT mit 8 GB VRAM + 32 GB DDR4-3200
Decode-Throughput: ~20 Tokens/s, Prefill: ~235 Tokens/s unter llama-server
Speculative Decoding via --spec-type ngram-mod mit n-match 24, draft-n-min 12, draft-n-max 48
Atomic-Bot-Fork (Gemma MTP) wegen schlechtem Prefill zugunsten von Standard llama.cpp aufgegeben
Betriebssystem: Ubuntu 26.04, headless-Betrieb – kein GPU-Speicher durch Desktop belegt

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp CPU/GPU-Split: Wie VRAM-Overflow in Systemspeicher funktioniert

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp CPU/GPU-Split: Wie VRAM-Overflow in Systemspeicher funktioniert

Frag die KI zum Artikel

Verwandte Beiträge