Zwei modifizierte RTX 2080 Ti mit je 22 GB VRAM laufen Qwen3.6 27B mit 38 Token/s

ToolsQwen NVIDIA Hardware Llama Hugging Face

Warum es zählt

Der Wechsel von Standard-Split auf --split-mode tensor verdreifachte den Durchsatz von 14 auf 38 Token/s – ein leicht übersehener Parameter, der bei Multi-GPU-Setups mit älteren Karten erheblichen Unterschied macht. Das Setup zeigt, dass leistungsfähige lokale Inferenz mit modifizierten Consumer-GPUs für unter 1.000 USD realisierbar ist.

— Lumeric Redaktion

Reddit-Nutzer snapo84 betreibt Qwen3.6 27B in der IQ4_XS-Quantisierung auf zwei RTX 2080 Ti, die in China auf je 22 GB VRAM aufgerüstet wurden – ein bekanntes Modding, das die originalen 11 GB der Karte verdoppelt. Das Setup läuft über einen llama.cpp-Docker-Container (ghcr.io/ggml-org/llama.cpp:full-cuda12-b9128) mit vollständiger Konfiguration via Docker Compose. Der größte Einzelgewinn kam durch den Parameter --split-mode tensor, der den Durchsatz von 14 auf 38 Token/s steigerte. Als KV-Cache-Format wird f16 verwendet, da q8_0 bei langen Coding-Sessions zu Modell-Loops führte. Ein zusätzlich beschaffter NVLink-Bridge brachte laut Autor keinen messbaren Vorteil. Das Modell selbst ist eine uncensored-Variante von hauhaucs auf IQ4-Matrix-Quants. MTP (Multi-Token Prediction) entfällt, da das Setup compute-bound statt bandwidth-bound ist. Gesamtleistungsaufnahme liegt bei ca. 400 W an der Steckdose, beide GPUs sind auf 150 W limitiert. Ohne Power-Limit schätzt der Autor ca. 45 Token/s.

Was wir noch wissen

--split-mode tensor steigerte Durchsatz von 14 auf 38 Token/s – größter Einzelgewinn im Setup
KV-Cache auf f16 statt q8_0 verhindert Modell-Loops bei langen Coding-Sessions
NVLink-Bridge wurde gekauft, brachte laut Nutzer aber keinen messbaren Leistungsunterschied
Gesamtkosten unter 1.000 USD, Stromverbrauch ca. 400 W peak an der Steckdose
Verwendet hauhaucs Qwen3.6 uncensored-Variante mit Jinja-Chat-Template von froggeric/Qwen-Fixed-Chat-Templates

Quelle lesenreddit.com

38 Token/s

Qwen3.6 27B IQ4_XS, dual GPU f16 KV-Cache

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Zwei modifizierte RTX 2080 Ti mit je 22 GB VRAM laufen Qwen3.6 27B mit 38 Token/s

ToolsQwen NVIDIA Hardware Llama Hugging Face

CompaniesHugging Face NVIDIA

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

--split-mode tensor steigerte Durchsatz von 14 auf 38 Token/s – größter Einzelgewinn im Setup
KV-Cache auf f16 statt q8_0 verhindert Modell-Loops bei langen Coding-Sessions
NVLink-Bridge wurde gekauft, brachte laut Nutzer aber keinen messbaren Leistungsunterschied
Gesamtkosten unter 1.000 USD, Stromverbrauch ca. 400 W peak an der Steckdose
Verwendet hauhaucs Qwen3.6 uncensored-Variante mit Jinja-Chat-Template von froggeric/Qwen-Fixed-Chat-Templates

38 Token/s

Qwen3.6 27B IQ4_XS, dual GPU f16 KV-Cache

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Zwei modifizierte RTX 2080 Ti mit je 22 GB VRAM laufen Qwen3.6 27B mit 38 Token/s

Frag die KI zum Artikel

Verwandte Beiträge

Zwei modifizierte RTX 2080 Ti mit je 22 GB VRAM laufen Qwen3.6 27B mit 38 Token/s

Frag die KI zum Artikel

Verwandte Beiträge