Zwei modifizierte RTX 2080 Ti mit je 22 GB VRAM laufen Qwen3.6 27B mit 38 Token/s
Reddit-Nutzer snapo84 betreibt Qwen3.6 27B in der IQ4_XS-Quantisierung auf zwei RTX 2080 Ti, die in China auf je 22 GB VRAM aufgerüstet wurden – ein bekanntes Modding, das die originalen 11 GB der Karte verdoppelt. Das Setup läuft über einen llama.cpp-Docker-Container (ghcr.io/ggml-org/llama.cpp:full-cuda12-b9128) mit vollständiger Konfiguration via Docker Compose. Der größte Einzelgewinn kam durch den Parameter --split-mode tensor, der den Durchsatz von 14 auf 38 Token/s steigerte. Als KV-Cache-Format wird f16 verwendet, da q8_0 bei langen Coding-Sessions zu Modell-Loops führte. Ein zusätzlich beschaffter NVLink-Bridge brachte laut Autor keinen messbaren Vorteil. Das Modell selbst ist eine uncensored-Variante von hauhaucs auf IQ4-Matrix-Quants. MTP (Multi-Token Prediction) entfällt, da das Setup compute-bound statt bandwidth-bound ist. Gesamtleistungsaufnahme liegt bei ca. 400 W an der Steckdose, beide GPUs sind auf 150 W limitiert. Ohne Power-Limit schätzt der Autor ca. 45 Token/s.
- --split-mode tensor steigerte Durchsatz von 14 auf 38 Token/s – größter Einzelgewinn im Setup
- KV-Cache auf f16 statt q8_0 verhindert Modell-Loops bei langen Coding-Sessions
- NVLink-Bridge wurde gekauft, brachte laut Nutzer aber keinen messbaren Leistungsunterschied
- Gesamtkosten unter 1.000 USD, Stromverbrauch ca. 400 W peak an der Steckdose
- Verwendet hauhaucs Qwen3.6 uncensored-Variante mit Jinja-Chat-Template von froggeric/Qwen-Fixed-Chat-Templates
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Zwei modifizierte RTX 2080 Ti mit je 22 GB VRAM laufen Qwen3.6 27B mit 38 Token/s
Reddit-Nutzer snapo84 betreibt Qwen3.6 27B in der IQ4_XS-Quantisierung auf zwei RTX 2080 Ti, die in China auf je 22 GB VRAM aufgerüstet wurden – ein bekanntes Modding, das die originalen 11 GB der Karte verdoppelt. Das Setup läuft über einen llama.cpp-Docker-Container (ghcr.io/ggml-org/llama.cpp:full-cuda12-b9128) mit vollständiger Konfiguration via Docker Compose. Der größte Einzelgewinn kam durch den Parameter --split-mode tensor, der den Durchsatz von 14 auf 38 Token/s steigerte. Als KV-Cache-Format wird f16 verwendet, da q8_0 bei langen Coding-Sessions zu Modell-Loops führte. Ein zusätzlich beschaffter NVLink-Bridge brachte laut Autor keinen messbaren Vorteil. Das Modell selbst ist eine uncensored-Variante von hauhaucs auf IQ4-Matrix-Quants. MTP (Multi-Token Prediction) entfällt, da das Setup compute-bound statt bandwidth-bound ist. Gesamtleistungsaufnahme liegt bei ca. 400 W an der Steckdose, beide GPUs sind auf 150 W limitiert. Ohne Power-Limit schätzt der Autor ca. 45 Token/s.
- --split-mode tensor steigerte Durchsatz von 14 auf 38 Token/s – größter Einzelgewinn im Setup
- KV-Cache auf f16 statt q8_0 verhindert Modell-Loops bei langen Coding-Sessions
- NVLink-Bridge wurde gekauft, brachte laut Nutzer aber keinen messbaren Leistungsunterschied
- Gesamtkosten unter 1.000 USD, Stromverbrauch ca. 400 W peak an der Steckdose
- Verwendet hauhaucs Qwen3.6 uncensored-Variante mit Jinja-Chat-Template von froggeric/Qwen-Fixed-Chat-Templates
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.