Qwen3.6-27B auf Dual-RTX-3060 für 400 $: 43 t/s mit MTP
Ein Reddit-Nutzer des r/LocalLLaMA-Forums hat ein Ultra-Budget-Setup aus zwei NVIDIA RTX 3060 (je 12 GB VRAM, zusammen 24 GB) für rund 400 $ zusammengestellt, um das Modell unsloth/Qwen3.6-27B-MTP-GGUF mit Q4_K_S-Quantisierung lokal zu betreiben. Als Testplattform dient ein über zehn Jahre alter Intel i7-4770K auf einem Gigabyte GA-Z87MX-D3H mit Kubuntu 24.04 und CUDA 13.2. Die Karten laufen per Tensor-Parallelismus (-sm tensor -ts 1,1) über zwei PCIe-3.0-x8-Slots. Mit aktiviertem MTP (spec-type draft-mtp, max 2 Draft-Tokens, Acceptance Rate ~77,6 %) erreicht das System bei 12k Kontext 456 t/s Prefill und 43,26 t/s Decode; der initiale Peak liegt bei über 620 t/s Prefill und 50 t/s Decode. Ohne MTP stabilisiert sich das Setup, unterstützt bis zu 96k Kontext und liefert ~29 t/s Decode bei 20k Kontext. Haupteinschränkung: SPLIT_MODE_TENSOR ist inkompatibel mit KV-Cache-Quantisierung, was den effektiv nutzbaren Kontext auf 64–96k begrenzt. Der Nutzer bewertet CUDA gegenüber ROCm (getestet auf einer 7900 XTX) als deutlich stabiler und konsistenter in der GPU-Auslastung.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3.6-27B auf Dual-RTX-3060 für 400 $: 43 t/s mit MTP
Ein Reddit-Nutzer des r/LocalLLaMA-Forums hat ein Ultra-Budget-Setup aus zwei NVIDIA RTX 3060 (je 12 GB VRAM, zusammen 24 GB) für rund 400 $ zusammengestellt, um das Modell unsloth/Qwen3.6-27B-MTP-GGUF mit Q4_K_S-Quantisierung lokal zu betreiben. Als Testplattform dient ein über zehn Jahre alter Intel i7-4770K auf einem Gigabyte GA-Z87MX-D3H mit Kubuntu 24.04 und CUDA 13.2. Die Karten laufen per Tensor-Parallelismus (-sm tensor -ts 1,1) über zwei PCIe-3.0-x8-Slots. Mit aktiviertem MTP (spec-type draft-mtp, max 2 Draft-Tokens, Acceptance Rate ~77,6 %) erreicht das System bei 12k Kontext 456 t/s Prefill und 43,26 t/s Decode; der initiale Peak liegt bei über 620 t/s Prefill und 50 t/s Decode. Ohne MTP stabilisiert sich das Setup, unterstützt bis zu 96k Kontext und liefert ~29 t/s Decode bei 20k Kontext. Haupteinschränkung: SPLIT_MODE_TENSOR ist inkompatibel mit KV-Cache-Quantisierung, was den effektiv nutzbaren Kontext auf 64–96k begrenzt. Der Nutzer bewertet CUDA gegenüber ROCm (getestet auf einer 7900 XTX) als deutlich stabiler und konsistenter in der GPU-Auslastung.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.