Qwen3.6-27B auf Dual-RTX-3060 für 400 $: 43 t/s mit MTP

Warum es zählt

Das Setup zeigt, dass ein 27B-Modell mit stabiler CUDA-Performance auf Consumer-Hardware unter 400 $ lauffähig ist — relevant für Local-LLM-Nutzer, die AMD-ROCm-Instabilitäten umgehen wollen. Der Engpass liegt derzeit bei KV-Cache-Quantisierung, die unter SPLIT_MODE_TENSOR nicht verfügbar ist und den nutzbaren Kontextfenster auf 64–96k begrenzt.

— Lumeric Redaktion

Ein Reddit-Nutzer des r/LocalLLaMA-Forums hat ein Ultra-Budget-Setup aus zwei NVIDIA RTX 3060 (je 12 GB VRAM, zusammen 24 GB) für rund 400 $ zusammengestellt, um das Modell unsloth/Qwen3.6-27B-MTP-GGUF mit Q4_K_S-Quantisierung lokal zu betreiben. Als Testplattform dient ein über zehn Jahre alter Intel i7-4770K auf einem Gigabyte GA-Z87MX-D3H mit Kubuntu 24.04 und CUDA 13.2. Die Karten laufen per Tensor-Parallelismus (-sm tensor -ts 1,1) über zwei PCIe-3.0-x8-Slots. Mit aktiviertem MTP (spec-type draft-mtp, max 2 Draft-Tokens, Acceptance Rate ~77,6 %) erreicht das System bei 12k Kontext 456 t/s Prefill und 43,26 t/s Decode; der initiale Peak liegt bei über 620 t/s Prefill und 50 t/s Decode. Ohne MTP stabilisiert sich das Setup, unterstützt bis zu 96k Kontext und liefert ~29 t/s Decode bei 20k Kontext. Haupteinschränkung: SPLIT_MODE_TENSOR ist inkompatibel mit KV-Cache-Quantisierung, was den effektiv nutzbaren Kontext auf 64–96k begrenzt. Der Nutzer bewertet CUDA gegenüber ROCm (getestet auf einer 7900 XTX) als deutlich stabiler und konsistenter in der GPU-Auslastung.

Quelle lesenreddit.com

Qwen3.6-27B Decode-Throughput (t/s) · Spitzenwert

43.26%

Dual RTX 3060 – MTP @ 12k

Foundation Modelle Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-27B auf Dual-RTX-3060 für 400 $: 43 t/s mit MTP

ToolsQwen NVIDIA Hardware Llama

CompaniesNVIDIA AMD

Warum es zählt

— Lumeric Redaktion

Qwen3.6-27B Decode-Throughput (t/s) · Spitzenwert

43.26%

Dual RTX 3060 – MTP @ 12k

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-27B auf Dual-RTX-3060 für 400 $: 43 t/s mit MTP

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6-27B auf Dual-RTX-3060 für 400 $: 43 t/s mit MTP

Frag die KI zum Artikel

Verwandte Beiträge