Qwen3.6-27B auf 2×RTX 3090: NVLink bringt bis zu 53 % mehr Durchsatz
Der Reddit-Nutzer testete das Modell cyankiwi/Qwen3.6-27B-AWQ-BF16-INT4 — ein 27-Milliarden-Parameter-Dense-Hybrid mit Linear-Attention, Full-Attention und Mamba-SSM-Komponenten — auf einem System mit 4× RTX 3090 (je 24 GB VRAM). Zwei der vier GPUs sind jeweils über NVLink (NV4) verbunden (GPU0↔GPU2 und GPU1↔GPU3), während die Cross-Pair-Kommunikation über PCIe Host Bridge läuft. Getestet wurde mit vLLM 0.20.1, CUDA 12.8 und aktiviertem MTP-Speculative-Decoding (qwen3_next_mtp, 2 spekulative Token). Bei Concurrency 1 erzielt das NVLink-Paar 66,0 tok/s gegenüber 52,6 tok/s über PCIe (+25 %). Bei Concurrency 4 steigt der Vorteil auf +53 % (181,9 vs. 119,2 tok/s), da All-Reduce-Traffic mit der Batchgröße skaliert. Die TTFT halbiert sich bei Concurrency 4 nahezu (551 ms vs. 994 ms). Überraschend: TP=4 mit allen vier GPUs erreicht nur 127,9 tok/s — langsamer als TP=2-NVLink, weil die vier PCIe-Kanten im TP=4-Graph den NVLink-Vorteil überkompensieren. Die Speculative-Decoding-Akzeptanzrate bleibt über alle Konfigurationen stabil bei rund 70–79 %.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Qwen3.6-27B auf 2×RTX 3090: NVLink bringt bis zu 53 % mehr Durchsatz
Der Reddit-Nutzer testete das Modell cyankiwi/Qwen3.6-27B-AWQ-BF16-INT4 — ein 27-Milliarden-Parameter-Dense-Hybrid mit Linear-Attention, Full-Attention und Mamba-SSM-Komponenten — auf einem System mit 4× RTX 3090 (je 24 GB VRAM). Zwei der vier GPUs sind jeweils über NVLink (NV4) verbunden (GPU0↔GPU2 und GPU1↔GPU3), während die Cross-Pair-Kommunikation über PCIe Host Bridge läuft. Getestet wurde mit vLLM 0.20.1, CUDA 12.8 und aktiviertem MTP-Speculative-Decoding (qwen3_next_mtp, 2 spekulative Token). Bei Concurrency 1 erzielt das NVLink-Paar 66,0 tok/s gegenüber 52,6 tok/s über PCIe (+25 %). Bei Concurrency 4 steigt der Vorteil auf +53 % (181,9 vs. 119,2 tok/s), da All-Reduce-Traffic mit der Batchgröße skaliert. Die TTFT halbiert sich bei Concurrency 4 nahezu (551 ms vs. 994 ms). Überraschend: TP=4 mit allen vier GPUs erreicht nur 127,9 tok/s — langsamer als TP=2-NVLink, weil die vier PCIe-Kanten im TP=4-Graph den NVLink-Vorteil überkompensieren. Die Speculative-Decoding-Akzeptanzrate bleibt über alle Konfigurationen stabil bei rund 70–79 %.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.