Qwen3.6-27B auf 2×RTX 3090: NVLink bringt bis zu 53 % mehr Durchsatz

CompaniesNVIDIA

Warum es zählt

Wer Qwen3.6-27B lokal mit vLLM betreibt, sollte NVLink-Paare gezielt als TP=2-Gruppe pinnen — das liefert bei Concurrency 4 über 50 % mehr Ausgabe-Token/s als PCIe-TP=2, während TP=4 mit gemischter Topologie sogar langsamer ist.

— Lumeric Redaktion

Der Reddit-Nutzer testete das Modell cyankiwi/Qwen3.6-27B-AWQ-BF16-INT4 — ein 27-Milliarden-Parameter-Dense-Hybrid mit Linear-Attention, Full-Attention und Mamba-SSM-Komponenten — auf einem System mit 4× RTX 3090 (je 24 GB VRAM). Zwei der vier GPUs sind jeweils über NVLink (NV4) verbunden (GPU0↔GPU2 und GPU1↔GPU3), während die Cross-Pair-Kommunikation über PCIe Host Bridge läuft. Getestet wurde mit vLLM 0.20.1, CUDA 12.8 und aktiviertem MTP-Speculative-Decoding (qwen3_next_mtp, 2 spekulative Token). Bei Concurrency 1 erzielt das NVLink-Paar 66,0 tok/s gegenüber 52,6 tok/s über PCIe (+25 %). Bei Concurrency 4 steigt der Vorteil auf +53 % (181,9 vs. 119,2 tok/s), da All-Reduce-Traffic mit der Batchgröße skaliert. Die TTFT halbiert sich bei Concurrency 4 nahezu (551 ms vs. 994 ms). Überraschend: TP=4 mit allen vier GPUs erreicht nur 127,9 tok/s — langsamer als TP=2-NVLink, weil die vier PCIe-Kanten im TP=4-Graph den NVLink-Vorteil überkompensieren. Die Speculative-Decoding-Akzeptanzrate bleibt über alle Konfigurationen stabil bei rund 70–79 %.

Quelle lesenreddit.com

Output tok/s – Concurrency 4 (Qwen3.6-27B-AWQ, vLLM, 1024→256 Tokens) · Spitzenwert

181.9%

TP=2 NVLink (GPU 0+2)

Evals Benchmarks Inferenz Infra Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-27B auf 2×RTX 3090: NVLink bringt bis zu 53 % mehr Durchsatz

ToolsQwen NVIDIA Hardware

CompaniesNVIDIA

Warum es zählt

— Lumeric Redaktion

Output tok/s – Concurrency 4 (Qwen3.6-27B-AWQ, vLLM, 1024→256 Tokens) · Spitzenwert

181.9%

TP=2 NVLink (GPU 0+2)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-27B auf 2×RTX 3090: NVLink bringt bis zu 53 % mehr Durchsatz

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6-27B auf 2×RTX 3090: NVLink bringt bis zu 53 % mehr Durchsatz

Frag die KI zum Artikel

Verwandte Beiträge