PCIe-Bandbreite bei Multi-GPU-Setups: Praktische Messungen zeigen weniger Probleme

Warum es zählt

Für Nutzer mit kleineren Multi-GPU-Setups: Praktische Messungen widerlegen teilweise das weit verbreitete Narrativ von unvermeidbaren PCIe-Bottlenecks, was die Wirtschaftlichkeit und Machbarkeit zusätzlicher GPUs auf Consumer-Mainboards neu bewertet.

— Lumeric Redaktion

Der Autor betreibt zwei RTX 5060 TI mit 16 GB VRAM auf einem Consumer-Mainboard mit suboptimaler PCIe-Konfiguration: GPU0 läuft auf PCIe 5.0 x16 (effektiv 8x), GPU1 auf PCIe 4.0 x4 über den Chipset. Mit vLLM und Tensor Parallelism (TP=2) führt er Prefill-Benchmarks mit 32k Context durch und misst die PCIe-Bandbreitennutzung. Das Ergebnis: Peak-Verbrauch von 3–4 GB/s, also nur 40–50% der theoretischen Kapazität des PCIe 4.0 x4 Links. Dies deutet darauf hin, dass die GPUs durch VRAM-Bandbreite oder Compute-Leistung begrenzt sind, nicht durch PCIe. Prefill-Raten mit verschiedenen Quantisierungen (6-Bit AWQ, NVFP4) liegen bei 840–1700 Tokens/s. Der Autor plant, eine dritte GPU über einen NVMe-to-PCIe-Adapter hinzuzufügen, sieht aber eine vierte GPU als problematisch, da der Chipset-Anteil bereits der limitierende Faktor ist. Die Beobachtung hinterfragt das in der Community häufig kolportierte Narrativ, wonach Multi-GPU-Setups auf Consumer-Hardware grundsätzlich stark durch PCIe bottlenecked seien.

Was wir noch wissen

Peak-Bandbreitennutzung bei Prefill: 3–4 GB/s auf PCIe 4.0 x4 (40–50% Auslastung)
Prefill-Raten mit vLLM TP=2: 840–1700 t/s je nach Quantisierung (6-Bit AWQ bis NVFP4-turbo)
GPU0 auf PCIe 5.0 x8, GPU1 auf PCIe 4.0 x4; trotzdem kein wesentlicher Bottleneck messbar
Dritte GPU geplant über NVMe-zu-PCIe-5.0-x4-Adapter an CPU-M2-Slot

Quelle lesenreddit.com

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

PCIe-Bandbreite bei Multi-GPU-Setups: Praktische Messungen zeigen weniger Probleme

ToolsQwen Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Peak-Bandbreitennutzung bei Prefill: 3–4 GB/s auf PCIe 4.0 x4 (40–50% Auslastung)
Prefill-Raten mit vLLM TP=2: 840–1700 t/s je nach Quantisierung (6-Bit AWQ bis NVFP4-turbo)
GPU0 auf PCIe 5.0 x8, GPU1 auf PCIe 4.0 x4; trotzdem kein wesentlicher Bottleneck messbar
Dritte GPU geplant über NVMe-zu-PCIe-5.0-x4-Adapter an CPU-M2-Slot

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

PCIe-Bandbreite bei Multi-GPU-Setups: Praktische Messungen zeigen weniger Probleme

Frag die KI zum Artikel

Verwandte Beiträge

PCIe-Bandbreite bei Multi-GPU-Setups: Praktische Messungen zeigen weniger Probleme

Frag die KI zum Artikel

Verwandte Beiträge