PCIe-Bandbreite bei Multi-GPU-Setups: Praktische Messungen zeigen weniger Probleme
Der Autor betreibt zwei RTX 5060 TI mit 16 GB VRAM auf einem Consumer-Mainboard mit suboptimaler PCIe-Konfiguration: GPU0 läuft auf PCIe 5.0 x16 (effektiv 8x), GPU1 auf PCIe 4.0 x4 über den Chipset. Mit vLLM und Tensor Parallelism (TP=2) führt er Prefill-Benchmarks mit 32k Context durch und misst die PCIe-Bandbreitennutzung. Das Ergebnis: Peak-Verbrauch von 3–4 GB/s, also nur 40–50% der theoretischen Kapazität des PCIe 4.0 x4 Links. Dies deutet darauf hin, dass die GPUs durch VRAM-Bandbreite oder Compute-Leistung begrenzt sind, nicht durch PCIe. Prefill-Raten mit verschiedenen Quantisierungen (6-Bit AWQ, NVFP4) liegen bei 840–1700 Tokens/s. Der Autor plant, eine dritte GPU über einen NVMe-to-PCIe-Adapter hinzuzufügen, sieht aber eine vierte GPU als problematisch, da der Chipset-Anteil bereits der limitierende Faktor ist. Die Beobachtung hinterfragt das in der Community häufig kolportierte Narrativ, wonach Multi-GPU-Setups auf Consumer-Hardware grundsätzlich stark durch PCIe bottlenecked seien.
- Peak-Bandbreitennutzung bei Prefill: 3–4 GB/s auf PCIe 4.0 x4 (40–50% Auslastung)
- Prefill-Raten mit vLLM TP=2: 840–1700 t/s je nach Quantisierung (6-Bit AWQ bis NVFP4-turbo)
- GPU0 auf PCIe 5.0 x8, GPU1 auf PCIe 4.0 x4; trotzdem kein wesentlicher Bottleneck messbar
- Dritte GPU geplant über NVMe-zu-PCIe-5.0-x4-Adapter an CPU-M2-Slot
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
PCIe-Bandbreite bei Multi-GPU-Setups: Praktische Messungen zeigen weniger Probleme
Der Autor betreibt zwei RTX 5060 TI mit 16 GB VRAM auf einem Consumer-Mainboard mit suboptimaler PCIe-Konfiguration: GPU0 läuft auf PCIe 5.0 x16 (effektiv 8x), GPU1 auf PCIe 4.0 x4 über den Chipset. Mit vLLM und Tensor Parallelism (TP=2) führt er Prefill-Benchmarks mit 32k Context durch und misst die PCIe-Bandbreitennutzung. Das Ergebnis: Peak-Verbrauch von 3–4 GB/s, also nur 40–50% der theoretischen Kapazität des PCIe 4.0 x4 Links. Dies deutet darauf hin, dass die GPUs durch VRAM-Bandbreite oder Compute-Leistung begrenzt sind, nicht durch PCIe. Prefill-Raten mit verschiedenen Quantisierungen (6-Bit AWQ, NVFP4) liegen bei 840–1700 Tokens/s. Der Autor plant, eine dritte GPU über einen NVMe-to-PCIe-Adapter hinzuzufügen, sieht aber eine vierte GPU als problematisch, da der Chipset-Anteil bereits der limitierende Faktor ist. Die Beobachtung hinterfragt das in der Community häufig kolportierte Narrativ, wonach Multi-GPU-Setups auf Consumer-Hardware grundsätzlich stark durch PCIe bottlenecked seien.
- Peak-Bandbreitennutzung bei Prefill: 3–4 GB/s auf PCIe 4.0 x4 (40–50% Auslastung)
- Prefill-Raten mit vLLM TP=2: 840–1700 t/s je nach Quantisierung (6-Bit AWQ bis NVFP4-turbo)
- GPU0 auf PCIe 5.0 x8, GPU1 auf PCIe 4.0 x4; trotzdem kein wesentlicher Bottleneck messbar
- Dritte GPU geplant über NVMe-zu-PCIe-5.0-x4-Adapter an CPU-M2-Slot
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.