NCCL-Test hängt im Docker mit 2× RTX 6000 Pro an AM4-Plattform

Warum es zählt

Multi-GPU-Inferenz mit vLLM über TP=2 setzt funktionierende NCCL-Kommunikation voraus – hängt NCCL im Docker, ist der gesamte Tensor-Parallelism-Betrieb blockiert. Das Problem tritt offenbar plattformspezifisch auf AM4/X570 mit PHB-Topologie auf.

— Lumeric Redaktion

Nutzer NaiRogers beschreibt ein Debugging-Problem auf einem AMD AM4-System (X570-Chipsatz) mit zwei NVIDIA RTX 6000 Pro GPUs, die jeweils über PCIe x8 an die CPU angebunden sind. `nvidia-smi topo -m` zeigt erwartungsgemäß den Verbindungstyp PHB (über CPU-Bus), doch der NCCL-Benchmark `all_reduce_perf` hängt nach dem Start unweigerlich – ein typisches Symptom für fehlerhafte Peer-to-Peer- oder Netzwerk-Interface-Konfiguration im Container. Da vLLM für Tensor Parallelism (TP=2) auf funktionierendes NCCL angewiesen ist, ist der Mehrkarten-Betrieb damit komplett blockiert. Mögliche Ursachen sind fehlende Docker-Flags (`--ipc=host`, `--network=host`), fehlerhafte NCCL-Umgebungsvariablen oder PCIe-Bandbreitenlimitierungen auf AM4. Die Frage ist im r/LocalLLaMA-Subreddit offen gestellt und noch unbeantwortet.

Was wir noch wissen

Zwei RTX 6000 Pro GPUs, je PCIe x8 am AM4-CPU-Bus (PHB-Topologie laut nvidia-smi topo -m)
NCCL all_reduce_perf hängt reproduzierbar nach dem Start im Docker-Container
vLLM mit Tensor Parallelism TP=2 ist dadurch nicht nutzbar
Plattform: X570-Chipsatz (AM4-Sockel)
Ursache noch ungeklärt – Community-Hilfe gesucht

Quelle lesenreddit.com

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

NCCL-Test hängt im Docker mit 2× RTX 6000 Pro an AM4-Plattform

ToolsNVIDIA Hardware

CompaniesNVIDIA AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Zwei RTX 6000 Pro GPUs, je PCIe x8 am AM4-CPU-Bus (PHB-Topologie laut nvidia-smi topo -m)
NCCL all_reduce_perf hängt reproduzierbar nach dem Start im Docker-Container
vLLM mit Tensor Parallelism TP=2 ist dadurch nicht nutzbar
Plattform: X570-Chipsatz (AM4-Sockel)
Ursache noch ungeklärt – Community-Hilfe gesucht

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

NCCL-Test hängt im Docker mit 2× RTX 6000 Pro an AM4-Plattform

Frag die KI zum Artikel

Verwandte Beiträge

NCCL-Test hängt im Docker mit 2× RTX 6000 Pro an AM4-Plattform

Frag die KI zum Artikel

Verwandte Beiträge