NCCL-Test hängt im Docker mit 2× RTX 6000 Pro an AM4-Plattform
Nutzer NaiRogers beschreibt ein Debugging-Problem auf einem AMD AM4-System (X570-Chipsatz) mit zwei NVIDIA RTX 6000 Pro GPUs, die jeweils über PCIe x8 an die CPU angebunden sind. `nvidia-smi topo -m` zeigt erwartungsgemäß den Verbindungstyp PHB (über CPU-Bus), doch der NCCL-Benchmark `all_reduce_perf` hängt nach dem Start unweigerlich – ein typisches Symptom für fehlerhafte Peer-to-Peer- oder Netzwerk-Interface-Konfiguration im Container. Da vLLM für Tensor Parallelism (TP=2) auf funktionierendes NCCL angewiesen ist, ist der Mehrkarten-Betrieb damit komplett blockiert. Mögliche Ursachen sind fehlende Docker-Flags (`--ipc=host`, `--network=host`), fehlerhafte NCCL-Umgebungsvariablen oder PCIe-Bandbreitenlimitierungen auf AM4. Die Frage ist im r/LocalLLaMA-Subreddit offen gestellt und noch unbeantwortet.
- Zwei RTX 6000 Pro GPUs, je PCIe x8 am AM4-CPU-Bus (PHB-Topologie laut nvidia-smi topo -m)
- NCCL all_reduce_perf hängt reproduzierbar nach dem Start im Docker-Container
- vLLM mit Tensor Parallelism TP=2 ist dadurch nicht nutzbar
- Plattform: X570-Chipsatz (AM4-Sockel)
- Ursache noch ungeklärt – Community-Hilfe gesucht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
NCCL-Test hängt im Docker mit 2× RTX 6000 Pro an AM4-Plattform
Nutzer NaiRogers beschreibt ein Debugging-Problem auf einem AMD AM4-System (X570-Chipsatz) mit zwei NVIDIA RTX 6000 Pro GPUs, die jeweils über PCIe x8 an die CPU angebunden sind. `nvidia-smi topo -m` zeigt erwartungsgemäß den Verbindungstyp PHB (über CPU-Bus), doch der NCCL-Benchmark `all_reduce_perf` hängt nach dem Start unweigerlich – ein typisches Symptom für fehlerhafte Peer-to-Peer- oder Netzwerk-Interface-Konfiguration im Container. Da vLLM für Tensor Parallelism (TP=2) auf funktionierendes NCCL angewiesen ist, ist der Mehrkarten-Betrieb damit komplett blockiert. Mögliche Ursachen sind fehlende Docker-Flags (`--ipc=host`, `--network=host`), fehlerhafte NCCL-Umgebungsvariablen oder PCIe-Bandbreitenlimitierungen auf AM4. Die Frage ist im r/LocalLLaMA-Subreddit offen gestellt und noch unbeantwortet.
- Zwei RTX 6000 Pro GPUs, je PCIe x8 am AM4-CPU-Bus (PHB-Topologie laut nvidia-smi topo -m)
- NCCL all_reduce_perf hängt reproduzierbar nach dem Start im Docker-Container
- vLLM mit Tensor Parallelism TP=2 ist dadurch nicht nutzbar
- Plattform: X570-Chipsatz (AM4-Sockel)
- Ursache noch ungeklärt – Community-Hilfe gesucht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.