llama.cpp b9095 bringt NCCL-freies Tensor-Parallelism für Dual-Blackwell-PCIe-GPUs
Mit Build b9095 liefert llama.cpp eine lang ersehnte Verbesserung für Nutzer mit zwei Consumer-Blackwell-GPUs im PCIe-Betrieb: Das `-sm`-Flag für Tensor-Parallelism funktioniert nun ohne NCCL (NVIDIA Collective Communications Library). Bisher war NCCL vor allem im Data-Center-Umfeld verbreitet und auf Consumer-Hardware schwer zu konfigurieren, was Multi-GPU-Inferenz für Heimanwender praktisch ausschloss. Die Neuerung adressiert direkt Setups mit zwei PCIe-gekoppelten Blackwell-GPUs – etwa der RTX 5060 Ti – die keine NVLink-Verbindung besitzen. Der Reddit-Post stammt von /u/Bulky-Priority6824, der eigene Benchmarks für ein 2×5060-Ti-Setup ankündigt. Konkrete Durchsatz- oder Latenzzahlen liegen zum Zeitpunkt der Veröffentlichung noch nicht vor.
- llama.cpp Build b9095 führt das Feature ein, kein separates Plugin erforderlich.
- Aktivierung über das bestehende `-sm`-Flag für Tensor-Parallelism.
- Zielgruppe: Consumer-Setups mit zwei Blackwell-PCIe-GPUs ohne NVLink.
- NCCL-Abhängigkeit entfällt vollständig – vereinfacht Installation auf Desktop-Systemen.
- Erste eigene Benchmark-Ergebnisse für 2×RTX 5060 Ti vom Autor angekündigt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama.cpp b9095 bringt NCCL-freies Tensor-Parallelism für Dual-Blackwell-PCIe-GPUs
Mit Build b9095 liefert llama.cpp eine lang ersehnte Verbesserung für Nutzer mit zwei Consumer-Blackwell-GPUs im PCIe-Betrieb: Das `-sm`-Flag für Tensor-Parallelism funktioniert nun ohne NCCL (NVIDIA Collective Communications Library). Bisher war NCCL vor allem im Data-Center-Umfeld verbreitet und auf Consumer-Hardware schwer zu konfigurieren, was Multi-GPU-Inferenz für Heimanwender praktisch ausschloss. Die Neuerung adressiert direkt Setups mit zwei PCIe-gekoppelten Blackwell-GPUs – etwa der RTX 5060 Ti – die keine NVLink-Verbindung besitzen. Der Reddit-Post stammt von /u/Bulky-Priority6824, der eigene Benchmarks für ein 2×5060-Ti-Setup ankündigt. Konkrete Durchsatz- oder Latenzzahlen liegen zum Zeitpunkt der Veröffentlichung noch nicht vor.
- llama.cpp Build b9095 führt das Feature ein, kein separates Plugin erforderlich.
- Aktivierung über das bestehende `-sm`-Flag für Tensor-Parallelism.
- Zielgruppe: Consumer-Setups mit zwei Blackwell-PCIe-GPUs ohne NVLink.
- NCCL-Abhängigkeit entfällt vollständig – vereinfacht Installation auf Desktop-Systemen.
- Erste eigene Benchmark-Ergebnisse für 2×RTX 5060 Ti vom Autor angekündigt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.