llama.cpp b9095 bringt NCCL-freies Tensor-Parallelism für Dual-Blackwell-PCIe-GPUs

CompaniesNVIDIA

Warum es zählt

Consumer-Nutzer mit zwei Blackwell-PCIe-GPUs können nun Tensor-Parallelism ohne NCCL nutzen – das senkt die Einstiegshürde für Multi-GPU-Inferenz erheblich und macht aufwendige NCCL-Installationen überflüssig.

— Lumeric Redaktion

Mit Build b9095 liefert llama.cpp eine lang ersehnte Verbesserung für Nutzer mit zwei Consumer-Blackwell-GPUs im PCIe-Betrieb: Das `-sm`-Flag für Tensor-Parallelism funktioniert nun ohne NCCL (NVIDIA Collective Communications Library). Bisher war NCCL vor allem im Data-Center-Umfeld verbreitet und auf Consumer-Hardware schwer zu konfigurieren, was Multi-GPU-Inferenz für Heimanwender praktisch ausschloss. Die Neuerung adressiert direkt Setups mit zwei PCIe-gekoppelten Blackwell-GPUs – etwa der RTX 5060 Ti – die keine NVLink-Verbindung besitzen. Der Reddit-Post stammt von /u/Bulky-Priority6824, der eigene Benchmarks für ein 2×5060-Ti-Setup ankündigt. Konkrete Durchsatz- oder Latenzzahlen liegen zum Zeitpunkt der Veröffentlichung noch nicht vor.

Was wir noch wissen

llama.cpp Build b9095 führt das Feature ein, kein separates Plugin erforderlich.
Aktivierung über das bestehende `-sm`-Flag für Tensor-Parallelism.
Zielgruppe: Consumer-Setups mit zwei Blackwell-PCIe-GPUs ohne NVLink.
NCCL-Abhängigkeit entfällt vollständig – vereinfacht Installation auf Desktop-Systemen.
Erste eigene Benchmark-Ergebnisse für 2×RTX 5060 Ti vom Autor angekündigt.

Quelle lesenreddit.com

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp b9095 bringt NCCL-freies Tensor-Parallelism für Dual-Blackwell-PCIe-GPUs

ToolsNVIDIA Hardware Llama

CompaniesNVIDIA

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

llama.cpp Build b9095 führt das Feature ein, kein separates Plugin erforderlich.
Aktivierung über das bestehende `-sm`-Flag für Tensor-Parallelism.
Zielgruppe: Consumer-Setups mit zwei Blackwell-PCIe-GPUs ohne NVLink.
NCCL-Abhängigkeit entfällt vollständig – vereinfacht Installation auf Desktop-Systemen.
Erste eigene Benchmark-Ergebnisse für 2×RTX 5060 Ti vom Autor angekündigt.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp b9095 bringt NCCL-freies Tensor-Parallelism für Dual-Blackwell-PCIe-GPUs

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp b9095 bringt NCCL-freies Tensor-Parallelism für Dual-Blackwell-PCIe-GPUs

Frag die KI zum Artikel

Verwandte Beiträge