llama.cpp Build 9254 bringt PDL-Optimierung für NVIDIA-GPUs und behebt TG-Regression

CompaniesNVIDIA

Warum es zählt

PDL ermöglicht überlappende CUDA-Kernel-Ausführung und liefert bis zu 10 % TG-Speedup auf neueren NVIDIA-GPUs; kombiniert mit CUDA Graphs sind die Gewinne additiv – relevant für alle, die llama.cpp lokal mit RTX 5000-Karten oder DGX Spark betreiben.

— Lumeric Redaktion

Build 9254 von llama.cpp behebt eine seit mehreren Builds bestehende Regression bei der Token-Generation (TG), die sowohl MTP- als auch Nicht-MTP-Modelle betraf und Nutzer zum Downgrade auf b9202 gezwungen hatte. Gleichzeitig integriert der Build Programmatic Dependent Launch (PDL), eine CUDA-Optimierung, die parallele Ausführung von Kerneln innerhalb desselben CUDA-Streams ermöglicht – bisher liefen diese streng sequenziell. PDL setzt Compute Capability ≥ 90 voraus (Blackwell und Hopper; Ada Lovelace ist ausdrücklich ausgeschlossen). Die Technik nutzt zwei neue Primitiven: GGML_CUDA_PDL_SYNC als Synchronisationsbarriere und GGML_CUDA_PDL_LC als Launch-Signal. Kernels werden über die neue Funktion ggml_cuda_kernel_launch() gestartet. In ersten Tests eines Nutzers auf zwei RTX 5060 Ti 16 GB im Tensor-Split ergaben sich 3.000 PP und 127 TG/s bei qwen3-6-35b-a3b-Q4_K_XL sowie ein genereller 3-%-Uplift gegenüber dem Vorgänger-Build. Der Entwickler aendk berichtet auf einem RTX PRO 6000 von bis zu 10 % TG-Speedup, auf DGX Spark von 4–5 %. PDL-Enrollments decken bislang Kernels für gpt-oss 20b, Qwen3.5 und Nemotron 120B Super ab. Bekannte offene Punkte: Es fehlt noch Tooling wie memcheck zur Erkennung von Race Conditions bei falsch platzierten GGML_CUDA_PDL_SYNC-Barrieren.

Quelle lesenreddit.com

10 % TG-Speedup

auf RTX PRO 6000 mit PDL + CUDA Graphs

Inferenz Infra Open Source Chips Silizium

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp Build 9254 bringt PDL-Optimierung für NVIDIA-GPUs und behebt TG-Regression

ToolsGPT Qwen NVIDIA Hardware Llama

CompaniesNVIDIA

Warum es zählt

— Lumeric Redaktion

10 % TG-Speedup

auf RTX PRO 6000 mit PDL + CUDA Graphs

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp Build 9254 bringt PDL-Optimierung für NVIDIA-GPUs und behebt TG-Regression

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp Build 9254 bringt PDL-Optimierung für NVIDIA-GPUs und behebt TG-Regression

Frag die KI zum Artikel

Verwandte Beiträge