llama.cpp Build 9254 bringt PDL-Optimierung für NVIDIA-GPUs und behebt TG-Regression
Build 9254 von llama.cpp behebt eine seit mehreren Builds bestehende Regression bei der Token-Generation (TG), die sowohl MTP- als auch Nicht-MTP-Modelle betraf und Nutzer zum Downgrade auf b9202 gezwungen hatte. Gleichzeitig integriert der Build Programmatic Dependent Launch (PDL), eine CUDA-Optimierung, die parallele Ausführung von Kerneln innerhalb desselben CUDA-Streams ermöglicht – bisher liefen diese streng sequenziell. PDL setzt Compute Capability ≥ 90 voraus (Blackwell und Hopper; Ada Lovelace ist ausdrücklich ausgeschlossen). Die Technik nutzt zwei neue Primitiven: GGML_CUDA_PDL_SYNC als Synchronisationsbarriere und GGML_CUDA_PDL_LC als Launch-Signal. Kernels werden über die neue Funktion ggml_cuda_kernel_launch() gestartet. In ersten Tests eines Nutzers auf zwei RTX 5060 Ti 16 GB im Tensor-Split ergaben sich 3.000 PP und 127 TG/s bei qwen3-6-35b-a3b-Q4_K_XL sowie ein genereller 3-%-Uplift gegenüber dem Vorgänger-Build. Der Entwickler aendk berichtet auf einem RTX PRO 6000 von bis zu 10 % TG-Speedup, auf DGX Spark von 4–5 %. PDL-Enrollments decken bislang Kernels für gpt-oss 20b, Qwen3.5 und Nemotron 120B Super ab. Bekannte offene Punkte: Es fehlt noch Tooling wie memcheck zur Erkennung von Race Conditions bei falsch platzierten GGML_CUDA_PDL_SYNC-Barrieren.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama.cpp Build 9254 bringt PDL-Optimierung für NVIDIA-GPUs und behebt TG-Regression
Build 9254 von llama.cpp behebt eine seit mehreren Builds bestehende Regression bei der Token-Generation (TG), die sowohl MTP- als auch Nicht-MTP-Modelle betraf und Nutzer zum Downgrade auf b9202 gezwungen hatte. Gleichzeitig integriert der Build Programmatic Dependent Launch (PDL), eine CUDA-Optimierung, die parallele Ausführung von Kerneln innerhalb desselben CUDA-Streams ermöglicht – bisher liefen diese streng sequenziell. PDL setzt Compute Capability ≥ 90 voraus (Blackwell und Hopper; Ada Lovelace ist ausdrücklich ausgeschlossen). Die Technik nutzt zwei neue Primitiven: GGML_CUDA_PDL_SYNC als Synchronisationsbarriere und GGML_CUDA_PDL_LC als Launch-Signal. Kernels werden über die neue Funktion ggml_cuda_kernel_launch() gestartet. In ersten Tests eines Nutzers auf zwei RTX 5060 Ti 16 GB im Tensor-Split ergaben sich 3.000 PP und 127 TG/s bei qwen3-6-35b-a3b-Q4_K_XL sowie ein genereller 3-%-Uplift gegenüber dem Vorgänger-Build. Der Entwickler aendk berichtet auf einem RTX PRO 6000 von bis zu 10 % TG-Speedup, auf DGX Spark von 4–5 %. PDL-Enrollments decken bislang Kernels für gpt-oss 20b, Qwen3.5 und Nemotron 120B Super ab. Bekannte offene Punkte: Es fehlt noch Tooling wie memcheck zur Erkennung von Race Conditions bei falsch platzierten GGML_CUDA_PDL_SYNC-Barrieren.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.