Llama.cpp-Fork behebt Tensor-Parallelismus mit quantisierten KV-Caches für Dual-GPU
Der Reddit-Nutzer Legitimate-Dog5690 hat einen Fork von llama.cpp veröffentlicht (github.com/RedToasty/llama.cpp_qts), der einen seit Langem bestehenden Fehler im Tensor-Parallelismus-Modus (`--split-mode tensor`) behebt. Das Problem: Im Mainline-Code funktioniert `-sm tensor` nur mit nicht-quantisierten KV-Caches, was viele Nutzer dazu bewogen hatte, Tensor-Splitting ganz zu meiden und stattdessen größere KV-Caches zu konfigurieren. Der Fork basiert auf dem aktuellen Mainline-Stand (Stand 17. Mai 2026) und enthält minimale Änderungen. Getestet wurde mit einer 3060 12 GB + 4070 Super 12 GB (zusammen 24 GB VRAM) auf dem Qwen3.5 27B Q4_K_M-Modell: Der Prompt-Processing-Durchsatz liegt mit Tensor-Split bei 544,82 t/s (pp128), ohne Split bei 582,60 t/s. Bei der Token-Generierung (tg32) steigt die Rate hingegen von 21,22 auf 30,05 t/s – ein Zuwachs von rund 42 %. In Kombination mit den neuen MTP-Speculative-Decoding-Optionen (`--spec-type draft-mtp`) berichtet der Autor von persönlich rund 25 auf 40 t/s im Alltag. Der Fork unterstützt außerdem die neuesten MTP-Änderungen aus dem Mainline-Repo. Feedback zu Dual-5060-Ti- und Vulkan-Setups wird explizit gesucht.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Llama.cpp-Fork behebt Tensor-Parallelismus mit quantisierten KV-Caches für Dual-GPU
Der Reddit-Nutzer Legitimate-Dog5690 hat einen Fork von llama.cpp veröffentlicht (github.com/RedToasty/llama.cpp_qts), der einen seit Langem bestehenden Fehler im Tensor-Parallelismus-Modus (`--split-mode tensor`) behebt. Das Problem: Im Mainline-Code funktioniert `-sm tensor` nur mit nicht-quantisierten KV-Caches, was viele Nutzer dazu bewogen hatte, Tensor-Splitting ganz zu meiden und stattdessen größere KV-Caches zu konfigurieren. Der Fork basiert auf dem aktuellen Mainline-Stand (Stand 17. Mai 2026) und enthält minimale Änderungen. Getestet wurde mit einer 3060 12 GB + 4070 Super 12 GB (zusammen 24 GB VRAM) auf dem Qwen3.5 27B Q4_K_M-Modell: Der Prompt-Processing-Durchsatz liegt mit Tensor-Split bei 544,82 t/s (pp128), ohne Split bei 582,60 t/s. Bei der Token-Generierung (tg32) steigt die Rate hingegen von 21,22 auf 30,05 t/s – ein Zuwachs von rund 42 %. In Kombination mit den neuen MTP-Speculative-Decoding-Optionen (`--spec-type draft-mtp`) berichtet der Autor von persönlich rund 25 auf 40 t/s im Alltag. Der Fork unterstützt außerdem die neuesten MTP-Änderungen aus dem Mainline-Repo. Feedback zu Dual-5060-Ti- und Vulkan-Setups wird explizit gesucht.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.