Llama.cpp-Fork behebt Tensor-Parallelismus mit quantisierten KV-Caches für Dual-GPU

Warum es zählt

Nutzer mit zwei Consumer-GPUs können nun Tensor-Parallelismus mit Q8_0-KV-Caches kombinieren, was beim Qwen3-27B-Modell die Token-Generierung um ~42 % beschleunigt – bisher war man gezwungen, entweder auf Tensor-Split oder auf quantisierte KV-Caches zu verzichten.

— Lumeric Redaktion

Der Reddit-Nutzer Legitimate-Dog5690 hat einen Fork von llama.cpp veröffentlicht (github.com/RedToasty/llama.cpp_qts), der einen seit Langem bestehenden Fehler im Tensor-Parallelismus-Modus (`--split-mode tensor`) behebt. Das Problem: Im Mainline-Code funktioniert `-sm tensor` nur mit nicht-quantisierten KV-Caches, was viele Nutzer dazu bewogen hatte, Tensor-Splitting ganz zu meiden und stattdessen größere KV-Caches zu konfigurieren. Der Fork basiert auf dem aktuellen Mainline-Stand (Stand 17. Mai 2026) und enthält minimale Änderungen. Getestet wurde mit einer 3060 12 GB + 4070 Super 12 GB (zusammen 24 GB VRAM) auf dem Qwen3.5 27B Q4_K_M-Modell: Der Prompt-Processing-Durchsatz liegt mit Tensor-Split bei 544,82 t/s (pp128), ohne Split bei 582,60 t/s. Bei der Token-Generierung (tg32) steigt die Rate hingegen von 21,22 auf 30,05 t/s – ein Zuwachs von rund 42 %. In Kombination mit den neuen MTP-Speculative-Decoding-Optionen (`--spec-type draft-mtp`) berichtet der Autor von persönlich rund 25 auf 40 t/s im Alltag. Der Fork unterstützt außerdem die neuesten MTP-Änderungen aus dem Mainline-Repo. Feedback zu Dual-5060-Ti- und Vulkan-Setups wird explizit gesucht.

Quelle lesenreddit.com

llama-bench tg32 – Qwen3.5 27B Q4_K_M · Spitzenwert

30.05%

Tensor Split (Fork)

Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Llama.cpp-Fork behebt Tensor-Parallelismus mit quantisierten KV-Caches für Dual-GPU

ToolsQwen Llama

Warum es zählt

— Lumeric Redaktion

llama-bench tg32 – Qwen3.5 27B Q4_K_M · Spitzenwert

30.05%

Tensor Split (Fork)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Llama.cpp-Fork behebt Tensor-Parallelismus mit quantisierten KV-Caches für Dual-GPU

Frag die KI zum Artikel

Verwandte Beiträge

Llama.cpp-Fork behebt Tensor-Parallelismus mit quantisierten KV-Caches für Dual-GPU

Frag die KI zum Artikel

Verwandte Beiträge