llama.cpp: CUDA-FWHT beschleunigt KV-Cache-Quantisierung um bis zu 9 %

Warum es zählt

Nutzer, die mit `-ctk q8_0 -ctv q8_0` inferenzieren, profitieren ohne Konfigurationsaufwand von deutlich höherem Tokendurchsatz – besonders relevant für lange Kontexte auf Consumer-GPUs wie der RTX 5090.

— Lumeric Redaktion

Pull Request #23615 im ggml-org/llama.cpp-Repository implementiert den Fast Walsh-Hadamard Transform (FWHT) für CUDA, eingereicht von Contributor am17an. Der FWHT wird bei der Quantisierung des KV-Caches eingesetzt und war bislang nur auf der CPU verfügbar. Die Benchmarks wurden auf einer RTX 5090 mit den Flags `-ctk q8_0 -ctv q8_0` und dem Modell gemma4 26B.A4B Q4_K_M durchgeführt. Beim Prompt-Processing (pp2048) liegt der Speedup bei 1–2 % über verschiedene Kontextlängen von 0 bis 16 384 Tokens. Signifikanter ist der Gewinn beim Token-Generieren (tg128): Hier steigt der Durchsatz von 223,81 t/s auf 243,90 t/s, was einem Speedup von 1,09× entspricht. Auch bei größeren Kontexten (d16384) bleibt der Speedup mit 1,07× substanziell. Die Optimierung greift ausschließlich dann, wenn KV-Cache-Quantisierung aktiv ist – für Nutzer ohne diese Option ändert sich nichts.

Quelle lesenreddit.com

llama.cpp tg128 Speedup (gemma4 26B.A4B Q4_K_M, RTX 5090, q8_0 KV-Cache) · Spitzenwert

223.81%

master (tg128)

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp: CUDA-FWHT beschleunigt KV-Cache-Quantisierung um bis zu 9 %

ToolsLlama

Warum es zählt

— Lumeric Redaktion

llama.cpp tg128 Speedup (gemma4 26B.A4B Q4_K_M, RTX 5090, q8_0 KV-Cache) · Spitzenwert

223.81%

master (tg128)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp: CUDA-FWHT beschleunigt KV-Cache-Quantisierung um bis zu 9 %

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp: CUDA-FWHT beschleunigt KV-Cache-Quantisierung um bis zu 9 %

Frag die KI zum Artikel

Verwandte Beiträge