llama.cpp: CUDA-FWHT beschleunigt KV-Cache-Quantisierung um bis zu 9 %
Pull Request #23615 im ggml-org/llama.cpp-Repository implementiert den Fast Walsh-Hadamard Transform (FWHT) für CUDA, eingereicht von Contributor am17an. Der FWHT wird bei der Quantisierung des KV-Caches eingesetzt und war bislang nur auf der CPU verfügbar. Die Benchmarks wurden auf einer RTX 5090 mit den Flags `-ctk q8_0 -ctv q8_0` und dem Modell gemma4 26B.A4B Q4_K_M durchgeführt. Beim Prompt-Processing (pp2048) liegt der Speedup bei 1–2 % über verschiedene Kontextlängen von 0 bis 16 384 Tokens. Signifikanter ist der Gewinn beim Token-Generieren (tg128): Hier steigt der Durchsatz von 223,81 t/s auf 243,90 t/s, was einem Speedup von 1,09× entspricht. Auch bei größeren Kontexten (d16384) bleibt der Speedup mit 1,07× substanziell. Die Optimierung greift ausschließlich dann, wenn KV-Cache-Quantisierung aktiv ist – für Nutzer ohne diese Option ändert sich nichts.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama.cpp: CUDA-FWHT beschleunigt KV-Cache-Quantisierung um bis zu 9 %
Pull Request #23615 im ggml-org/llama.cpp-Repository implementiert den Fast Walsh-Hadamard Transform (FWHT) für CUDA, eingereicht von Contributor am17an. Der FWHT wird bei der Quantisierung des KV-Caches eingesetzt und war bislang nur auf der CPU verfügbar. Die Benchmarks wurden auf einer RTX 5090 mit den Flags `-ctk q8_0 -ctv q8_0` und dem Modell gemma4 26B.A4B Q4_K_M durchgeführt. Beim Prompt-Processing (pp2048) liegt der Speedup bei 1–2 % über verschiedene Kontextlängen von 0 bis 16 384 Tokens. Signifikanter ist der Gewinn beim Token-Generieren (tg128): Hier steigt der Durchsatz von 223,81 t/s auf 243,90 t/s, was einem Speedup von 1,09× entspricht. Auch bei größeren Kontexten (d16384) bleibt der Speedup mit 1,07× substanziell. Die Optimierung greift ausschließlich dann, wenn KV-Cache-Quantisierung aktiv ist – für Nutzer ohne diese Option ändert sich nichts.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.