TBQ4 KV-Cache + MTP auf AMD ROCm: 64k Kontext in 20 GB VRAM
Der Reddit-Nutzer DrBearJ3w hat einen experimentellen llama.cpp-Branch namens tbq4-rdna3-experiment veröffentlicht, der TurboQuant TBQ4 KV-Cache-Quantisierung und Multi-Token Prediction (MTP) auf AMD ROCm für die RX 7900 XTX (RDNA3, gfx1100) funktionsfähig macht. Bisherige AMD-Codepfade für diese Kombination waren laut Autor unvollständig oder defekt. Der Branch nutzt den ROCm VEC Flash Attention-Pfad mit inline TBQ4-Dequantisierung. Getestet wurde mit Qwen3-27B Q4_K_M als MTP-GGUF, tbq4_0 KV-Cache und --spec-draft-n-max 3. Die gemessenen Werte: 38–54 tok/s bei 64k Kontext mit ca. 20 GB VRAM, Prefill-Rate 537,7 tok/s bei 16k und 360,8 tok/s im 64k-Test. Zum Vergleich: Die q8_0-Baseline erreicht ~49,8 tok/s bei 16k, fällt aber bei 32k auf ~31 tok/s und belegt 22–23 GB VRAM. Wichtige Einschränkungen: RDNA3.5/RDNA4 sind im Code aktiviert, aber nicht getestet. RotorQuant, PlanarQuant und IsoQuant sind vorhanden, aber nicht validiert. Die Zahlen stammen aus separaten Einzelläufen, nicht aus einer kontrollierten Skalierungsmessung.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
TBQ4 KV-Cache + MTP auf AMD ROCm: 64k Kontext in 20 GB VRAM
Der Reddit-Nutzer DrBearJ3w hat einen experimentellen llama.cpp-Branch namens tbq4-rdna3-experiment veröffentlicht, der TurboQuant TBQ4 KV-Cache-Quantisierung und Multi-Token Prediction (MTP) auf AMD ROCm für die RX 7900 XTX (RDNA3, gfx1100) funktionsfähig macht. Bisherige AMD-Codepfade für diese Kombination waren laut Autor unvollständig oder defekt. Der Branch nutzt den ROCm VEC Flash Attention-Pfad mit inline TBQ4-Dequantisierung. Getestet wurde mit Qwen3-27B Q4_K_M als MTP-GGUF, tbq4_0 KV-Cache und --spec-draft-n-max 3. Die gemessenen Werte: 38–54 tok/s bei 64k Kontext mit ca. 20 GB VRAM, Prefill-Rate 537,7 tok/s bei 16k und 360,8 tok/s im 64k-Test. Zum Vergleich: Die q8_0-Baseline erreicht ~49,8 tok/s bei 16k, fällt aber bei 32k auf ~31 tok/s und belegt 22–23 GB VRAM. Wichtige Einschränkungen: RDNA3.5/RDNA4 sind im Code aktiviert, aber nicht getestet. RotorQuant, PlanarQuant und IsoQuant sind vorhanden, aber nicht validiert. Die Zahlen stammen aus separaten Einzelläufen, nicht aus einer kontrollierten Skalierungsmessung.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.