TBQ4 KV-Cache + MTP auf AMD ROCm: 64k Kontext in 20 GB VRAM

CompaniesAMD

Warum es zählt

AMD-Nutzer mit RX 7900 XTX können damit Qwen3-27B-Modelle mit 64k Kontext im VRAM halten – bei vergleichbarer oder besserer Geschwindigkeit als die q8_0-Baseline auf 16k. Der Branch ist experimentell und erfordert eigene Tests.

— Lumeric Redaktion

Der Reddit-Nutzer DrBearJ3w hat einen experimentellen llama.cpp-Branch namens tbq4-rdna3-experiment veröffentlicht, der TurboQuant TBQ4 KV-Cache-Quantisierung und Multi-Token Prediction (MTP) auf AMD ROCm für die RX 7900 XTX (RDNA3, gfx1100) funktionsfähig macht. Bisherige AMD-Codepfade für diese Kombination waren laut Autor unvollständig oder defekt. Der Branch nutzt den ROCm VEC Flash Attention-Pfad mit inline TBQ4-Dequantisierung. Getestet wurde mit Qwen3-27B Q4_K_M als MTP-GGUF, tbq4_0 KV-Cache und --spec-draft-n-max 3. Die gemessenen Werte: 38–54 tok/s bei 64k Kontext mit ca. 20 GB VRAM, Prefill-Rate 537,7 tok/s bei 16k und 360,8 tok/s im 64k-Test. Zum Vergleich: Die q8_0-Baseline erreicht ~49,8 tok/s bei 16k, fällt aber bei 32k auf ~31 tok/s und belegt 22–23 GB VRAM. Wichtige Einschränkungen: RDNA3.5/RDNA4 sind im Code aktiviert, aber nicht getestet. RotorQuant, PlanarQuant und IsoQuant sind vorhanden, aber nicht validiert. Die Zahlen stammen aus separaten Einzelläufen, nicht aus einer kontrollierten Skalierungsmessung.

Quelle lesenreddit.com

38–54 tok/s

bei 64k Kontext, ~20 GB VRAM (RX 7900 XTX)

Inferenz Infra Open Source Long Context

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

TBQ4 KV-Cache + MTP auf AMD ROCm: 64k Kontext in 20 GB VRAM

ToolsQwen Llama

CompaniesAMD

Warum es zählt

— Lumeric Redaktion

38–54 tok/s

bei 64k Kontext, ~20 GB VRAM (RX 7900 XTX)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

TBQ4 KV-Cache + MTP auf AMD ROCm: 64k Kontext in 20 GB VRAM

Frag die KI zum Artikel

Verwandte Beiträge

TBQ4 KV-Cache + MTP auf AMD ROCm: 64k Kontext in 20 GB VRAM

Frag die KI zum Artikel

Verwandte Beiträge