Shard komprimiert KV-Cache von Llama-3.1-8B um Faktor 10×

Warum es zählt

Wer große Kontextfenster lokal oder auf begrenzter GPU-Hardware betreiben will, kann mit Shard den Speicherbedarf drastisch senken – ohne Umbau der Inferenz-Pipeline und ohne nachweisbaren Qualitätsverlust auf gängigen Evals.

— Lumeric Redaktion

Shard, veröffentlicht von GitHub-Nutzer krish1905, startete als Reimplementierung von Googles TurboQuant, stagnierte jedoch zunächst bei einem Kompressionsfaktor von rund 4×. Der entscheidende Durchbruch kam, als die Entwickler erkannten, dass K- und V-Matrizen im KV-Cache grundlegend unterschiedliche Eigenschaften besitzen und daher separate Behandlung benötigen. Für die K-Matrix wird PCA kombiniert mit int4-Quantisierung eingesetzt – die Matrix ist nach dem Rückgängigmachen von RoPE effektiv niedrigrangig. Die V-Matrix wird hingegen mit einer Hadamard-Rotation plus Vektorquantisierung komprimiert. Besonders bemerkenswert: Attention wird direkt auf dem komprimierten K berechnet, ohne fp16-Rekonstruktion. Bei 8K Kontext erreicht Shard 10× Kompression, bei 32K sogar 11×. Weder auf dem NIAH-Benchmark (Needle-in-a-Haystack) noch auf LongBench sind messbare Qualitätseinbußen zu verzeichnen. Die Bibliothek ist als Drop-in-Replacement für den HuggingFace-Cache konzipiert und damit ohne größere Codeänderungen einsetzbar.

Was wir noch wissen

Kompression bei 32K Kontext sogar 11× – stärker als bei kürzeren Kontexten
K-Matrix: PCA + int4-Quantisierung nach RoPE-Inversion (effektiv niedrigrangig)
V-Matrix: Hadamard-Rotation + Vektorquantisierung (unterschiedliche statistische Struktur)
Attention läuft direkt auf komprimiertem K – kein fp16-Rekonstruktionsschritt nötig
Code öffentlich verfügbar unter krish1905/shard auf GitHub

Quelle lesenreddit.com

10×

KV-Cache-Kompression bei 8K Kontext

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

LAUNCH

reddit.com· r/LocalLLaMA1mo