Shard komprimiert KV-Cache von Llama-3.1-8B um Faktor 10×
Shard, veröffentlicht von GitHub-Nutzer krish1905, startete als Reimplementierung von Googles TurboQuant, stagnierte jedoch zunächst bei einem Kompressionsfaktor von rund 4×. Der entscheidende Durchbruch kam, als die Entwickler erkannten, dass K- und V-Matrizen im KV-Cache grundlegend unterschiedliche Eigenschaften besitzen und daher separate Behandlung benötigen. Für die K-Matrix wird PCA kombiniert mit int4-Quantisierung eingesetzt – die Matrix ist nach dem Rückgängigmachen von RoPE effektiv niedrigrangig. Die V-Matrix wird hingegen mit einer Hadamard-Rotation plus Vektorquantisierung komprimiert. Besonders bemerkenswert: Attention wird direkt auf dem komprimierten K berechnet, ohne fp16-Rekonstruktion. Bei 8K Kontext erreicht Shard 10× Kompression, bei 32K sogar 11×. Weder auf dem NIAH-Benchmark (Needle-in-a-Haystack) noch auf LongBench sind messbare Qualitätseinbußen zu verzeichnen. Die Bibliothek ist als Drop-in-Replacement für den HuggingFace-Cache konzipiert und damit ohne größere Codeänderungen einsetzbar.
- Kompression bei 32K Kontext sogar 11× – stärker als bei kürzeren Kontexten
- K-Matrix: PCA + int4-Quantisierung nach RoPE-Inversion (effektiv niedrigrangig)
- V-Matrix: Hadamard-Rotation + Vektorquantisierung (unterschiedliche statistische Struktur)
- Attention läuft direkt auf komprimiertem K – kein fp16-Rekonstruktionsschritt nötig
- Code öffentlich verfügbar unter krish1905/shard auf GitHub
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Shard komprimiert KV-Cache von Llama-3.1-8B um Faktor 10×
Shard, veröffentlicht von GitHub-Nutzer krish1905, startete als Reimplementierung von Googles TurboQuant, stagnierte jedoch zunächst bei einem Kompressionsfaktor von rund 4×. Der entscheidende Durchbruch kam, als die Entwickler erkannten, dass K- und V-Matrizen im KV-Cache grundlegend unterschiedliche Eigenschaften besitzen und daher separate Behandlung benötigen. Für die K-Matrix wird PCA kombiniert mit int4-Quantisierung eingesetzt – die Matrix ist nach dem Rückgängigmachen von RoPE effektiv niedrigrangig. Die V-Matrix wird hingegen mit einer Hadamard-Rotation plus Vektorquantisierung komprimiert. Besonders bemerkenswert: Attention wird direkt auf dem komprimierten K berechnet, ohne fp16-Rekonstruktion. Bei 8K Kontext erreicht Shard 10× Kompression, bei 32K sogar 11×. Weder auf dem NIAH-Benchmark (Needle-in-a-Haystack) noch auf LongBench sind messbare Qualitätseinbußen zu verzeichnen. Die Bibliothek ist als Drop-in-Replacement für den HuggingFace-Cache konzipiert und damit ohne größere Codeänderungen einsetzbar.
- Kompression bei 32K Kontext sogar 11× – stärker als bei kürzeren Kontexten
- K-Matrix: PCA + int4-Quantisierung nach RoPE-Inversion (effektiv niedrigrangig)
- V-Matrix: Hadamard-Rotation + Vektorquantisierung (unterschiedliche statistische Struktur)
- Attention läuft direkt auf komprimiertem K – kein fp16-Rekonstruktionsschritt nötig
- Code öffentlich verfügbar unter krish1905/shard auf GitHub
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.