OSCAR RotationZoo: 2-Bit KV-Cache-Quantisierung mit ~7× Speicherkompression
OSCAR (Offline Spectral Covariance-Aware Rotation) ist eine Methode zur aggressiven KV-Cache-Quantisierung auf INT2-Niveau, entwickelt von Zhongzhu Zhou und Kollegen (arXiv:2605.17757). Das Verfahren erfasst Q/K/V-Aktivierungen auf einem kleinen Kalibrierungsdatensatz, schätzt die aufmerksamkeitsgewichtete K/V-Kovarianz offline und leitet daraus pro Schicht orthogonale Rotationen ab, die die INT2-Quantisierung an den tatsächlich genutzten Richtungen im Aktivierungsraum ausrichten. Das Ergebnis ist eine rund 7-fache Kompression des KV-Cache-Speicherbedarfs bei einstelligen Prozentpunkt-Verlusten auf dem GPQA-Benchmark. Das HuggingFace-Repository RotationZoo stellt vorberechnete Rotationsmatrizen als .pt-Dateien für mehrere Modelle bereit – darunter Qwen3-4B-Thinking-2507, Qwen3-8B, Qwen3-32B sowie zai-org/GLM-4.7-FP8. Nutzer müssen den rechenintensiven Dump- und Eigendekompositions-Schritt nicht selbst durchführen. Der Code ist auf GitHub unter FutureMLS-Lab/OSCAR verfügbar. In der Reddit-Diskussion wird eine Integration in llama.cpp als wünschenswert genannt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
OSCAR RotationZoo: 2-Bit KV-Cache-Quantisierung mit ~7× Speicherkompression
OSCAR (Offline Spectral Covariance-Aware Rotation) ist eine Methode zur aggressiven KV-Cache-Quantisierung auf INT2-Niveau, entwickelt von Zhongzhu Zhou und Kollegen (arXiv:2605.17757). Das Verfahren erfasst Q/K/V-Aktivierungen auf einem kleinen Kalibrierungsdatensatz, schätzt die aufmerksamkeitsgewichtete K/V-Kovarianz offline und leitet daraus pro Schicht orthogonale Rotationen ab, die die INT2-Quantisierung an den tatsächlich genutzten Richtungen im Aktivierungsraum ausrichten. Das Ergebnis ist eine rund 7-fache Kompression des KV-Cache-Speicherbedarfs bei einstelligen Prozentpunkt-Verlusten auf dem GPQA-Benchmark. Das HuggingFace-Repository RotationZoo stellt vorberechnete Rotationsmatrizen als .pt-Dateien für mehrere Modelle bereit – darunter Qwen3-4B-Thinking-2507, Qwen3-8B, Qwen3-32B sowie zai-org/GLM-4.7-FP8. Nutzer müssen den rechenintensiven Dump- und Eigendekompositions-Schritt nicht selbst durchführen. Der Code ist auf GitHub unter FutureMLS-Lab/OSCAR verfügbar. In der Reddit-Diskussion wird eine Integration in llama.cpp als wünschenswert genannt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.