FORSCHUNG3d
OSCAR RotationZoo: 2-Bit KV-Cache-Quantisierung mit ~7× Speicherkompression
Vorberechnete Rotationsmatrizen für Qwen3- und GLM-4.7-Modelle stehen als Drop-in-Dateien bereit – Nutzer können den aufwendigen Eigendekompositions-Schritt überspringen und sofort INT2-KV-Cache nutzen, was besonders bei 8 GB VRAM relevant ist.