wird geladen

OSCAR RotationZoo: 2-Bit KV-Cache-Quantisierung mit ~7× Speicherkompression · Lumeric

Beitrag

FORSCHUNG

reddit.com· r/LocalLLaMA1mo

OSCAR RotationZoo: 2-Bit KV-Cache-Quantisierung mit ~7× Speicherkompression

ToolsQwen Llama Hugging Face

CompaniesHugging Face Zhipu AI

Warum es zählt

Vorberechnete Rotationsmatrizen für Qwen3- und GLM-4.7-Modelle stehen als Drop-in-Dateien bereit – Nutzer können den aufwendigen Eigendekompositions-Schritt überspringen und sofort INT2-KV-Cache nutzen, was besonders bei 8 GB VRAM relevant ist.

— Lumeric Redaktion

OSCAR (Offline Spectral Covariance-Aware Rotation) ist eine Methode zur aggressiven KV-Cache-Quantisierung auf INT2-Niveau, entwickelt von Zhongzhu Zhou und Kollegen (arXiv:2605.17757). Das Verfahren erfasst Q/K/V-Aktivierungen auf einem kleinen Kalibrierungsdatensatz, schätzt die aufmerksamkeitsgewichtete K/V-Kovarianz offline und leitet daraus pro Schicht orthogonale Rotationen ab, die die INT2-Quantisierung an den tatsächlich genutzten Richtungen im Aktivierungsraum ausrichten. Das Ergebnis ist eine rund 7-fache Kompression des KV-Cache-Speicherbedarfs bei einstelligen Prozentpunkt-Verlusten auf dem GPQA-Benchmark. Das HuggingFace-Repository RotationZoo stellt vorberechnete Rotationsmatrizen als .pt-Dateien für mehrere Modelle bereit – darunter Qwen3-4B-Thinking-2507, Qwen3-8B, Qwen3-32B sowie zai-org/GLM-4.7-FP8. Nutzer müssen den rechenintensiven Dump- und Eigendekompositions-Schritt nicht selbst durchführen. Der Code ist auf GitHub unter FutureMLS-Lab/OSCAR verfügbar. In der Reddit-Diskussion wird eine Integration in llama.cpp als wünschenswert genannt.

Quelle lesenreddit.com

GPQA – INT2 KV-Cache vs. BF16 Baseline · Spitzenwert

67.27%

Qwen3-4B-Thinking BF16

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

FORSCHUNGarxiv.org1w
GSRQ: Sub-1-Bit KV-Cache-Quantisierung für LLMs mit langen Kontextfenstern

FORSCHUNG

reddit.com· r/LocalLLaMA1mo

OSCAR RotationZoo: 2-Bit KV-Cache-Quantisierung mit ~7× Speicherkompression

ToolsQwen Llama Hugging Face

CompaniesHugging Face Zhipu AI

Warum es zählt

Vorberechnete Rotationsmatrizen für Qwen3- und GLM-4.7-Modelle stehen als Drop-in-Dateien bereit – Nutzer können den aufwendigen Eigendekompositions-Schritt überspringen und sofort INT2-KV-Cache nutzen, was besonders bei 8 GB VRAM relevant ist.

— Lumeric Redaktion

OSCAR (Offline Spectral Covariance-Aware Rotation) ist eine Methode zur aggressiven KV-Cache-Quantisierung auf INT2-Niveau, entwickelt von Zhongzhu Zhou und Kollegen (arXiv:2605.17757). Das Verfahren erfasst Q/K/V-Aktivierungen auf einem kleinen Kalibrierungsdatensatz, schätzt die aufmerksamkeitsgewichtete K/V-Kovarianz offline und leitet daraus pro Schicht orthogonale Rotationen ab, die die INT2-Quantisierung an den tatsächlich genutzten Richtungen im Aktivierungsraum ausrichten. Das Ergebnis ist eine rund 7-fache Kompression des KV-Cache-Speicherbedarfs bei einstelligen Prozentpunkt-Verlusten auf dem GPQA-Benchmark. Das HuggingFace-Repository RotationZoo stellt vorberechnete Rotationsmatrizen als .pt-Dateien für mehrere Modelle bereit – darunter Qwen3-4B-Thinking-2507, Qwen3-8B, Qwen3-32B sowie zai-org/GLM-4.7-FP8. Nutzer müssen den rechenintensiven Dump- und Eigendekompositions-Schritt nicht selbst durchführen. Der Code ist auf GitHub unter FutureMLS-Lab/OSCAR verfügbar. In der Reddit-Diskussion wird eine Integration in llama.cpp als wünschenswert genannt.

GPQA – INT2 KV-Cache vs. BF16 Baseline · Spitzenwert

67.27%

Qwen3-4B-Thinking BF16

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

FORSCHUNGarxiv.org1w
GSRQ: Sub-1-Bit KV-Cache-Quantisierung für LLMs mit langen Kontextfenstern