Cyankiwi AWQ INT4: Geringste KL-Divergenz bei Llama-3-Quantisierung
Das cyankiwi-Projekt stellt ein Update seiner AWQ-4-Bit-Quantisierungsmethode vor, das einen grundlegenden Schwachpunkt des Standard-AWQ-Verfahrens adressiert: Dort werden per-Channel-Scales und Quantisierungsbereiche sequenziell gewählt, obwohl beide voneinander abhängen. Cyankiwi AWQ 26.05 optimiert beide Parameter stattdessen gemeinsam gegen eine Rekonstruktions-Verlustfunktion. Als Eval-Metrik dient die KL-Divergenz gegenüber dem BF16-Baseline-Modell auf GPQA-Diamond-Antworten — je niedriger, desto qualitätstreuer die Quantisierung. Auf Llama-3.2-3B-Instruct erreicht cyankiwi AWQ einen KLD-Wert von 0,00510 gegenüber 0,02437 für das Standard-AWQ-Modell von casperhansen. Beim Llama-3.1-8B-Instruct liegt cyankiwi bei 0,00478, klar vor RedHatAI GPTQ (0,00729) und unsloth BNB NF4 (0,00769). Am deutlichsten ist der Vorsprung beim 70B-Modell: Llama-3.3-70B-Instruct erreicht 0,02826 gegenüber 0,09272 für RedHatAI GPTQ und 0,08307 für nvidia NVFP4. Die quantisierten Modelle werden unter dem HuggingFace-Profil „cyankiwi" bereitgestellt und sind direkt einsetzbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Cyankiwi AWQ INT4: Geringste KL-Divergenz bei Llama-3-Quantisierung
Das cyankiwi-Projekt stellt ein Update seiner AWQ-4-Bit-Quantisierungsmethode vor, das einen grundlegenden Schwachpunkt des Standard-AWQ-Verfahrens adressiert: Dort werden per-Channel-Scales und Quantisierungsbereiche sequenziell gewählt, obwohl beide voneinander abhängen. Cyankiwi AWQ 26.05 optimiert beide Parameter stattdessen gemeinsam gegen eine Rekonstruktions-Verlustfunktion. Als Eval-Metrik dient die KL-Divergenz gegenüber dem BF16-Baseline-Modell auf GPQA-Diamond-Antworten — je niedriger, desto qualitätstreuer die Quantisierung. Auf Llama-3.2-3B-Instruct erreicht cyankiwi AWQ einen KLD-Wert von 0,00510 gegenüber 0,02437 für das Standard-AWQ-Modell von casperhansen. Beim Llama-3.1-8B-Instruct liegt cyankiwi bei 0,00478, klar vor RedHatAI GPTQ (0,00729) und unsloth BNB NF4 (0,00769). Am deutlichsten ist der Vorsprung beim 70B-Modell: Llama-3.3-70B-Instruct erreicht 0,02826 gegenüber 0,09272 für RedHatAI GPTQ und 0,08307 für nvidia NVFP4. Die quantisierten Modelle werden unter dem HuggingFace-Profil „cyankiwi" bereitgestellt und sind direkt einsetzbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.