wird geladen

Cyankiwi AWQ INT4: Geringste KL-Divergenz bei Llama-3-Quantisierung · Lumeric

Beitrag

BENCHMARK

reddit.com· r/LocalLLaMA1mo

Cyankiwi AWQ INT4: Geringste KL-Divergenz bei Llama-3-Quantisierung

ToolsNVIDIA Hardware Llama Hugging Face

CompaniesHugging Face NVIDIA Meta AI

Warum es zählt

Wer Llama-3-Modelle lokal mit 4-Bit betreibt, kann mit cyankiwi AWQ INT4 die Qualitätsverluste gegenüber BF16 gegenüber Standard-AWQ, GPTQ und BNB NF4 deutlich reduzieren — die Gewichte sind bereits auf HuggingFace verfügbar.

— Lumeric Redaktion

Das cyankiwi-Projekt stellt ein Update seiner AWQ-4-Bit-Quantisierungsmethode vor, das einen grundlegenden Schwachpunkt des Standard-AWQ-Verfahrens adressiert: Dort werden per-Channel-Scales und Quantisierungsbereiche sequenziell gewählt, obwohl beide voneinander abhängen. Cyankiwi AWQ 26.05 optimiert beide Parameter stattdessen gemeinsam gegen eine Rekonstruktions-Verlustfunktion. Als Eval-Metrik dient die KL-Divergenz gegenüber dem BF16-Baseline-Modell auf GPQA-Diamond-Antworten — je niedriger, desto qualitätstreuer die Quantisierung. Auf Llama-3.2-3B-Instruct erreicht cyankiwi AWQ einen KLD-Wert von 0,00510 gegenüber 0,02437 für das Standard-AWQ-Modell von casperhansen. Beim Llama-3.1-8B-Instruct liegt cyankiwi bei 0,00478, klar vor RedHatAI GPTQ (0,00729) und unsloth BNB NF4 (0,00769). Am deutlichsten ist der Vorsprung beim 70B-Modell: Llama-3.3-70B-Instruct erreicht 0,02826 gegenüber 0,09272 für RedHatAI GPTQ und 0,08307 für nvidia NVFP4. Die quantisierten Modelle werden unter dem HuggingFace-Profil „cyankiwi" bereitgestellt und sind direkt einsetzbar.

Quelle lesenreddit.com

KL-Divergenz vs. BF16 (GPQA Diamond, Llama-3.1-8B-Instruct) · Spitzenwert

0.00478%

cyankiwi AWQ INT4

Open Source Inferenz Infra Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

BENCHMARK

reddit.com· r/LocalLLaMA1mo

Cyankiwi AWQ INT4: Geringste KL-Divergenz bei Llama-3-Quantisierung

ToolsNVIDIA Hardware Llama Hugging Face

CompaniesHugging Face NVIDIA Meta AI

Warum es zählt

Wer Llama-3-Modelle lokal mit 4-Bit betreibt, kann mit cyankiwi AWQ INT4 die Qualitätsverluste gegenüber BF16 gegenüber Standard-AWQ, GPTQ und BNB NF4 deutlich reduzieren — die Gewichte sind bereits auf HuggingFace verfügbar.

— Lumeric Redaktion

Das cyankiwi-Projekt stellt ein Update seiner AWQ-4-Bit-Quantisierungsmethode vor, das einen grundlegenden Schwachpunkt des Standard-AWQ-Verfahrens adressiert: Dort werden per-Channel-Scales und Quantisierungsbereiche sequenziell gewählt, obwohl beide voneinander abhängen. Cyankiwi AWQ 26.05 optimiert beide Parameter stattdessen gemeinsam gegen eine Rekonstruktions-Verlustfunktion. Als Eval-Metrik dient die KL-Divergenz gegenüber dem BF16-Baseline-Modell auf GPQA-Diamond-Antworten — je niedriger, desto qualitätstreuer die Quantisierung. Auf Llama-3.2-3B-Instruct erreicht cyankiwi AWQ einen KLD-Wert von 0,00510 gegenüber 0,02437 für das Standard-AWQ-Modell von casperhansen. Beim Llama-3.1-8B-Instruct liegt cyankiwi bei 0,00478, klar vor RedHatAI GPTQ (0,00729) und unsloth BNB NF4 (0,00769). Am deutlichsten ist der Vorsprung beim 70B-Modell: Llama-3.3-70B-Instruct erreicht 0,02826 gegenüber 0,09272 für RedHatAI GPTQ und 0,08307 für nvidia NVFP4. Die quantisierten Modelle werden unter dem HuggingFace-Profil „cyankiwi" bereitgestellt und sind direkt einsetzbar.

KL-Divergenz vs. BF16 (GPQA Diamond, Llama-3.1-8B-Instruct) · Spitzenwert

0.00478%

cyankiwi AWQ INT4

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge