Gemma4 26B A4B: Apex-Quant liefert 38 t/s bei 90.000 Token Kontext

CompaniesAMD

Warum es zählt

Das 15-GB-Apex-Quant ermöglicht stabilen Long-Context-Betrieb auf einer Consumer-GPU mit 16 GB VRAM, während das 21,2-GB-Unsloth-Quant bei 50k Kontext in Endlosschleifen fällt – relevant für lokale Deployments mit begrenztem VRAM.

— Lumeric Redaktion

Der Reddit-Nutzer Any-Chipmunk5480 hat das von mudler erstellte APEX-GGUF-Quant für Gemma4 26B A4B (Modell: mudler/gemma-4-26B-A4B-it-APEX-GGUF, Variante APEX-I-Compact, 15 GB) auf einer AMD RX 9060 XT mit 16 GB VRAM getestet – unter Verwendung von llama.cpp mit Vulkan-Backend. Das Ergebnis: 38 Tokens pro Sekunde bei einem Kontext von 90.000 Token, ohne Looping-Probleme und ohne wahrnehmbare Qualitätsdegradation. Zum Vergleich zog er das Unsloth UD-Q5KXL-Quant desselben Modells heran (21,2 GB), das bei einem ähnlichen Long-Context-Test bei 50.000 Token in Endlosschleifen verfiel. Der Autor betont ausdrücklich, dass er keinen universellen Qualitätsanspruch stellt, sondern lediglich einen Erfahrungsbericht teilt. Dennoch ist der Befund praxisrelevant: Das kleinere Apex-Quant passt knapp in 16 GB VRAM und erlaubt deutlich längere Kontextfenster ohne Stabilitätsprobleme – ein häufiges Nadelöhr bei lokalen LLM-Setups.

Was wir noch wissen

Modell: mudler/gemma-4-26B-A4B-it-APEX-GGUF, Variante APEX-I-Compact (15 GB)
Hardware: AMD RX 9060 XT mit 16 GB VRAM, Inference via llama.cpp Vulkan
Apex-Quant: 38 t/s bei 90.000 Token, kein Looping, kein Qualitätsverlust
Vergleich Unsloth UD-Q5KXL (21,2 GB): Looping bereits bei 50.000 Token Kontext
Kein offizieller Benchmark – subjektiver Erfahrungsbericht eines Community-Nutzers

Quelle lesenreddit.com

38 t/s

bei 90.000 Token Kontext, RX 9060 XT 16 GB

Foundation Modelle Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma4 26B A4B: Apex-Quant liefert 38 t/s bei 90.000 Token Kontext

ToolsLlama

CompaniesAMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Modell: mudler/gemma-4-26B-A4B-it-APEX-GGUF, Variante APEX-I-Compact (15 GB)
Hardware: AMD RX 9060 XT mit 16 GB VRAM, Inference via llama.cpp Vulkan
Apex-Quant: 38 t/s bei 90.000 Token, kein Looping, kein Qualitätsverlust
Vergleich Unsloth UD-Q5KXL (21,2 GB): Looping bereits bei 50.000 Token Kontext
Kein offizieller Benchmark – subjektiver Erfahrungsbericht eines Community-Nutzers

38 t/s

bei 90.000 Token Kontext, RX 9060 XT 16 GB

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma4 26B A4B: Apex-Quant liefert 38 t/s bei 90.000 Token Kontext

Frag die KI zum Artikel

Verwandte Beiträge

Gemma4 26B A4B: Apex-Quant liefert 38 t/s bei 90.000 Token Kontext

Frag die KI zum Artikel

Verwandte Beiträge