Gemma4 26B A4B: Apex-Quant liefert 38 t/s bei 90.000 Token Kontext
Der Reddit-Nutzer Any-Chipmunk5480 hat das von mudler erstellte APEX-GGUF-Quant für Gemma4 26B A4B (Modell: mudler/gemma-4-26B-A4B-it-APEX-GGUF, Variante APEX-I-Compact, 15 GB) auf einer AMD RX 9060 XT mit 16 GB VRAM getestet – unter Verwendung von llama.cpp mit Vulkan-Backend. Das Ergebnis: 38 Tokens pro Sekunde bei einem Kontext von 90.000 Token, ohne Looping-Probleme und ohne wahrnehmbare Qualitätsdegradation. Zum Vergleich zog er das Unsloth UD-Q5KXL-Quant desselben Modells heran (21,2 GB), das bei einem ähnlichen Long-Context-Test bei 50.000 Token in Endlosschleifen verfiel. Der Autor betont ausdrücklich, dass er keinen universellen Qualitätsanspruch stellt, sondern lediglich einen Erfahrungsbericht teilt. Dennoch ist der Befund praxisrelevant: Das kleinere Apex-Quant passt knapp in 16 GB VRAM und erlaubt deutlich längere Kontextfenster ohne Stabilitätsprobleme – ein häufiges Nadelöhr bei lokalen LLM-Setups.
- Modell: mudler/gemma-4-26B-A4B-it-APEX-GGUF, Variante APEX-I-Compact (15 GB)
- Hardware: AMD RX 9060 XT mit 16 GB VRAM, Inference via llama.cpp Vulkan
- Apex-Quant: 38 t/s bei 90.000 Token, kein Looping, kein Qualitätsverlust
- Vergleich Unsloth UD-Q5KXL (21,2 GB): Looping bereits bei 50.000 Token Kontext
- Kein offizieller Benchmark – subjektiver Erfahrungsbericht eines Community-Nutzers
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Gemma4 26B A4B: Apex-Quant liefert 38 t/s bei 90.000 Token Kontext
Der Reddit-Nutzer Any-Chipmunk5480 hat das von mudler erstellte APEX-GGUF-Quant für Gemma4 26B A4B (Modell: mudler/gemma-4-26B-A4B-it-APEX-GGUF, Variante APEX-I-Compact, 15 GB) auf einer AMD RX 9060 XT mit 16 GB VRAM getestet – unter Verwendung von llama.cpp mit Vulkan-Backend. Das Ergebnis: 38 Tokens pro Sekunde bei einem Kontext von 90.000 Token, ohne Looping-Probleme und ohne wahrnehmbare Qualitätsdegradation. Zum Vergleich zog er das Unsloth UD-Q5KXL-Quant desselben Modells heran (21,2 GB), das bei einem ähnlichen Long-Context-Test bei 50.000 Token in Endlosschleifen verfiel. Der Autor betont ausdrücklich, dass er keinen universellen Qualitätsanspruch stellt, sondern lediglich einen Erfahrungsbericht teilt. Dennoch ist der Befund praxisrelevant: Das kleinere Apex-Quant passt knapp in 16 GB VRAM und erlaubt deutlich längere Kontextfenster ohne Stabilitätsprobleme – ein häufiges Nadelöhr bei lokalen LLM-Setups.
- Modell: mudler/gemma-4-26B-A4B-it-APEX-GGUF, Variante APEX-I-Compact (15 GB)
- Hardware: AMD RX 9060 XT mit 16 GB VRAM, Inference via llama.cpp Vulkan
- Apex-Quant: 38 t/s bei 90.000 Token, kein Looping, kein Qualitätsverlust
- Vergleich Unsloth UD-Q5KXL (21,2 GB): Looping bereits bei 50.000 Token Kontext
- Kein offizieller Benchmark – subjektiver Erfahrungsbericht eines Community-Nutzers
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.