Gemma 4 12B Bug-Benchmark: LM Studio bricht Reasoning durch falsche Token-Config
Der Reddit-Nutzer SummarizedAnu hat Gemma 4 12B in einem selbst entwickelten Python-Bug-Hunting-Benchmark getestet und dabei gezielt die lokale Konfiguration unter die Lupe genommen. Als Modellbasis diente das Unsloth Dynamic Q5 GGUF-Format, das für lokale Inferenz mit LM Studio optimiert ist. Das zentrale Problem: LM Studio erwartet für Reasoning-Tokens standardmäßig die Qwen-spezifischen Tags, während Gemma 4 eigene Tokens verwendet – konkret `<|channel>thought` als Start- und `<channel|>` als End-Token. Ohne manuelle Korrektur der Jinja-Vorlage bleibt das Thinking-Feature vollständig deaktiviert, was die Benchmark-Ergebnisse erheblich verfälscht. Hinzu kommt ein verbreiteter Fehler bei den Sampling-Parametern: Viele Nutzer senken die Temperatur ab, was laut dem Post die Reasoning-Qualität aktiv verschlechtert. Google empfiehlt für Gemma 4 offiziell Temperature 1.0, Top-P 0.95 und Top-K 64. Im direkten Vergleich fand Gemma 4 12B mit korrekter Konfiguration 6 von 14 Bugs, während Qwen 35B Q4 alle 14 identifizierte – ein erwartbarer Abstand angesichts des fast dreifachen Parameterunterschieds. Bemerkenswert ist, dass das 12B-Modell laut Autor besser abschnitt als ein zuvor getestetes 26B-Modell, was auf den starken Einfluss der Konfiguration hindeutet.
- Getestetes Modell: Unsloth Dynamic Q5 GGUF von Gemma 4 12B, lokal in LM Studio ausgeführt.
- Jinja-Template-Fix: Erste Zeile muss {%- set enable_thinking = true %} enthalten, sonst bleibt Thinking stumm.
- Gemma 4 verwendet eigene Reasoning-Tokens (<|channel>thought / <channel|>), die LM Studio nicht automatisch erkennt.
- Im Benchmark ersetzte das Modell langsame Schleifen korrekt durch einen BallTree-Algorithmus und schrieb Spatial Loops um.
- Autor wertet das Ergebnis als besser als ein vorheriger 26B-Lauf – und vermutet, dass eine optimierte Jinja-Datei noch mehr herausholen könnte.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Gemma 4 12B Bug-Benchmark: LM Studio bricht Reasoning durch falsche Token-Config
Der Reddit-Nutzer SummarizedAnu hat Gemma 4 12B in einem selbst entwickelten Python-Bug-Hunting-Benchmark getestet und dabei gezielt die lokale Konfiguration unter die Lupe genommen. Als Modellbasis diente das Unsloth Dynamic Q5 GGUF-Format, das für lokale Inferenz mit LM Studio optimiert ist. Das zentrale Problem: LM Studio erwartet für Reasoning-Tokens standardmäßig die Qwen-spezifischen Tags, während Gemma 4 eigene Tokens verwendet – konkret `<|channel>thought` als Start- und `<channel|>` als End-Token. Ohne manuelle Korrektur der Jinja-Vorlage bleibt das Thinking-Feature vollständig deaktiviert, was die Benchmark-Ergebnisse erheblich verfälscht. Hinzu kommt ein verbreiteter Fehler bei den Sampling-Parametern: Viele Nutzer senken die Temperatur ab, was laut dem Post die Reasoning-Qualität aktiv verschlechtert. Google empfiehlt für Gemma 4 offiziell Temperature 1.0, Top-P 0.95 und Top-K 64. Im direkten Vergleich fand Gemma 4 12B mit korrekter Konfiguration 6 von 14 Bugs, während Qwen 35B Q4 alle 14 identifizierte – ein erwartbarer Abstand angesichts des fast dreifachen Parameterunterschieds. Bemerkenswert ist, dass das 12B-Modell laut Autor besser abschnitt als ein zuvor getestetes 26B-Modell, was auf den starken Einfluss der Konfiguration hindeutet.
- Getestetes Modell: Unsloth Dynamic Q5 GGUF von Gemma 4 12B, lokal in LM Studio ausgeführt.
- Jinja-Template-Fix: Erste Zeile muss {%- set enable_thinking = true %} enthalten, sonst bleibt Thinking stumm.
- Gemma 4 verwendet eigene Reasoning-Tokens (<|channel>thought / <channel|>), die LM Studio nicht automatisch erkennt.
- Im Benchmark ersetzte das Modell langsame Schleifen korrekt durch einen BallTree-Algorithmus und schrieb Spatial Loops um.
- Autor wertet das Ergebnis als besser als ein vorheriger 26B-Lauf – und vermutet, dass eine optimierte Jinja-Datei noch mehr herausholen könnte.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.