Gemma 4 12B Bug-Benchmark: LM Studio bricht Reasoning durch falsche Token-Config

Warum es zählt

Wer Gemma 4 12B lokal in LM Studio nutzt, muss manuell Reasoning-Tokens und Sampling-Parameter anpassen – sonst ist Thinking deaktiviert und die Modellleistung signifikant schlechter als möglich.

— Lumeric Redaktion

Der Reddit-Nutzer SummarizedAnu hat Gemma 4 12B in einem selbst entwickelten Python-Bug-Hunting-Benchmark getestet und dabei gezielt die lokale Konfiguration unter die Lupe genommen. Als Modellbasis diente das Unsloth Dynamic Q5 GGUF-Format, das für lokale Inferenz mit LM Studio optimiert ist. Das zentrale Problem: LM Studio erwartet für Reasoning-Tokens standardmäßig die Qwen-spezifischen Tags, während Gemma 4 eigene Tokens verwendet – konkret `<|channel>thought` als Start- und `<channel|>` als End-Token. Ohne manuelle Korrektur der Jinja-Vorlage bleibt das Thinking-Feature vollständig deaktiviert, was die Benchmark-Ergebnisse erheblich verfälscht. Hinzu kommt ein verbreiteter Fehler bei den Sampling-Parametern: Viele Nutzer senken die Temperatur ab, was laut dem Post die Reasoning-Qualität aktiv verschlechtert. Google empfiehlt für Gemma 4 offiziell Temperature 1.0, Top-P 0.95 und Top-K 64. Im direkten Vergleich fand Gemma 4 12B mit korrekter Konfiguration 6 von 14 Bugs, während Qwen 35B Q4 alle 14 identifizierte – ein erwartbarer Abstand angesichts des fast dreifachen Parameterunterschieds. Bemerkenswert ist, dass das 12B-Modell laut Autor besser abschnitt als ein zuvor getestetes 26B-Modell, was auf den starken Einfluss der Konfiguration hindeutet.

Was wir noch wissen

Getestetes Modell: Unsloth Dynamic Q5 GGUF von Gemma 4 12B, lokal in LM Studio ausgeführt.
Jinja-Template-Fix: Erste Zeile muss {%- set enable_thinking = true %} enthalten, sonst bleibt Thinking stumm.
Gemma 4 verwendet eigene Reasoning-Tokens (<|channel>thought / <channel|>), die LM Studio nicht automatisch erkennt.
Im Benchmark ersetzte das Modell langsame Schleifen korrekt durch einen BallTree-Algorithmus und schrieb Spatial Loops um.
Autor wertet das Ergebnis als besser als ein vorheriger 26B-Lauf – und vermutet, dass eine optimierte Jinja-Datei noch mehr herausholen könnte.

Quelle lesenreddit.com

Python Bug Hunting Benchmark · Spitzenwert

14%

Qwen 35B Q4_K_XL

Foundation Modelle Inferenz Infra Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma 4 12B Bug-Benchmark: LM Studio bricht Reasoning durch falsche Token-Config

ToolsLM Studio Qwen

CompaniesGoogle DeepMind

Warum es zählt

Wer Gemma 4 12B lokal in LM Studio nutzt, muss manuell Reasoning-Tokens und Sampling-Parameter anpassen – sonst ist Thinking deaktiviert und die Modellleistung signifikant schlechter als möglich.

— Lumeric Redaktion

Was wir noch wissen

Getestetes Modell: Unsloth Dynamic Q5 GGUF von Gemma 4 12B, lokal in LM Studio ausgeführt.
Jinja-Template-Fix: Erste Zeile muss {%- set enable_thinking = true %} enthalten, sonst bleibt Thinking stumm.
Gemma 4 verwendet eigene Reasoning-Tokens (<|channel>thought / <channel|>), die LM Studio nicht automatisch erkennt.
Im Benchmark ersetzte das Modell langsame Schleifen korrekt durch einen BallTree-Algorithmus und schrieb Spatial Loops um.
Autor wertet das Ergebnis als besser als ein vorheriger 26B-Lauf – und vermutet, dass eine optimierte Jinja-Datei noch mehr herausholen könnte.

Python Bug Hunting Benchmark · Spitzenwert

14%

Qwen 35B Q4_K_XL

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma 4 12B Bug-Benchmark: LM Studio bricht Reasoning durch falsche Token-Config

Frag die KI zum Artikel

Verwandte Beiträge

Gemma 4 12B Bug-Benchmark: LM Studio bricht Reasoning durch falsche Token-Config

Frag die KI zum Artikel

Verwandte Beiträge