Experimentelles Jinja-Template stabilisiert Thinking-Tags für Gemma4 31B in llama.cpp
Der Reddit-Nutzer /u/ggonavyy hat ein experimentelles Jinja-Chat-Template für Gemma4 31B (Instruction-Tuned, nvfp4-GGUF) veröffentlicht, das auf HuggingFace als `gemma4-improved.jinja` verfügbar ist. Das Template adressiert bekannte Stabilitätsprobleme beim Umgang mit `<thinking>`-Tags in llama.cpp: In der Praxis trat beim Modell häufig auf, dass Tags nicht geöffnet, nicht geschlossen oder zu früh geschlossen wurden – besonders in Multi-Turn-Szenarien mit Tool-Calls. Der Autor gibt an, das Template in seinem eigenen Projekt „Pi-coding-agent" getestet zu haben und dort keine dieser Fehler mehr zu beobachten. Ausdrücklich wird darauf hingewiesen, dass das Template nicht von Google empfohlen oder offiziell unterstützt wird und als experimentell gilt. Community-Feedback ist explizit erwünscht.
- Template verfügbar unter: huggingface.co/stevelikesrhino/gemma-4-31B-it-nvfp4-GGUF als gemma4-improved.jinja
- Behebt Fehler: vergessene/nicht geschlossene Thinking-Tags bei Multi-Turn-Tool-Calls in llama.cpp
- Getestet im Projekt Pi-coding-agent des Autors /u/ggonavyy
- Ausdrücklich NICHT von Google empfohlen — Community-Experiment
- Zielt auf das Modell Gemma4 31B IT im nvfp4-GGUF-Format ab
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com2w
Gemma4 vs. Qwen3: Community-Erfahrungen bei lokalem LLM-Einsatz
- LAUNCHreddit.com3w
Gemma 4 31B-it-DFlash-Quantisierung auf Hugging Face veröffentlicht
- FORSCHUNGreddit.com1w
WIP: Gemma 4 erhält Multi-Token-Prediction-Unterstützung
- MEINUNGreddit.com1w
Gemma 4 31B mit MTP in llama.cpp: Nutzer suchen Workaround für getrennte GGUF-Dateien
Experimentelles Jinja-Template stabilisiert Thinking-Tags für Gemma4 31B in llama.cpp
Der Reddit-Nutzer /u/ggonavyy hat ein experimentelles Jinja-Chat-Template für Gemma4 31B (Instruction-Tuned, nvfp4-GGUF) veröffentlicht, das auf HuggingFace als `gemma4-improved.jinja` verfügbar ist. Das Template adressiert bekannte Stabilitätsprobleme beim Umgang mit `<thinking>`-Tags in llama.cpp: In der Praxis trat beim Modell häufig auf, dass Tags nicht geöffnet, nicht geschlossen oder zu früh geschlossen wurden – besonders in Multi-Turn-Szenarien mit Tool-Calls. Der Autor gibt an, das Template in seinem eigenen Projekt „Pi-coding-agent" getestet zu haben und dort keine dieser Fehler mehr zu beobachten. Ausdrücklich wird darauf hingewiesen, dass das Template nicht von Google empfohlen oder offiziell unterstützt wird und als experimentell gilt. Community-Feedback ist explizit erwünscht.
- Template verfügbar unter: huggingface.co/stevelikesrhino/gemma-4-31B-it-nvfp4-GGUF als gemma4-improved.jinja
- Behebt Fehler: vergessene/nicht geschlossene Thinking-Tags bei Multi-Turn-Tool-Calls in llama.cpp
- Getestet im Projekt Pi-coding-agent des Autors /u/ggonavyy
- Ausdrücklich NICHT von Google empfohlen — Community-Experiment
- Zielt auf das Modell Gemma4 31B IT im nvfp4-GGUF-Format ab
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com2w
Gemma4 vs. Qwen3: Community-Erfahrungen bei lokalem LLM-Einsatz
- LAUNCHreddit.com3w
Gemma 4 31B-it-DFlash-Quantisierung auf Hugging Face veröffentlicht
- FORSCHUNGreddit.com1w
WIP: Gemma 4 erhält Multi-Token-Prediction-Unterstützung
- MEINUNGreddit.com1w
Gemma 4 31B mit MTP in llama.cpp: Nutzer suchen Workaround für getrennte GGUF-Dateien