Gemma 4 2B meistert JSON-Output, Tool Calling und Reasoning lokal via LM Studio
Der Reddit-Nutzer /u/Proof-Possibility-54 hat Googles Gemma 4 2B (google/gemma-4-e2b) lokal über LM Studio betrieben und via OpenAI-kompatiblem Endpoint aus einer Spring Boot-Applikation mit Spring AIs ChatClient angesprochen. In drei Testszenarien zeigte das Modell überraschend robuste Ergebnisse: Beim strukturierten Output lieferte BeanOutputConverter ein valides CodeReview-Objekt mit korrekten Feldern – das Modell erkannte einen klassischen Java-Bug (== statt .equals() beim String-Vergleich) und schlug zusätzlich ein Streams-Refactoring vor. Der vergebene Quality Score von 50/100 war identisch mit dem Ergebnis von Claude Sonnet 4.6 auf demselben Input; GPT-4o bewertete nachsichtiger mit 55. Beim Tool Calling extrahierte das Modell autonom den Parameter „Riga" aus einer natürlichsprachlichen Anfrage und rief die registrierte Wetterfunktion korrekt auf. LM Studio lieferte zudem ein reasoning_content-Feld mit expliziten Denkschritten vor dem finalen JSON. Der Autor hält fest, dass alle Inferenzen vollständig offline liefen (WiFi-off-Test im begleitenden YouTube-Video). Offene Fragen betreffen systematische Benchmarks gegen Phi-4 und Qwen 2.5 3B sowie Latenz-p99-Werte unter echten Produktionslasten.
- Modell: google/gemma-4-e2b, 2B Parameter, läuft vollständig lokal in LM Studio
- Spring AI BeanOutputConverter erzwingt schema-konformes JSON ohne Markdown-Wrapping
- Quality Score 50/100 – identisch mit Claude Sonnet 4.6, strenger als GPT-4o (55/100)
- Tool Calling: Modell extrahiert 'Riga' als Location-Parameter und ruft Wetterfunktion selbstständig auf
- LM Studio liefert reasoning_content-Feld mit explizitem Step-by-Step-Thinking vor dem JSON-Output
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Gemma 4 2B meistert JSON-Output, Tool Calling und Reasoning lokal via LM Studio
Der Reddit-Nutzer /u/Proof-Possibility-54 hat Googles Gemma 4 2B (google/gemma-4-e2b) lokal über LM Studio betrieben und via OpenAI-kompatiblem Endpoint aus einer Spring Boot-Applikation mit Spring AIs ChatClient angesprochen. In drei Testszenarien zeigte das Modell überraschend robuste Ergebnisse: Beim strukturierten Output lieferte BeanOutputConverter ein valides CodeReview-Objekt mit korrekten Feldern – das Modell erkannte einen klassischen Java-Bug (== statt .equals() beim String-Vergleich) und schlug zusätzlich ein Streams-Refactoring vor. Der vergebene Quality Score von 50/100 war identisch mit dem Ergebnis von Claude Sonnet 4.6 auf demselben Input; GPT-4o bewertete nachsichtiger mit 55. Beim Tool Calling extrahierte das Modell autonom den Parameter „Riga" aus einer natürlichsprachlichen Anfrage und rief die registrierte Wetterfunktion korrekt auf. LM Studio lieferte zudem ein reasoning_content-Feld mit expliziten Denkschritten vor dem finalen JSON. Der Autor hält fest, dass alle Inferenzen vollständig offline liefen (WiFi-off-Test im begleitenden YouTube-Video). Offene Fragen betreffen systematische Benchmarks gegen Phi-4 und Qwen 2.5 3B sowie Latenz-p99-Werte unter echten Produktionslasten.
- Modell: google/gemma-4-e2b, 2B Parameter, läuft vollständig lokal in LM Studio
- Spring AI BeanOutputConverter erzwingt schema-konformes JSON ohne Markdown-Wrapping
- Quality Score 50/100 – identisch mit Claude Sonnet 4.6, strenger als GPT-4o (55/100)
- Tool Calling: Modell extrahiert 'Riga' als Location-Parameter und ruft Wetterfunktion selbstständig auf
- LM Studio liefert reasoning_content-Feld mit explizitem Step-by-Step-Thinking vor dem JSON-Output
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.