Fantasy-RP-Benchmark: Gemma-4-31B führt, Qwen3.6-27B überzeugt über seine Gewichtsklasse
ToolsQwen
Warum es zählt
Gesamtscores verschleiern starke Unterschiede auf Kategorie-Ebene – Modelle, die bei Quest-Completion gut abschneiden, versagen oft bei NPC-Gedanken oder Quest-Zusammenfassungen. Für RP/Agenten-Anwendungen sind Sub-Score-Analysen wichtiger als reine Top-Line-Metriken.
— Lumeric Redaktion
Fantasy RP/Agentic Benchmark (r/LocalLLaMA) · Spitzenwert
87%
Gemma-4-31B
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Fantasy-RP-Benchmark: Gemma-4-31B führt, Qwen3.6-27B überzeugt über seine Gewichtsklasse
ToolsQwen
Warum es zählt
Gesamtscores verschleiern starke Unterschiede auf Kategorie-Ebene – Modelle, die bei Quest-Completion gut abschneiden, versagen oft bei NPC-Gedanken oder Quest-Zusammenfassungen. Für RP/Agenten-Anwendungen sind Sub-Score-Analysen wichtiger als reine Top-Line-Metriken.
— Lumeric Redaktion
Fantasy RP/Agentic Benchmark (r/LocalLLaMA) · Spitzenwert
87%
Gemma-4-31B
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.