Fantasy-RP-Benchmark: Gemma-4-31B führt, Qwen3.6-27B überzeugt über seine Gewichtsklasse

Warum es zählt

Gesamtscores verschleiern starke Unterschiede auf Kategorie-Ebene – Modelle, die bei Quest-Completion gut abschneiden, versagen oft bei NPC-Gedanken oder Quest-Zusammenfassungen. Für RP/Agenten-Anwendungen sind Sub-Score-Analysen wichtiger als reine Top-Line-Metriken.

— Lumeric Redaktion

Quelle lesenreddit.com

Fantasy RP/Agentic Benchmark (r/LocalLLaMA) · Spitzenwert

87%

Gemma-4-31B

Evals Benchmarks Open Source Agents

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Fantasy-RP-Benchmark: Gemma-4-31B führt, Qwen3.6-27B überzeugt über seine Gewichtsklasse

ToolsQwen

Warum es zählt

— Lumeric Redaktion

Fantasy RP/Agentic Benchmark (r/LocalLLaMA) · Spitzenwert

87%

Gemma-4-31B

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Fantasy-RP-Benchmark: Gemma-4-31B führt, Qwen3.6-27B überzeugt über seine Gewichtsklasse

Frag die KI zum Artikel

Verwandte Beiträge

Fantasy-RP-Benchmark: Gemma-4-31B führt, Qwen3.6-27B überzeugt über seine Gewichtsklasse

Frag die KI zum Artikel

Verwandte Beiträge