MiMo-V2.5-Pro schlägt Kimi K2.6 in Social-Deduction-Benchmark

Warum es zählt

MiMo-V2.5-Pro kostet mit $0,99/Spiel weniger als halb so viel wie Kimi K2.6 ($2,65) und Claude Opus 4.6 ($3,76) bei vergleichbarer Spitzenleistung – ein relevantes Kosten-Leistungs-Signal für den Einsatz in agentenbasierten, mehrstufigen Reasoning-Tasks.

— Lumeric Redaktion

Der Reddit-Nutzer /u/cjami betreibt einen eigenen Benchmark, bei dem KI-Modelle autonom das komplexe Sozialdeduktionsspiel „Blood on the Clocktower" gegeneinander spielen – eine Art Mafia/Werewolf mit stark erweiterter Rollenvielfalt. In diesem Setting positioniert sich Xiaomis MiMo-V2.5-Pro neben Kimi K2.6 als Spitzenmodell unter den Open-Weights-Systemen. Besonders auffällig: Die Win-Rate ist asymmetrisch – 88 % im „Good Team", aber nur 48 % im „Evil Team", was auf unterschiedliche Stärken in Deduktion vs. Deception hindeutet. Im Kostenvergleich punktet MiMo-V2.5-Pro deutlich: 183.639 durchschnittliche Output-Tokens pro Spiel und $0,99/Spiel stehen Kimi K2.6s 580.000 Tokens und $2,65/Spiel gegenüber. Claude Opus 4.6 ist mit $3,76/Spiel das teuerste Modell im Feld. Auch praktisch unterscheiden sich die Modelle erheblich: MiMo-Matches dauern 2–3 Stunden, Kimi-K2.6-Partien teils 10–15 Stunden. Die Tool-Call-Fehlerrate von MiMo-V2.5-Pro liegt bei niedrigen 0,4 %. GPT-5.5 (Xhigh) und Claude Opus 4.7 (Max) wurden noch nicht getestet.

Quelle lesenreddit.com

Blood on the Clocktower (Autonomous Agent Benchmark) · Spitzenwert

88%

MiMo-V2.5-Pro (Good)

Foundation Modelle Evals Benchmarks Agents

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MiMo-V2.5-Pro schlägt Kimi K2.6 in Social-Deduction-Benchmark

ToolsGPT Claude Gemini

Warum es zählt

— Lumeric Redaktion

Blood on the Clocktower (Autonomous Agent Benchmark) · Spitzenwert

88%

MiMo-V2.5-Pro (Good)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MiMo-V2.5-Pro schlägt Kimi K2.6 in Social-Deduction-Benchmark

Frag die KI zum Artikel

Verwandte Beiträge

MiMo-V2.5-Pro schlägt Kimi K2.6 in Social-Deduction-Benchmark

Frag die KI zum Artikel

Verwandte Beiträge