MiMo-V2.5-Pro schlägt Kimi K2.6 in Social-Deduction-Benchmark
Der Reddit-Nutzer /u/cjami betreibt einen eigenen Benchmark, bei dem KI-Modelle autonom das komplexe Sozialdeduktionsspiel „Blood on the Clocktower" gegeneinander spielen – eine Art Mafia/Werewolf mit stark erweiterter Rollenvielfalt. In diesem Setting positioniert sich Xiaomis MiMo-V2.5-Pro neben Kimi K2.6 als Spitzenmodell unter den Open-Weights-Systemen. Besonders auffällig: Die Win-Rate ist asymmetrisch – 88 % im „Good Team", aber nur 48 % im „Evil Team", was auf unterschiedliche Stärken in Deduktion vs. Deception hindeutet. Im Kostenvergleich punktet MiMo-V2.5-Pro deutlich: 183.639 durchschnittliche Output-Tokens pro Spiel und $0,99/Spiel stehen Kimi K2.6s 580.000 Tokens und $2,65/Spiel gegenüber. Claude Opus 4.6 ist mit $3,76/Spiel das teuerste Modell im Feld. Auch praktisch unterscheiden sich die Modelle erheblich: MiMo-Matches dauern 2–3 Stunden, Kimi-K2.6-Partien teils 10–15 Stunden. Die Tool-Call-Fehlerrate von MiMo-V2.5-Pro liegt bei niedrigen 0,4 %. GPT-5.5 (Xhigh) und Claude Opus 4.7 (Max) wurden noch nicht getestet.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com3w
Xiaomis Mimo-v2.5 auf keiner Inference-Plattform außer eigenem Service
- LAUNCHthe-decoder.com3w
Xiaomis MiMo-V2.5-Pro: Open-Weight-Modell fordert Claude Opus 4.6 heraus
- MEINUNGreddit.com2w
Xiaomi öffnet MiMo-V2.5-Pro: 1,02T-Parameter-Modell unter MIT-Lizenz
- LAUNCHreddit.com3w
Zyphra veröffentlicht ZAYA1-8B: Reasoning-MoE mit unter 1B aktiven Parametern
MiMo-V2.5-Pro schlägt Kimi K2.6 in Social-Deduction-Benchmark
Der Reddit-Nutzer /u/cjami betreibt einen eigenen Benchmark, bei dem KI-Modelle autonom das komplexe Sozialdeduktionsspiel „Blood on the Clocktower" gegeneinander spielen – eine Art Mafia/Werewolf mit stark erweiterter Rollenvielfalt. In diesem Setting positioniert sich Xiaomis MiMo-V2.5-Pro neben Kimi K2.6 als Spitzenmodell unter den Open-Weights-Systemen. Besonders auffällig: Die Win-Rate ist asymmetrisch – 88 % im „Good Team", aber nur 48 % im „Evil Team", was auf unterschiedliche Stärken in Deduktion vs. Deception hindeutet. Im Kostenvergleich punktet MiMo-V2.5-Pro deutlich: 183.639 durchschnittliche Output-Tokens pro Spiel und $0,99/Spiel stehen Kimi K2.6s 580.000 Tokens und $2,65/Spiel gegenüber. Claude Opus 4.6 ist mit $3,76/Spiel das teuerste Modell im Feld. Auch praktisch unterscheiden sich die Modelle erheblich: MiMo-Matches dauern 2–3 Stunden, Kimi-K2.6-Partien teils 10–15 Stunden. Die Tool-Call-Fehlerrate von MiMo-V2.5-Pro liegt bei niedrigen 0,4 %. GPT-5.5 (Xhigh) und Claude Opus 4.7 (Max) wurden noch nicht getestet.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com3w
Xiaomis Mimo-v2.5 auf keiner Inference-Plattform außer eigenem Service
- LAUNCHthe-decoder.com3w
Xiaomis MiMo-V2.5-Pro: Open-Weight-Modell fordert Claude Opus 4.6 heraus
- MEINUNGreddit.com2w
Xiaomi öffnet MiMo-V2.5-Pro: 1,02T-Parameter-Modell unter MIT-Lizenz
- LAUNCHreddit.com3w
Zyphra veröffentlicht ZAYA1-8B: Reasoning-MoE mit unter 1B aktiven Parametern