Evalatro: Open-Source-Benchmark lässt LLMs das Kartenspiel Balatro spielen
CompaniesDeepSeek
Warum es zählt
Der Benchmark testet strategisches Entscheidungsvermögen von LLMs in einer echten, komplexen Spielumgebung mit reproduzierbaren Seeds und manipulationssicherem Server-Scoring. Nützlich für alle, die LLM-Reasoning jenseits klassischer Text-Evals evaluieren wollen.
— Lumeric Redaktion
Evalatro (Ante reached) · Spitzenwert
5%
mimo-v2.5-pro
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Evalatro: Open-Source-Benchmark lässt LLMs das Kartenspiel Balatro spielen
CompaniesDeepSeek
Warum es zählt
Der Benchmark testet strategisches Entscheidungsvermögen von LLMs in einer echten, komplexen Spielumgebung mit reproduzierbaren Seeds und manipulationssicherem Server-Scoring. Nützlich für alle, die LLM-Reasoning jenseits klassischer Text-Evals evaluieren wollen.
— Lumeric Redaktion
Evalatro (Ante reached) · Spitzenwert
5%
mimo-v2.5-pro
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.