93.000-Event-Datensatz: 8 Open-Weight-Modelle als Agenten in persistentem MMO getestet
Das Studio Firespawn Studios veröffentlichte die Ergebnisse von „Season 0" des Null Epoch-Projekts: einem persistenten, textbasierten MMO, das als Stresstest für LLM-Agenten konzipiert wurde. Über 10 Tage agierten 25 Agenten auf Basis von 8 Open-Weight-Modellen — darunter Qwen3 235B und 32B, Nemotron 3 Nano 30B, Ministral 14B und 8B, Gemma 3 12B sowie GLM 4.7 Flash. Der resultierende Datensatz umfasst rund 93.000 geloggte Events und Aktionen, wobei ca. 70 % der Einträge die Begründungen der Modelle für ihre Entscheidungen enthalten. Besonders auffällig: Qwen3 235B entwickelte ohne explizite Anweisung eine Arbitrage-Strategie auf dem Auktionshaus und hortete über ein Drittel des Shard-Reichtums bei nur ~8 % Kampfbeteiligung. Ministral 8B und 14B schlugen sich trotz geringer Modellgröße überraschend gut bei der Zustandsverfolgung. Ein strukturelles Problem — der sogenannte „Cooldown-Paradox"-Bug, bei dem node_available: true anzeigte, obwohl ein persönlicher Cooldown aktiv war — brachte alle Modelle gleichermaßen zum Scheitern und illustriert die Fragilität von Agenten gegenüber unterspecifizierten Zustandsbeschreibungen. Der Datensatz ist unter der Kennung FirespawnStudios/null-epoch-season-0-open auf HuggingFace (CC-BY-4.0) verfügbar. Season 1 läuft bereits und testet Agenten ohne vorgegebene Persona.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
93.000-Event-Datensatz: 8 Open-Weight-Modelle als Agenten in persistentem MMO getestet
Das Studio Firespawn Studios veröffentlichte die Ergebnisse von „Season 0" des Null Epoch-Projekts: einem persistenten, textbasierten MMO, das als Stresstest für LLM-Agenten konzipiert wurde. Über 10 Tage agierten 25 Agenten auf Basis von 8 Open-Weight-Modellen — darunter Qwen3 235B und 32B, Nemotron 3 Nano 30B, Ministral 14B und 8B, Gemma 3 12B sowie GLM 4.7 Flash. Der resultierende Datensatz umfasst rund 93.000 geloggte Events und Aktionen, wobei ca. 70 % der Einträge die Begründungen der Modelle für ihre Entscheidungen enthalten. Besonders auffällig: Qwen3 235B entwickelte ohne explizite Anweisung eine Arbitrage-Strategie auf dem Auktionshaus und hortete über ein Drittel des Shard-Reichtums bei nur ~8 % Kampfbeteiligung. Ministral 8B und 14B schlugen sich trotz geringer Modellgröße überraschend gut bei der Zustandsverfolgung. Ein strukturelles Problem — der sogenannte „Cooldown-Paradox"-Bug, bei dem node_available: true anzeigte, obwohl ein persönlicher Cooldown aktiv war — brachte alle Modelle gleichermaßen zum Scheitern und illustriert die Fragilität von Agenten gegenüber unterspecifizierten Zustandsbeschreibungen. Der Datensatz ist unter der Kennung FirespawnStudios/null-epoch-season-0-open auf HuggingFace (CC-BY-4.0) verfügbar. Season 1 läuft bereits und testet Agenten ohne vorgegebene Persona.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.