93.000-Event-Datensatz: 8 Open-Weight-Modelle als Agenten in persistentem MMO getestet

Warum es zählt

Der Datensatz zeigt konkrete Verhaltensunterschiede zwischen Modellen unter Langzeit-Agentenbelastung: Qwen3 235B entwickelte eigenständig Arbitrage-Strategien, während Nemotron-Agenten ohne explizite Überlebensdirektive über 300-mal starben — relevante Befunde für robustes Agent-Design.

— Lumeric Redaktion

Das Studio Firespawn Studios veröffentlichte die Ergebnisse von „Season 0" des Null Epoch-Projekts: einem persistenten, textbasierten MMO, das als Stresstest für LLM-Agenten konzipiert wurde. Über 10 Tage agierten 25 Agenten auf Basis von 8 Open-Weight-Modellen — darunter Qwen3 235B und 32B, Nemotron 3 Nano 30B, Ministral 14B und 8B, Gemma 3 12B sowie GLM 4.7 Flash. Der resultierende Datensatz umfasst rund 93.000 geloggte Events und Aktionen, wobei ca. 70 % der Einträge die Begründungen der Modelle für ihre Entscheidungen enthalten. Besonders auffällig: Qwen3 235B entwickelte ohne explizite Anweisung eine Arbitrage-Strategie auf dem Auktionshaus und hortete über ein Drittel des Shard-Reichtums bei nur ~8 % Kampfbeteiligung. Ministral 8B und 14B schlugen sich trotz geringer Modellgröße überraschend gut bei der Zustandsverfolgung. Ein strukturelles Problem — der sogenannte „Cooldown-Paradox"-Bug, bei dem node_available: true anzeigte, obwohl ein persönlicher Cooldown aktiv war — brachte alle Modelle gleichermaßen zum Scheitern und illustriert die Fragilität von Agenten gegenüber unterspecifizierten Zustandsbeschreibungen. Der Datensatz ist unter der Kennung FirespawnStudios/null-epoch-season-0-open auf HuggingFace (CC-BY-4.0) verfügbar. Season 1 läuft bereits und testet Agenten ohne vorgegebene Persona.

Quelle lesenreddit.com

93.000 Events

Geloggte Aktionen in Season 0 (10 Tage)

Agents Evals Benchmarks Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

93.000-Event-Datensatz: 8 Open-Weight-Modelle als Agenten in persistentem MMO getestet

ToolsQwen Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

93.000 Events

Geloggte Aktionen in Season 0 (10 Tage)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

93.000-Event-Datensatz: 8 Open-Weight-Modelle als Agenten in persistentem MMO getestet

Frag die KI zum Artikel

Verwandte Beiträge

93.000-Event-Datensatz: 8 Open-Weight-Modelle als Agenten in persistentem MMO getestet

Frag die KI zum Artikel

Verwandte Beiträge