Battle-Royale-Experiment: Grok 4.1 Fast schlägt Claude und GPT-5.4 in 30 Matches

ToolsClaude GPT Grok DeepSeek OpenRouter

Warum es zählt

Standard-Benchmarks sagen Agentenverhalten in kompetitiven, multi-step-Szenarien schlecht voraus: GPT 5.4 erzielte die meisten Kills, gewann aber nur 2 Spiele. Alignment-Verhalten (Kooperation, Truce-Anfragen bei Claude) ist in Zero-Sum-Tasks ein Nachteil – relevant für die Modellwahl bei autonomen Agenten in kompetitiven Umgebungen.

— Lumeric Redaktion

Quelle lesenopenrouter.ai

Battle Royale – Wins aus 30 Spielen · Spitzenwert

43%

Grok 4.1 Fast

Agents Evals Benchmarks Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Battle-Royale-Experiment: Grok 4.1 Fast schlägt Claude und GPT-5.4 in 30 Matches

ToolsClaude GPT Grok DeepSeek OpenRouter

CompaniesAnthropic xAI DeepSeek

Warum es zählt

— Lumeric Redaktion

Battle Royale – Wins aus 30 Spielen · Spitzenwert

43%

Grok 4.1 Fast

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Battle-Royale-Experiment: Grok 4.1 Fast schlägt Claude und GPT-5.4 in 30 Matches

Frag die KI zum Artikel

Verwandte Beiträge

Battle-Royale-Experiment: Grok 4.1 Fast schlägt Claude und GPT-5.4 in 30 Matches

Frag die KI zum Artikel

Verwandte Beiträge