Kein Frontier-Modell knackt 40 % auf ARC-AGI-2

Chollets aktualisierter Benchmark hält stand. Top-Einreichung (Ensemble aus o4 + eigener Program-Synthesis) erreicht 37,8 %. Preisgeld unbeansprucht.

ARC-AGI-2 · Spitzenwert

37.8%

o4 + Synth

Warum es zählt

ARC-AGI-2 bleibt der ehrlichste Benchmark für echte Novelty. Dass die Lücke bestehen bleibt, ist ein Indiz: Fluides Reasoning wird durch Scale allein nicht gelöst.

— Lumeric Redaktion

BenchmarksReasoning

Lumeric AI fragen

QUELLEN-GESTÜTZT