Kein Frontier-Modell knackt 40 % auf ARC-AGI-2
Chollets aktualisierter Benchmark hält stand. Top-Einreichung (Ensemble aus o4 + eigener Program-Synthesis) erreicht 37,8 %. Preisgeld unbeansprucht.
ARC-AGI-2 · Spitzenwert
37.8%
o4 + Synth
Warum es zählt
ARC-AGI-2 bleibt der ehrlichste Benchmark für echte Novelty. Dass die Lücke bestehen bleibt, ist ein Indiz: Fluides Reasoning wird durch Scale allein nicht gelöst.
— Lumeric Redaktion
BenchmarksReasoning
Lumeric AI fragen
QUELLEN-GESTÜTZT