ARC-AGI-3: GPT-5.5 und Opus 4.7 scheitern unter 1 % an drei systematischen Denkfehlern

Warum es zählt

Beide Frontier-Modelle versagen systematisch an Aufgaben, die keine Domänenkenntnisse erfordern – das zeigt konkrete Grenzen aktueller Reasoning-Architekturen auf und gibt Forschern gezielte Ansatzpunkte für Post-Training und Eval-Design.

— Lumeric Redaktion

Die ARC Prize Foundation hat 160 Spielrunden der aktuellen Frontier-Modelle GPT-5.5 (OpenAI) und Opus 4.7 (Anthropic) auf dem neuen ARC-AGI-3-Benchmark ausgewertet. Das Ergebnis ist ernüchternd: Beide Modelle lösen weniger als 1 % der Aufgaben – während Menschen diese ohne besondere Vorkenntnisse weitgehend problemlos bewältigen. Die Analyse identifiziert drei wiederkehrende systematische Fehlertypen, die das Scheitern erklären. ARC-AGI-3 gilt als besonders anspruchsvoller Test für allgemeine Schlussfolgerfähigkeit, da er explizit darauf ausgelegt ist, Modelle zu prüfen, die durch Memorisierung und Mustererkennung auf bekannten Trainingsdaten nicht bestehen können. Die Ergebnisse deuten darauf hin, dass aktuelle Large Language Models trotz enormer Parameterzahl und aufwendigem Post-Training fundamentale Schwächen bei der flexiblen, regelbasierten Induktion neuer Konzepte zeigen – eine Kernfähigkeit menschlicher Kognition. Die Studie liefert damit gezielte Hinweise, wo Reasoning-Architekturen und Trainingsverfahren verbessert werden müssen.

Was wir noch wissen

ARC Prize Foundation analysierte 160 Spielrunden auf ARC-AGI-3 mit GPT-5.5 und Anthropic Opus 4.7
Beide Modelle erzielen unter 1 % Lösungsrate – Menschen lösen dieselben Aufgaben ohne Vorkenntnisse
Drei systematische Fehlertypen wurden als Hauptursachen des Scheiterns identifiziert
ARC-AGI-3 ist explizit gegen Memorisierung und Mustererkennung aus Trainingsdaten abgesichert
Die Analyse liefert gezielte Ansatzpunkte für Verbesserungen in Reasoning und Post-Training

Quelle lesenthe-decoder.com

ARC-AGI-3 · Spitzenwert

GPT-5.5

Evals Benchmarks Foundation Modelle Interpretierbarkeit

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

ARC-AGI-3: GPT-5.5 und Opus 4.7 scheitern unter 1 % an drei systematischen Denkfehlern

ToolsGPT Claude

CompaniesOpenAI Anthropic

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

ARC Prize Foundation analysierte 160 Spielrunden auf ARC-AGI-3 mit GPT-5.5 und Anthropic Opus 4.7
Beide Modelle erzielen unter 1 % Lösungsrate – Menschen lösen dieselben Aufgaben ohne Vorkenntnisse
Drei systematische Fehlertypen wurden als Hauptursachen des Scheiterns identifiziert
ARC-AGI-3 ist explizit gegen Memorisierung und Mustererkennung aus Trainingsdaten abgesichert
Die Analyse liefert gezielte Ansatzpunkte für Verbesserungen in Reasoning und Post-Training

ARC-AGI-3 · Spitzenwert

GPT-5.5

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

ARC-AGI-3: GPT-5.5 und Opus 4.7 scheitern unter 1 % an drei systematischen Denkfehlern

Frag die KI zum Artikel

Verwandte Beiträge

ARC-AGI-3: GPT-5.5 und Opus 4.7 scheitern unter 1 % an drei systematischen Denkfehlern

Frag die KI zum Artikel

Verwandte Beiträge