
ARC-AGI-3: GPT-5.5 und Opus 4.7 scheitern unter 1 % an drei systematischen Denkfehlern
Die ARC Prize Foundation hat 160 Spielrunden der aktuellen Frontier-Modelle GPT-5.5 (OpenAI) und Opus 4.7 (Anthropic) auf dem neuen ARC-AGI-3-Benchmark ausgewertet. Das Ergebnis ist ernüchternd: Beide Modelle lösen weniger als 1 % der Aufgaben – während Menschen diese ohne besondere Vorkenntnisse weitgehend problemlos bewältigen. Die Analyse identifiziert drei wiederkehrende systematische Fehlertypen, die das Scheitern erklären. ARC-AGI-3 gilt als besonders anspruchsvoller Test für allgemeine Schlussfolgerfähigkeit, da er explizit darauf ausgelegt ist, Modelle zu prüfen, die durch Memorisierung und Mustererkennung auf bekannten Trainingsdaten nicht bestehen können. Die Ergebnisse deuten darauf hin, dass aktuelle Large Language Models trotz enormer Parameterzahl und aufwendigem Post-Training fundamentale Schwächen bei der flexiblen, regelbasierten Induktion neuer Konzepte zeigen – eine Kernfähigkeit menschlicher Kognition. Die Studie liefert damit gezielte Hinweise, wo Reasoning-Architekturen und Trainingsverfahren verbessert werden müssen.
- ARC Prize Foundation analysierte 160 Spielrunden auf ARC-AGI-3 mit GPT-5.5 und Anthropic Opus 4.7
- Beide Modelle erzielen unter 1 % Lösungsrate – Menschen lösen dieselben Aufgaben ohne Vorkenntnisse
- Drei systematische Fehlertypen wurden als Hauptursachen des Scheiterns identifiziert
- ARC-AGI-3 ist explizit gegen Memorisierung und Mustererkennung aus Trainingsdaten abgesichert
- Die Analyse liefert gezielte Ansatzpunkte für Verbesserungen in Reasoning und Post-Training
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
Strategievielfalt statt Accuracy: Neues Eval-Framework für LLM-Mathelogik
- FORSCHUNGarxiv.org3w
Multi-Perspective Transformers erreichen 21,7% auf ARC-AGI-2 Evaluationssatz
- FORSCHUNGarxiv.org3w
GR-Ben: Neuer Benchmark für Process Reward Models in Wissenschaft und Logik
- FORSCHUNGarxiv.org3w
ArXiv-Studie: Wie man AI-Reasoning richtig misst – jenseits von Final-Answer-Accuracy

ARC-AGI-3: GPT-5.5 und Opus 4.7 scheitern unter 1 % an drei systematischen Denkfehlern
Die ARC Prize Foundation hat 160 Spielrunden der aktuellen Frontier-Modelle GPT-5.5 (OpenAI) und Opus 4.7 (Anthropic) auf dem neuen ARC-AGI-3-Benchmark ausgewertet. Das Ergebnis ist ernüchternd: Beide Modelle lösen weniger als 1 % der Aufgaben – während Menschen diese ohne besondere Vorkenntnisse weitgehend problemlos bewältigen. Die Analyse identifiziert drei wiederkehrende systematische Fehlertypen, die das Scheitern erklären. ARC-AGI-3 gilt als besonders anspruchsvoller Test für allgemeine Schlussfolgerfähigkeit, da er explizit darauf ausgelegt ist, Modelle zu prüfen, die durch Memorisierung und Mustererkennung auf bekannten Trainingsdaten nicht bestehen können. Die Ergebnisse deuten darauf hin, dass aktuelle Large Language Models trotz enormer Parameterzahl und aufwendigem Post-Training fundamentale Schwächen bei der flexiblen, regelbasierten Induktion neuer Konzepte zeigen – eine Kernfähigkeit menschlicher Kognition. Die Studie liefert damit gezielte Hinweise, wo Reasoning-Architekturen und Trainingsverfahren verbessert werden müssen.
- ARC Prize Foundation analysierte 160 Spielrunden auf ARC-AGI-3 mit GPT-5.5 und Anthropic Opus 4.7
- Beide Modelle erzielen unter 1 % Lösungsrate – Menschen lösen dieselben Aufgaben ohne Vorkenntnisse
- Drei systematische Fehlertypen wurden als Hauptursachen des Scheiterns identifiziert
- ARC-AGI-3 ist explizit gegen Memorisierung und Mustererkennung aus Trainingsdaten abgesichert
- Die Analyse liefert gezielte Ansatzpunkte für Verbesserungen in Reasoning und Post-Training
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
Strategievielfalt statt Accuracy: Neues Eval-Framework für LLM-Mathelogik
- FORSCHUNGarxiv.org3w
Multi-Perspective Transformers erreichen 21,7% auf ARC-AGI-2 Evaluationssatz
- FORSCHUNGarxiv.org3w
GR-Ben: Neuer Benchmark für Process Reward Models in Wissenschaft und Logik
- FORSCHUNGarxiv.org3w
ArXiv-Studie: Wie man AI-Reasoning richtig misst – jenseits von Final-Answer-Accuracy