
SOOHAK-Benchmark: KI-Modelle scheitern daran, unlösbare Matheaufgaben zu erkennen
Ein Konsortium aus 64 Mathematikerinnen und Mathematikern hat den Benchmark SOOHAK entwickelt, um die tatsächlichen mathematischen Forschungsfähigkeiten von KI-Modellen zu messen. Der Datensatz umfasst 439 handschriftlich formulierte Aufgaben auf Forschungsniveau, von denen 99 absichtlich keine Lösung besitzen. Ziel ist es, nicht nur das Lösungsvermögen zu testen, sondern auch die Fähigkeit der Modelle, die Unlösbarkeit eines Problems zu erkennen und offen einzugestehen. Googles Gemini 3 Pro schneidet bei den research-level Aufgaben mit 30 Prozent am besten ab – keines der getesteten Modelle überschreitet jedoch die 50-Prozent-Marke beim Erkennen der absichtlich unlösbaren Aufgaben. Besonders auffällig: Mehr Rechenleistung verbessert zwar die Lösungsquote, hilft aber nicht dabei, fehlende Lösbarkeit zu erkennen. SOOHAK soll die Lücke zwischen vereinzelten Spitzenleistungen und breiteren wissenschaftlichen Fähigkeiten systematisch erfassen.
- SOOHAK umfasst 439 handschriftliche Aufgaben auf Forschungsniveau, erstellt von 64 Mathematikern
- 99 der 439 Aufgaben sind absichtlich unlösbar – kein Modell erkennt dies in mehr als 50 % der Fälle
- Gemini 3 Pro führt bei research-level Aufgaben mit 30 % Lösungsrate
- Mehr Rechenleistung (Compute) verbessert die Lösungsquote, nicht aber die Erkennung unlösbarer Aufgaben
- Benchmark zielt darauf ab, die Lücke zwischen einzelnen Glanzresultaten und breiten KI-Forschungsfähigkeiten zu quantifizieren
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGhuggingface.co2w
Soohak: Mathematiker-kuratierter Benchmark mit 439 Aufgaben testet LLMs auf Forschungsniveau
- MEINUNGgradientflow.com0mo
Was Mathematiker über KI herausfanden, das Unternehmen noch nicht verstehen
- FORSCHUNGarxiv.org2w
SciIntegrity-Bench: Neuer Benchmark deckt Integritätsprobleme bei KI-Forschungssystemen auf
- FORSCHUNGarxiv.org2w
Formal Conjectures: Lean-4-Benchmark mit 2615 Mathe-Problemen für automatisiertes Beweisen

SOOHAK-Benchmark: KI-Modelle scheitern daran, unlösbare Matheaufgaben zu erkennen
Ein Konsortium aus 64 Mathematikerinnen und Mathematikern hat den Benchmark SOOHAK entwickelt, um die tatsächlichen mathematischen Forschungsfähigkeiten von KI-Modellen zu messen. Der Datensatz umfasst 439 handschriftlich formulierte Aufgaben auf Forschungsniveau, von denen 99 absichtlich keine Lösung besitzen. Ziel ist es, nicht nur das Lösungsvermögen zu testen, sondern auch die Fähigkeit der Modelle, die Unlösbarkeit eines Problems zu erkennen und offen einzugestehen. Googles Gemini 3 Pro schneidet bei den research-level Aufgaben mit 30 Prozent am besten ab – keines der getesteten Modelle überschreitet jedoch die 50-Prozent-Marke beim Erkennen der absichtlich unlösbaren Aufgaben. Besonders auffällig: Mehr Rechenleistung verbessert zwar die Lösungsquote, hilft aber nicht dabei, fehlende Lösbarkeit zu erkennen. SOOHAK soll die Lücke zwischen vereinzelten Spitzenleistungen und breiteren wissenschaftlichen Fähigkeiten systematisch erfassen.
- SOOHAK umfasst 439 handschriftliche Aufgaben auf Forschungsniveau, erstellt von 64 Mathematikern
- 99 der 439 Aufgaben sind absichtlich unlösbar – kein Modell erkennt dies in mehr als 50 % der Fälle
- Gemini 3 Pro führt bei research-level Aufgaben mit 30 % Lösungsrate
- Mehr Rechenleistung (Compute) verbessert die Lösungsquote, nicht aber die Erkennung unlösbarer Aufgaben
- Benchmark zielt darauf ab, die Lücke zwischen einzelnen Glanzresultaten und breiten KI-Forschungsfähigkeiten zu quantifizieren
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGhuggingface.co2w
Soohak: Mathematiker-kuratierter Benchmark mit 439 Aufgaben testet LLMs auf Forschungsniveau
- MEINUNGgradientflow.com0mo
Was Mathematiker über KI herausfanden, das Unternehmen noch nicht verstehen
- FORSCHUNGarxiv.org2w
SciIntegrity-Bench: Neuer Benchmark deckt Integritätsprobleme bei KI-Forschungssystemen auf
- FORSCHUNGarxiv.org2w
Formal Conjectures: Lean-4-Benchmark mit 2615 Mathe-Problemen für automatisiertes Beweisen