SOOHAK-Benchmark: KI-Modelle scheitern daran, unlösbare Matheaufgaben zu erkennen

Warum es zählt

KI-Systeme geben bei unlösbaren Problemen selbstsicher falsche Antworten statt zuzugeben, dass keine Lösung existiert – ein kritisches Zuverlässigkeitsproblem für den Einsatz in der Forschung und im MINT-Bereich.

— Lumeric Redaktion

Ein Konsortium aus 64 Mathematikerinnen und Mathematikern hat den Benchmark SOOHAK entwickelt, um die tatsächlichen mathematischen Forschungsfähigkeiten von KI-Modellen zu messen. Der Datensatz umfasst 439 handschriftlich formulierte Aufgaben auf Forschungsniveau, von denen 99 absichtlich keine Lösung besitzen. Ziel ist es, nicht nur das Lösungsvermögen zu testen, sondern auch die Fähigkeit der Modelle, die Unlösbarkeit eines Problems zu erkennen und offen einzugestehen. Googles Gemini 3 Pro schneidet bei den research-level Aufgaben mit 30 Prozent am besten ab – keines der getesteten Modelle überschreitet jedoch die 50-Prozent-Marke beim Erkennen der absichtlich unlösbaren Aufgaben. Besonders auffällig: Mehr Rechenleistung verbessert zwar die Lösungsquote, hilft aber nicht dabei, fehlende Lösbarkeit zu erkennen. SOOHAK soll die Lücke zwischen vereinzelten Spitzenleistungen und breiteren wissenschaftlichen Fähigkeiten systematisch erfassen.

Was wir noch wissen

SOOHAK umfasst 439 handschriftliche Aufgaben auf Forschungsniveau, erstellt von 64 Mathematikern
99 der 439 Aufgaben sind absichtlich unlösbar – kein Modell erkennt dies in mehr als 50 % der Fälle
Gemini 3 Pro führt bei research-level Aufgaben mit 30 % Lösungsrate
Mehr Rechenleistung (Compute) verbessert die Lösungsquote, nicht aber die Erkennung unlösbarer Aufgaben
Benchmark zielt darauf ab, die Lücke zwischen einzelnen Glanzresultaten und breiten KI-Forschungsfähigkeiten zu quantifizieren

Quelle lesenthe-decoder.com

SOOHAK (unsolvable task detection) · Spitzenwert

50%

Bestes Modell (Erkennung unlösbarer Aufgaben)

Evals Benchmarks Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

SOOHAK-Benchmark: KI-Modelle scheitern daran, unlösbare Matheaufgaben zu erkennen

ToolsGemini

CompaniesGoogle DeepMind

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

SOOHAK umfasst 439 handschriftliche Aufgaben auf Forschungsniveau, erstellt von 64 Mathematikern
99 der 439 Aufgaben sind absichtlich unlösbar – kein Modell erkennt dies in mehr als 50 % der Fälle
Gemini 3 Pro führt bei research-level Aufgaben mit 30 % Lösungsrate
Mehr Rechenleistung (Compute) verbessert die Lösungsquote, nicht aber die Erkennung unlösbarer Aufgaben
Benchmark zielt darauf ab, die Lücke zwischen einzelnen Glanzresultaten und breiten KI-Forschungsfähigkeiten zu quantifizieren

SOOHAK (unsolvable task detection) · Spitzenwert

50%

Bestes Modell (Erkennung unlösbarer Aufgaben)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

SOOHAK-Benchmark: KI-Modelle scheitern daran, unlösbare Matheaufgaben zu erkennen

Frag die KI zum Artikel

Verwandte Beiträge

SOOHAK-Benchmark: KI-Modelle scheitern daran, unlösbare Matheaufgaben zu erkennen

Frag die KI zum Artikel

Verwandte Beiträge