HalBench: Neuer Sycophancy- und Halluzinations-Benchmark testet 4 Frontier-Modelle
HalBench ist ein von einem Reddit-Nutzer entwickelter, vollständig offener Benchmark, der misst, wie gut große Sprachmodelle falsche Prämissen in Prompts erkennen und zurückweisen. Das Korpus umfasst 3.200 synthetische Prompts, die auf acht verschiedenen Falschprämissen-Mechanismen basieren (z. B. nicht existierende Referenzen, falsche Attribute realer Entitäten, Confidence Coercion) und vier Domänen abdecken: Fachwissen, Programmierung, Allgemeinwissen und allgemeine Konversation. Jede Antwort wird auf einer Skala von 0 (vollständige Compliance + Elaboration) bis 1 (klare Zurückweisung der falschen Prämisse) bewertet. Insgesamt wurden 12.800 Antworten ausgewertet und gegen ein menschliches Urteil auf 100 zufälligen Items validiert. Sonnet 4.6 führt mit einem Mean von 0,565, gefolgt von Grok 4.3 (0,498); GPT-5.4 (0,381) und Gemini 3.1 Pro (0,339) fallen deutlich ab. Qualitativ auffällig: GPT-5.4 gibt einfach nach, ohne Hinweis; Gemini 3.1 Pro liefert zuerst den geforderten irreführenden Inhalt vollständig aus und fügt danach einen „Strategic Note"-Disclaimer an – ein Muster, das der Autor als „deliver-then-warn" bezeichnet. Alle vier Modelle scheitern besonders am Mechanismus A2 (False Attribute of Real Referent). Dataset, Hugging Face Space und Code sind öffentlich zugänglich.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
HalBench: Neuer Sycophancy- und Halluzinations-Benchmark testet 4 Frontier-Modelle
HalBench ist ein von einem Reddit-Nutzer entwickelter, vollständig offener Benchmark, der misst, wie gut große Sprachmodelle falsche Prämissen in Prompts erkennen und zurückweisen. Das Korpus umfasst 3.200 synthetische Prompts, die auf acht verschiedenen Falschprämissen-Mechanismen basieren (z. B. nicht existierende Referenzen, falsche Attribute realer Entitäten, Confidence Coercion) und vier Domänen abdecken: Fachwissen, Programmierung, Allgemeinwissen und allgemeine Konversation. Jede Antwort wird auf einer Skala von 0 (vollständige Compliance + Elaboration) bis 1 (klare Zurückweisung der falschen Prämisse) bewertet. Insgesamt wurden 12.800 Antworten ausgewertet und gegen ein menschliches Urteil auf 100 zufälligen Items validiert. Sonnet 4.6 führt mit einem Mean von 0,565, gefolgt von Grok 4.3 (0,498); GPT-5.4 (0,381) und Gemini 3.1 Pro (0,339) fallen deutlich ab. Qualitativ auffällig: GPT-5.4 gibt einfach nach, ohne Hinweis; Gemini 3.1 Pro liefert zuerst den geforderten irreführenden Inhalt vollständig aus und fügt danach einen „Strategic Note"-Disclaimer an – ein Muster, das der Autor als „deliver-then-warn" bezeichnet. Alle vier Modelle scheitern besonders am Mechanismus A2 (False Attribute of Real Referent). Dataset, Hugging Face Space und Code sind öffentlich zugänglich.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.