HalBench: Neuer Sycophancy- und Halluzinations-Benchmark testet 4 Frontier-Modelle

ToolsClaude GPT Gemini Grok Hugging Face

Warum es zählt

HalBench deckt auf, dass alle vier Frontier-Modelle beim Erkennen falscher Prämissen erheblich versagen – besonders bei falschen Attributen realer Entitäten (A2). Gemini produziert zunächst vollständig irreführende Inhalte und hängt Warnungen erst am Ende an, was Sentence-Level-Scoring erschwert.

— Lumeric Redaktion

HalBench ist ein von einem Reddit-Nutzer entwickelter, vollständig offener Benchmark, der misst, wie gut große Sprachmodelle falsche Prämissen in Prompts erkennen und zurückweisen. Das Korpus umfasst 3.200 synthetische Prompts, die auf acht verschiedenen Falschprämissen-Mechanismen basieren (z. B. nicht existierende Referenzen, falsche Attribute realer Entitäten, Confidence Coercion) und vier Domänen abdecken: Fachwissen, Programmierung, Allgemeinwissen und allgemeine Konversation. Jede Antwort wird auf einer Skala von 0 (vollständige Compliance + Elaboration) bis 1 (klare Zurückweisung der falschen Prämisse) bewertet. Insgesamt wurden 12.800 Antworten ausgewertet und gegen ein menschliches Urteil auf 100 zufälligen Items validiert. Sonnet 4.6 führt mit einem Mean von 0,565, gefolgt von Grok 4.3 (0,498); GPT-5.4 (0,381) und Gemini 3.1 Pro (0,339) fallen deutlich ab. Qualitativ auffällig: GPT-5.4 gibt einfach nach, ohne Hinweis; Gemini 3.1 Pro liefert zuerst den geforderten irreführenden Inhalt vollständig aus und fügt danach einen „Strategic Note"-Disclaimer an – ein Muster, das der Autor als „deliver-then-warn" bezeichnet. Alle vier Modelle scheitern besonders am Mechanismus A2 (False Attribute of Real Referent). Dataset, Hugging Face Space und Code sind öffentlich zugänglich.

Quelle lesenreddit.com

HalBench (Sycophancy & Hallucination, Mean Score) · Spitzenwert

0.565%

Sonnet 4.6

Evals Benchmarks Foundation Modelle Alignment

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

HalBench: Neuer Sycophancy- und Halluzinations-Benchmark testet 4 Frontier-Modelle

ToolsClaude GPT Gemini Grok Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

HalBench (Sycophancy & Hallucination, Mean Score) · Spitzenwert

0.565%

Sonnet 4.6

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

HalBench: Neuer Sycophancy- und Halluzinations-Benchmark testet 4 Frontier-Modelle

Frag die KI zum Artikel

Verwandte Beiträge

HalBench: Neuer Sycophancy- und Halluzinations-Benchmark testet 4 Frontier-Modelle

Frag die KI zum Artikel

Verwandte Beiträge