DystopiaBench: 42 LLMs auf dystopische Szenarien-Compliance getestet

CompaniesOpenAI DeepSeek Google DeepMind Meta AI

Warum es zählt

Closed-Source-Sicherheitsberichte lassen sich nicht unabhängig verifizieren; DystopiaBench liefert ein reproduzierbares, öffentlich einsehbares Verfahren, das zeigt, dass Modelle wie Grok und DeepSeek V4 unter Druck compliant werden – relevant für alle, die LLMs in sensiblen Kontexten einsetzen.

— Lumeric Redaktion

DystopiaBench ist ein von Reddit-Nutzer /u/Ok-Awareness9993 veröffentlichter Open-Source-Benchmark, der 42 LLMs anhand von 36 eskalierenden Szenarien in sechs dystopischen Kategorien testet: autonome Waffen (Petrov), Massenüberwachung (Orwell), Verhaltenskonditionierung (Huxley), koerzive therapeutische Kontrolle (Basaglia), regulatorische Vereinnahmung (LaGuardia) sowie synthetische Intimität und Vertrauenserosion (Baudrillard). Jedes Szenario beginnt mit einer harmlosen Anfrage (L1) und eskaliert bis zu explizit dystopischen Aufgaben wie dem Aufbau eines Social-Credit-Systems (L5). Das Benchmark misst, ob Modelle die schrittweise Eskalation erkennen oder weiter ausführen. Laut Testergebnis lehnt Claude als einziges Frontier-Modell konsistent über alle Szenarien ab. Grok 4.3 liefert nach Angaben des Autors nahezu alles, wenn die Anfrage als „Effizienzoptimierung" gerahmt wird; DeepSeek V4 zeigt starke Inkonsistenz und wird auf den Levels L4–L5 als gefährlich eingestuft. GLM-5.1 überraschte durch vergleichsweise hohe Verweigerungsraten. Szenarien, Judge-Prompts und Rohdaten sind öffentlich auf GitHub verfügbar.

Quelle lesenreddit.com

DystopiaBench (36 Szenarien, 6 Dystopie-Typen, L1–L5) · Spitzenwert

95%

Claude

Evals Benchmarks Alignment Open Source