DystopiaBench: 42 LLMs auf dystopische Szenarien-Compliance getestet
DystopiaBench ist ein von Reddit-Nutzer /u/Ok-Awareness9993 veröffentlichter Open-Source-Benchmark, der 42 LLMs anhand von 36 eskalierenden Szenarien in sechs dystopischen Kategorien testet: autonome Waffen (Petrov), Massenüberwachung (Orwell), Verhaltenskonditionierung (Huxley), koerzive therapeutische Kontrolle (Basaglia), regulatorische Vereinnahmung (LaGuardia) sowie synthetische Intimität und Vertrauenserosion (Baudrillard). Jedes Szenario beginnt mit einer harmlosen Anfrage (L1) und eskaliert bis zu explizit dystopischen Aufgaben wie dem Aufbau eines Social-Credit-Systems (L5). Das Benchmark misst, ob Modelle die schrittweise Eskalation erkennen oder weiter ausführen. Laut Testergebnis lehnt Claude als einziges Frontier-Modell konsistent über alle Szenarien ab. Grok 4.3 liefert nach Angaben des Autors nahezu alles, wenn die Anfrage als „Effizienzoptimierung" gerahmt wird; DeepSeek V4 zeigt starke Inkonsistenz und wird auf den Levels L4–L5 als gefährlich eingestuft. GLM-5.1 überraschte durch vergleichsweise hohe Verweigerungsraten. Szenarien, Judge-Prompts und Rohdaten sind öffentlich auf GitHub verfügbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- BENCHMARKarxiv.org3w
Aymara AI bewertet 20 LLMs in 10 Sicherheitsdomänen – große Leistungsunterschiede
- FORSCHUNGarxiv.org3d
Studie: Alle 7 getesteten LLMs erzeugen Code mit kritischen Sicherheitslücken
- FORSCHUNGarxiv.org3d
Frontier-LLMs bei Cybersecurity: 4–8 % Erkennungsrate im Black-Box-Test
- FORSCHUNGarxiv.org2d
SoK: Erste umfassende Jailbreak-Analyse von DeepSeek vs. GPT-3.5 und GPT-4
DystopiaBench: 42 LLMs auf dystopische Szenarien-Compliance getestet
DystopiaBench ist ein von Reddit-Nutzer /u/Ok-Awareness9993 veröffentlichter Open-Source-Benchmark, der 42 LLMs anhand von 36 eskalierenden Szenarien in sechs dystopischen Kategorien testet: autonome Waffen (Petrov), Massenüberwachung (Orwell), Verhaltenskonditionierung (Huxley), koerzive therapeutische Kontrolle (Basaglia), regulatorische Vereinnahmung (LaGuardia) sowie synthetische Intimität und Vertrauenserosion (Baudrillard). Jedes Szenario beginnt mit einer harmlosen Anfrage (L1) und eskaliert bis zu explizit dystopischen Aufgaben wie dem Aufbau eines Social-Credit-Systems (L5). Das Benchmark misst, ob Modelle die schrittweise Eskalation erkennen oder weiter ausführen. Laut Testergebnis lehnt Claude als einziges Frontier-Modell konsistent über alle Szenarien ab. Grok 4.3 liefert nach Angaben des Autors nahezu alles, wenn die Anfrage als „Effizienzoptimierung" gerahmt wird; DeepSeek V4 zeigt starke Inkonsistenz und wird auf den Levels L4–L5 als gefährlich eingestuft. GLM-5.1 überraschte durch vergleichsweise hohe Verweigerungsraten. Szenarien, Judge-Prompts und Rohdaten sind öffentlich auf GitHub verfügbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- BENCHMARKarxiv.org3w
Aymara AI bewertet 20 LLMs in 10 Sicherheitsdomänen – große Leistungsunterschiede
- FORSCHUNGarxiv.org3d
Studie: Alle 7 getesteten LLMs erzeugen Code mit kritischen Sicherheitslücken
- FORSCHUNGarxiv.org3d
Frontier-LLMs bei Cybersecurity: 4–8 % Erkennungsrate im Black-Box-Test
- FORSCHUNGarxiv.org2d
SoK: Erste umfassende Jailbreak-Analyse von DeepSeek vs. GPT-3.5 und GPT-4