SAFi: Open-Source Runtime-Governance für autonome KI-Agenten

Warum es zählt

SAFi behauptet, Alignment-Guardrails modellunabhängig auf Laufzeitebene durchzusetzen – ein öffentlicher Jailbreak-Test gegen Llama 3.1 8B soll zeigen, ob die Governance-Schicht ohne modellseitige Safety-Filter auskommt.

— Lumeric Redaktion

SAFi (Self Alignment Framework) ist ein vollständig quelloffenes Runtime-Governance-System, das autonomen KI-Agenten zur Laufzeit Verhaltensregeln aufzwingen soll – unabhängig davon, wie stark das zugrunde liegende Modell selbst auf Safety trainiert wurde. Als Demonstrationsobjekt dient ein Socratic Tutor Agent auf Basis von Llama 3.1 8B, einem Modell mit bewusst minimaler eingebauter Sicherheitsfilterung. Die Challenge läuft öffentlich unter safi.selfalignmentframework.com: Teilnehmer haben 10 Prompts, um den Agenten dazu zu bringen, entweder direkte Antworten statt Lernhilfen zu geben oder komplett vom Thema Wissenschaft und Mathematik abzuweichen. Der Autor /u/forevergeeks erlaubt ausdrücklich Prompt-Injection und semantische Angriffstaktiken. Das System erfordert keine Registrierung. Ergebnisse sollen gesammelt und im Thread veröffentlicht werden. Der Quellcode inklusive Architektur ist auf GitHub verfügbar (github.com/jnamaya/SAFi).

Was wir noch wissen

Llama 3.1 8B wird bewusst wegen minimaler eingebauter Safety-Filter als Basismodell gewählt.
Teilnehmer haben genau 10 Prompts, um den Socratic Tutor Agent zu brechen.
Demo läuft anonym, ohne Registrierung unter safi.selfalignmentframework.com.
Prompt-Injection und semantische Angriffe sind vom Autor ausdrücklich gestattet.
SAFi-Quellcode und Architektur sind vollständig auf GitHub (jnamaya/SAFi) einsehbar.

Quelle lesenreddit.com

Agents Alignment Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

SAFi: Open-Source Runtime-Governance für autonome KI-Agenten

ToolsLlama

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Llama 3.1 8B wird bewusst wegen minimaler eingebauter Safety-Filter als Basismodell gewählt.
Teilnehmer haben genau 10 Prompts, um den Socratic Tutor Agent zu brechen.
Demo läuft anonym, ohne Registrierung unter safi.selfalignmentframework.com.
Prompt-Injection und semantische Angriffe sind vom Autor ausdrücklich gestattet.
SAFi-Quellcode und Architektur sind vollständig auf GitHub (jnamaya/SAFi) einsehbar.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

SAFi: Open-Source Runtime-Governance für autonome KI-Agenten

Frag die KI zum Artikel

Verwandte Beiträge

SAFi: Open-Source Runtime-Governance für autonome KI-Agenten

Frag die KI zum Artikel

Verwandte Beiträge