SAFi: Open-Source Runtime-Governance für autonome KI-Agenten
SAFi (Self Alignment Framework) ist ein vollständig quelloffenes Runtime-Governance-System, das autonomen KI-Agenten zur Laufzeit Verhaltensregeln aufzwingen soll – unabhängig davon, wie stark das zugrunde liegende Modell selbst auf Safety trainiert wurde. Als Demonstrationsobjekt dient ein Socratic Tutor Agent auf Basis von Llama 3.1 8B, einem Modell mit bewusst minimaler eingebauter Sicherheitsfilterung. Die Challenge läuft öffentlich unter safi.selfalignmentframework.com: Teilnehmer haben 10 Prompts, um den Agenten dazu zu bringen, entweder direkte Antworten statt Lernhilfen zu geben oder komplett vom Thema Wissenschaft und Mathematik abzuweichen. Der Autor /u/forevergeeks erlaubt ausdrücklich Prompt-Injection und semantische Angriffstaktiken. Das System erfordert keine Registrierung. Ergebnisse sollen gesammelt und im Thread veröffentlicht werden. Der Quellcode inklusive Architektur ist auf GitHub verfügbar (github.com/jnamaya/SAFi).
- Llama 3.1 8B wird bewusst wegen minimaler eingebauter Safety-Filter als Basismodell gewählt.
- Teilnehmer haben genau 10 Prompts, um den Socratic Tutor Agent zu brechen.
- Demo läuft anonym, ohne Registrierung unter safi.selfalignmentframework.com.
- Prompt-Injection und semantische Angriffe sind vom Autor ausdrücklich gestattet.
- SAFi-Quellcode und Architektur sind vollständig auf GitHub (jnamaya/SAFi) einsehbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
SAFi: Open-Source Runtime-Governance für autonome KI-Agenten
SAFi (Self Alignment Framework) ist ein vollständig quelloffenes Runtime-Governance-System, das autonomen KI-Agenten zur Laufzeit Verhaltensregeln aufzwingen soll – unabhängig davon, wie stark das zugrunde liegende Modell selbst auf Safety trainiert wurde. Als Demonstrationsobjekt dient ein Socratic Tutor Agent auf Basis von Llama 3.1 8B, einem Modell mit bewusst minimaler eingebauter Sicherheitsfilterung. Die Challenge läuft öffentlich unter safi.selfalignmentframework.com: Teilnehmer haben 10 Prompts, um den Agenten dazu zu bringen, entweder direkte Antworten statt Lernhilfen zu geben oder komplett vom Thema Wissenschaft und Mathematik abzuweichen. Der Autor /u/forevergeeks erlaubt ausdrücklich Prompt-Injection und semantische Angriffstaktiken. Das System erfordert keine Registrierung. Ergebnisse sollen gesammelt und im Thread veröffentlicht werden. Der Quellcode inklusive Architektur ist auf GitHub verfügbar (github.com/jnamaya/SAFi).
- Llama 3.1 8B wird bewusst wegen minimaler eingebauter Safety-Filter als Basismodell gewählt.
- Teilnehmer haben genau 10 Prompts, um den Socratic Tutor Agent zu brechen.
- Demo läuft anonym, ohne Registrierung unter safi.selfalignmentframework.com.
- Prompt-Injection und semantische Angriffe sind vom Autor ausdrücklich gestattet.
- SAFi-Quellcode und Architektur sind vollständig auf GitHub (jnamaya/SAFi) einsehbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.