Qwen3 per RL zum Selbst-Jailbreak trainiert – dann Verteidigung gehärtet
Der Reddit-Nutzer girishkumama beschreibt einen vollautomatisierten Red-Teaming-Loop, bei dem Qwen3 zunächst als RL-Angreifer gegen sich selbst trainiert wird. Belohnt wird erfolgreiche schädliche Compliance; das Modell lernt so, eigene Sicherheitsmechanismen zu umgehen. Das zentrale Problem im ersten Durchlauf: GRPO kollabierte schnell auf denselben Fiction-Writing-Jailbreak, was zwar funktionierte, aber kaum neue Angriffsmuster lieferte. Die Lösung war ein taktikbasiertes Reward-Clustering – Rollouts wurden nach zugrundeliegender Angriffstaktik gruppiert, und der Reward wurde durch die Clustergröße dividiert, sodass neuartige Strategien stärker belohnt wurden. Ergebnis: Der Angreifer deckte 7 verschiedene Taktikfamilien auf; Fiction/Creative Framing war mit 34 % die größte Gruppe. Der Verteidiger wurde anschließend auf den erfolgreichen Angriffen plus harmlosen Grenzfällen finegetunet, um selektives Ablehnen zu lernen. Die Defense-Rate stieg von 64 % auf 92 %, während die Genauigkeit auf harmlosen Anfragen leicht von 92 % auf 88 % sank. Der vollständige Blogpost ist in den Kommentaren des Reddit-Threads verlinkt.
- GRPO als RL-Algorithmus für den Angreifer; Reward-Shaping via Cluster-Normierung verhindert Taktik-Kollaps.
- 7 Angriffstaktik-Familien entdeckt; Fiction/Creative Framing ist mit 34 % die häufigste Kategorie.
- Defender-Training kombiniert erfolgreiche Angriffe mit harmlosen Grenzfällen für selektives Ablehnen.
- Benign Accuracy sinkt moderat von 92 % auf 88 % – Kompromiss zwischen Sicherheit und Nutzbarkeit.
- Vollständiger Blogpost vom Autor in den Reddit-Kommentaren verlinkt (Nutzer: girishkumama).
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3 per RL zum Selbst-Jailbreak trainiert – dann Verteidigung gehärtet
Der Reddit-Nutzer girishkumama beschreibt einen vollautomatisierten Red-Teaming-Loop, bei dem Qwen3 zunächst als RL-Angreifer gegen sich selbst trainiert wird. Belohnt wird erfolgreiche schädliche Compliance; das Modell lernt so, eigene Sicherheitsmechanismen zu umgehen. Das zentrale Problem im ersten Durchlauf: GRPO kollabierte schnell auf denselben Fiction-Writing-Jailbreak, was zwar funktionierte, aber kaum neue Angriffsmuster lieferte. Die Lösung war ein taktikbasiertes Reward-Clustering – Rollouts wurden nach zugrundeliegender Angriffstaktik gruppiert, und der Reward wurde durch die Clustergröße dividiert, sodass neuartige Strategien stärker belohnt wurden. Ergebnis: Der Angreifer deckte 7 verschiedene Taktikfamilien auf; Fiction/Creative Framing war mit 34 % die größte Gruppe. Der Verteidiger wurde anschließend auf den erfolgreichen Angriffen plus harmlosen Grenzfällen finegetunet, um selektives Ablehnen zu lernen. Die Defense-Rate stieg von 64 % auf 92 %, während die Genauigkeit auf harmlosen Anfragen leicht von 92 % auf 88 % sank. Der vollständige Blogpost ist in den Kommentaren des Reddit-Threads verlinkt.
- GRPO als RL-Algorithmus für den Angreifer; Reward-Shaping via Cluster-Normierung verhindert Taktik-Kollaps.
- 7 Angriffstaktik-Familien entdeckt; Fiction/Creative Framing ist mit 34 % die häufigste Kategorie.
- Defender-Training kombiniert erfolgreiche Angriffe mit harmlosen Grenzfällen für selektives Ablehnen.
- Benign Accuracy sinkt moderat von 92 % auf 88 % – Kompromiss zwischen Sicherheit und Nutzbarkeit.
- Vollständiger Blogpost vom Autor in den Reddit-Kommentaren verlinkt (Nutzer: girishkumama).
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.