★ Begriff· Safety & Alignment
Jailbreak
Technik, ein LLM zu übersteigen seine Sicherheits-Guidelines (z.B. „ignoriere bisherige Anweisungen"). Wettlauf zwischen Red-Teams und Modell-Anbietern.
Verwandte Tools
Auch bekannt als
llm jailbreak · prompt jailbreak
Aktivität
12
Mentions in den letzten 7 Tagen
4 Wochen
⚡neu · 12×
Zuletzt erwähnt in
- Activation Consistency Training stärkt Robustheit von Reasoning-Modellen gegen Jailbreaks2026-05-28
- Explizite Image-Tool-Interaktion reduziert Multimodal-Jailbreaks um ~30 %2026-05-28
- CRaFT: Circuit-gesteuertes Framework identifiziert kausale Refusal-Features in LLMs2026-05-28
- SNARE: Adaptives Benchmark-System deckt overeager Verhalten in Coding-Agenten auf2026-05-28
- Frost Training: GCG-Jailbreak-Gradient zur LLM-Optimierung genutzt2026-05-28