DistilBERT-Prompt-Injection-Detektor mit F1 99% läuft im Browser
Der Reddit-Nutzer Everlier beschreibt, wie er mit dem agentenbasierten ML-Tool ml-intern und DeepSeek v4 Flash als Backend-LLM einen spezialisierten Prompt-Injection-Detektor trainierte. Der Agent verwendete OpenRouter als API-Endpunkt und fand eigenständig die HuggingFace-Datasets deepset/prompt-injections sowie Shomi28/prompt-injection-dataset. In einer ersten Version (v1) erreichte ein DistilBERT-Modell nach Parametersuche einen F1-Score von 95,87 %. Für v2 wurde ein größeres synthetisches Dataset von Bordair genutzt, was den Score auf 99 % steigerte. Das finale Modell ist als ONNX int8 quantisiert, rund 65 MB groß und läuft direkt im Browser über Transformers.js v3. Ein Versuch mit der HRM-Text-Architektur scheiterte: Der Agent wählte falsche Optimierer-Parameter, was zu explodierenden Gradienten führte – trotz 20 USD Ausgaben für HF-Remote-Training auf einer T4-GPU. Gesamtkosten für alle Agenten-Runs: unter 5 USD via DeepSeek v4 Flash. Der Autor weist selbst auf die Schwäche des synthetischen Datensatzes hin, bei dem Train- und Test-Splits möglicherweise zu ähnlich sind.
- DistilBERT v1 erzielte nach Parametersuche F1 95,87 %, v2 mit Bordair-Datensatz F1 99 %
- Modell ist ONNX int8-quantisiert, ~65 MB groß, läuft via Transformers.js v3 im Browser
- Gesamtkosten für alle DeepSeek v4 Flash API-Runs: unter 5 USD über OpenRouter
- HRM-Text-Trainingsversuch scheiterte durch falsche Optimierer-Params und explodierende Gradienten (20 USD T4-Kosten)
- Datasets: deepset/prompt-injections, Shomi28/prompt-injection-dataset und synthetisches Dataset von Bordair
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org12h
APD-Framework reduziert schädliche LLM-Outputs um über 85 %
- BENCHMARKreddit.com3w
Prompt-Injection-Benchmark: Delimiter + strikter Prompt hebt Gemma 4 auf 100% Abwehrrate
- FORSCHUNGarxiv.org2d
APT-Agent: LLM-Framework erreicht 84 % Erfolgsrate bei automatisierten Penetrationstests
- FORSCHUNGarxiv.org2w
Sefz: Semantisches Fuzzing deckt Spezifikationsverletzungen in 29,9 % von 402 Agent-Skills auf
DistilBERT-Prompt-Injection-Detektor mit F1 99% läuft im Browser
Der Reddit-Nutzer Everlier beschreibt, wie er mit dem agentenbasierten ML-Tool ml-intern und DeepSeek v4 Flash als Backend-LLM einen spezialisierten Prompt-Injection-Detektor trainierte. Der Agent verwendete OpenRouter als API-Endpunkt und fand eigenständig die HuggingFace-Datasets deepset/prompt-injections sowie Shomi28/prompt-injection-dataset. In einer ersten Version (v1) erreichte ein DistilBERT-Modell nach Parametersuche einen F1-Score von 95,87 %. Für v2 wurde ein größeres synthetisches Dataset von Bordair genutzt, was den Score auf 99 % steigerte. Das finale Modell ist als ONNX int8 quantisiert, rund 65 MB groß und läuft direkt im Browser über Transformers.js v3. Ein Versuch mit der HRM-Text-Architektur scheiterte: Der Agent wählte falsche Optimierer-Parameter, was zu explodierenden Gradienten führte – trotz 20 USD Ausgaben für HF-Remote-Training auf einer T4-GPU. Gesamtkosten für alle Agenten-Runs: unter 5 USD via DeepSeek v4 Flash. Der Autor weist selbst auf die Schwäche des synthetischen Datensatzes hin, bei dem Train- und Test-Splits möglicherweise zu ähnlich sind.
- DistilBERT v1 erzielte nach Parametersuche F1 95,87 %, v2 mit Bordair-Datensatz F1 99 %
- Modell ist ONNX int8-quantisiert, ~65 MB groß, läuft via Transformers.js v3 im Browser
- Gesamtkosten für alle DeepSeek v4 Flash API-Runs: unter 5 USD über OpenRouter
- HRM-Text-Trainingsversuch scheiterte durch falsche Optimierer-Params und explodierende Gradienten (20 USD T4-Kosten)
- Datasets: deepset/prompt-injections, Shomi28/prompt-injection-dataset und synthetisches Dataset von Bordair
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org12h
APD-Framework reduziert schädliche LLM-Outputs um über 85 %
- BENCHMARKreddit.com3w
Prompt-Injection-Benchmark: Delimiter + strikter Prompt hebt Gemma 4 auf 100% Abwehrrate
- FORSCHUNGarxiv.org2d
APT-Agent: LLM-Framework erreicht 84 % Erfolgsrate bei automatisierten Penetrationstests
- FORSCHUNGarxiv.org2w
Sefz: Semantisches Fuzzing deckt Spezifikationsverletzungen in 29,9 % von 402 Agent-Skills auf