DistilBERT-Prompt-Injection-Detektor mit F1 99% läuft im Browser

ToolsGPT DeepSeek Hugging Face OpenRouter

Warum es zählt

Ein einsatzfähiger Prompt-Injection-Detektor mit 65 MB und Browser-Deployment zeigt, dass agentengestütztes ML-Training für Security-Klassifikatoren praktikabel ist – allerdings nur auf Standard-Architekturen wie DistilBERT; nicht-standard Modelle (HRM-Text) scheiterten im Agenten-Workflow.

— Lumeric Redaktion

Der Reddit-Nutzer Everlier beschreibt, wie er mit dem agentenbasierten ML-Tool ml-intern und DeepSeek v4 Flash als Backend-LLM einen spezialisierten Prompt-Injection-Detektor trainierte. Der Agent verwendete OpenRouter als API-Endpunkt und fand eigenständig die HuggingFace-Datasets deepset/prompt-injections sowie Shomi28/prompt-injection-dataset. In einer ersten Version (v1) erreichte ein DistilBERT-Modell nach Parametersuche einen F1-Score von 95,87 %. Für v2 wurde ein größeres synthetisches Dataset von Bordair genutzt, was den Score auf 99 % steigerte. Das finale Modell ist als ONNX int8 quantisiert, rund 65 MB groß und läuft direkt im Browser über Transformers.js v3. Ein Versuch mit der HRM-Text-Architektur scheiterte: Der Agent wählte falsche Optimierer-Parameter, was zu explodierenden Gradienten führte – trotz 20 USD Ausgaben für HF-Remote-Training auf einer T4-GPU. Gesamtkosten für alle Agenten-Runs: unter 5 USD via DeepSeek v4 Flash. Der Autor weist selbst auf die Schwäche des synthetischen Datensatzes hin, bei dem Train- und Test-Splits möglicherweise zu ähnlich sind.

Was wir noch wissen

DistilBERT v1 erzielte nach Parametersuche F1 95,87 %, v2 mit Bordair-Datensatz F1 99 %
Modell ist ONNX int8-quantisiert, ~65 MB groß, läuft via Transformers.js v3 im Browser
Gesamtkosten für alle DeepSeek v4 Flash API-Runs: unter 5 USD über OpenRouter
HRM-Text-Trainingsversuch scheiterte durch falsche Optimierer-Params und explodierende Gradienten (20 USD T4-Kosten)
Datasets: deepset/prompt-injections, Shomi28/prompt-injection-dataset und synthetisches Dataset von Bordair

Quelle lesenreddit.com

F1 99%

Prompt-Injection-Klassifikation (v2, DistilBERT)

Agents Open Source Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DistilBERT-Prompt-Injection-Detektor mit F1 99% läuft im Browser

ToolsGPT DeepSeek Hugging Face OpenRouter

CompaniesOpenAI DeepSeek Hugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

DistilBERT v1 erzielte nach Parametersuche F1 95,87 %, v2 mit Bordair-Datensatz F1 99 %
Modell ist ONNX int8-quantisiert, ~65 MB groß, läuft via Transformers.js v3 im Browser
Gesamtkosten für alle DeepSeek v4 Flash API-Runs: unter 5 USD über OpenRouter
HRM-Text-Trainingsversuch scheiterte durch falsche Optimierer-Params und explodierende Gradienten (20 USD T4-Kosten)
Datasets: deepset/prompt-injections, Shomi28/prompt-injection-dataset und synthetisches Dataset von Bordair

F1 99%

Prompt-Injection-Klassifikation (v2, DistilBERT)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DistilBERT-Prompt-Injection-Detektor mit F1 99% läuft im Browser

Frag die KI zum Artikel

Verwandte Beiträge

DistilBERT-Prompt-Injection-Detektor mit F1 99% läuft im Browser

Frag die KI zum Artikel

Verwandte Beiträge