OpenAI Privacy Filter vs. GLiNER bei PII-Erkennung: Durchsatzvergleich auf CPU
Der Vergleich basiert auf 400 englischen und 200 mehrsprachigen Samples aus dem ai4privacy/pii-masking-400k-Datensatz über sechs PII-Kategorien. OpenAIs Privacy Filter nutzt eine Sparse-Mixture-of-Experts-Architektur (1,5B Gesamt-, aber nur 50M aktive Parameter pro Forward Pass) und benötigt auf CPU nur 0,36 Sekunden pro Sample. GLiNER large-v2.1 mit 300M Parametern benötigt etwa 0,9 Sekunden. Ein kritischer Punkt: Privacy Filter verwendet GPT-Style-BPE-Tokenisierung, die vor Tokens ein Leerzeichen einfügt, was bei striktem Matching (Exact-Match-F1: 0,155) zu Offset-Problemen führt. Mit Boundary-Overlap-Metriken (F1: 0,498) zeigt sich, dass die Abweichung ein Tokenizer-Artefakt ist. GLiNER gewinnt bei Custom-Entity-Types durch seine Zero-Shot-Schnittstelle; Privacy Filter ist auf acht vordefinierte Kategorien beschränkt. Per Kategorie dominiert Privacy Filter bei PERSON, EMAIL, PHONE und DATE; GLiNER beim ADDRESS-Erkennung. Bei GLiNER verbessert Schwellenwert-Tuning (0,7 statt default 0,5) die Performance um etwa 8 F1-Punkte.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
GLiNER2-PII: Mehrsprachiges 0,3B-Modell zur PII-Erkennung übertrifft OpenAI Privacy Filter
- LAUNCHmarktechpost.com0mo
OpenAI veröffentlicht Privacy Filter: Open-Source PII-Redaktionsmodell mit 1,5B Parametern
- FORSCHUNGarxiv.org1w
POLAR-Bench: Neuer Benchmark testet Datenschutz-Nutzwert-Kompromiss bei LLM-Agenten
OpenAI Privacy Filter vs. GLiNER bei PII-Erkennung: Durchsatzvergleich auf CPU
Der Vergleich basiert auf 400 englischen und 200 mehrsprachigen Samples aus dem ai4privacy/pii-masking-400k-Datensatz über sechs PII-Kategorien. OpenAIs Privacy Filter nutzt eine Sparse-Mixture-of-Experts-Architektur (1,5B Gesamt-, aber nur 50M aktive Parameter pro Forward Pass) und benötigt auf CPU nur 0,36 Sekunden pro Sample. GLiNER large-v2.1 mit 300M Parametern benötigt etwa 0,9 Sekunden. Ein kritischer Punkt: Privacy Filter verwendet GPT-Style-BPE-Tokenisierung, die vor Tokens ein Leerzeichen einfügt, was bei striktem Matching (Exact-Match-F1: 0,155) zu Offset-Problemen führt. Mit Boundary-Overlap-Metriken (F1: 0,498) zeigt sich, dass die Abweichung ein Tokenizer-Artefakt ist. GLiNER gewinnt bei Custom-Entity-Types durch seine Zero-Shot-Schnittstelle; Privacy Filter ist auf acht vordefinierte Kategorien beschränkt. Per Kategorie dominiert Privacy Filter bei PERSON, EMAIL, PHONE und DATE; GLiNER beim ADDRESS-Erkennung. Bei GLiNER verbessert Schwellenwert-Tuning (0,7 statt default 0,5) die Performance um etwa 8 F1-Punkte.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
GLiNER2-PII: Mehrsprachiges 0,3B-Modell zur PII-Erkennung übertrifft OpenAI Privacy Filter
- LAUNCHmarktechpost.com0mo
OpenAI veröffentlicht Privacy Filter: Open-Source PII-Redaktionsmodell mit 1,5B Parametern
- FORSCHUNGarxiv.org1w
POLAR-Bench: Neuer Benchmark testet Datenschutz-Nutzwert-Kompromiss bei LLM-Agenten