OpenAI Privacy Filter vs. GLiNER bei PII-Erkennung: Durchsatzvergleich auf CPU

ToolsGPT

CompaniesOpenAI

Warum es zählt

Privacy Filter ist für redaktionelle Workloads interessant (hoher Durchsatz via Sparse-MoE), GLiNER bietet bessere Recall und Zero-Shot-Anpassung auf benutzerdefinierte Entity-Typen. Die Tokenizer-Offset-Problematik von Privacy Filter lässt sich durch richtige Metrik-Wahl beheben.

— Lumeric Redaktion

Der Vergleich basiert auf 400 englischen und 200 mehrsprachigen Samples aus dem ai4privacy/pii-masking-400k-Datensatz über sechs PII-Kategorien. OpenAIs Privacy Filter nutzt eine Sparse-Mixture-of-Experts-Architektur (1,5B Gesamt-, aber nur 50M aktive Parameter pro Forward Pass) und benötigt auf CPU nur 0,36 Sekunden pro Sample. GLiNER large-v2.1 mit 300M Parametern benötigt etwa 0,9 Sekunden. Ein kritischer Punkt: Privacy Filter verwendet GPT-Style-BPE-Tokenisierung, die vor Tokens ein Leerzeichen einfügt, was bei striktem Matching (Exact-Match-F1: 0,155) zu Offset-Problemen führt. Mit Boundary-Overlap-Metriken (F1: 0,498) zeigt sich, dass die Abweichung ein Tokenizer-Artefakt ist. GLiNER gewinnt bei Custom-Entity-Types durch seine Zero-Shot-Schnittstelle; Privacy Filter ist auf acht vordefinierte Kategorien beschränkt. Per Kategorie dominiert Privacy Filter bei PERSON, EMAIL, PHONE und DATE; GLiNER beim ADDRESS-Erkennung. Bei GLiNER verbessert Schwellenwert-Tuning (0,7 statt default 0,5) die Performance um etwa 8 F1-Punkte.

Quelle lesenreddit.com

PII-Masking English (Boundary Overlap F1) · Spitzenwert

0.498%

OpenAI Privacy Filter

Open Source Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

OpenAI Privacy Filter vs. GLiNER bei PII-Erkennung: Durchsatzvergleich auf CPU

ToolsGPT

CompaniesOpenAI

Warum es zählt

— Lumeric Redaktion

PII-Masking English (Boundary Overlap F1) · Spitzenwert

0.498%

OpenAI Privacy Filter

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

OpenAI Privacy Filter vs. GLiNER bei PII-Erkennung: Durchsatzvergleich auf CPU

Frag die KI zum Artikel

Verwandte Beiträge

OpenAI Privacy Filter vs. GLiNER bei PII-Erkennung: Durchsatzvergleich auf CPU

Frag die KI zum Artikel

Verwandte Beiträge