
Byte-Level Transformer löst skriptübergreifende Namenssuche mit 0.775 MRR
Ein 4M-Parameter-Transformer-Encoder, trainiert auf rohen UTF-8-Bytes ohne Tokenizer oder vortrainiertes Backbone, erreicht 0.775 MRR und 0.897 R@10 bei der phonetischen Namenssuche über 8 Nicht-Latin-Schriften.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2d
Lexikalische Lücken automatisch entdecken: Embedding-Framework für Koreanisch-Englisch
- FORSCHUNGarxiv.org1w
OCR-aware Fine-Tuning mit LoRA verbessert multilinguale MLLMs bei verrauschten Bildtexten
- FORSCHUNGarxiv.org3d
SGER: LLM-Framework löst Namensabgleich mit 99% Genauigkeit bei Dream11
- FORSCHUNGarxiv.org2w
XLM-RoBERTa erkennt reklaimierte Slurs in mehrsprachigen Tweets

Byte-Level Transformer löst skriptübergreifende Namenssuche mit 0.775 MRR
Ein 4M-Parameter-Transformer-Encoder, trainiert auf rohen UTF-8-Bytes ohne Tokenizer oder vortrainiertes Backbone, erreicht 0.775 MRR und 0.897 R@10 bei der phonetischen Namenssuche über 8 Nicht-Latin-Schriften.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2d
Lexikalische Lücken automatisch entdecken: Embedding-Framework für Koreanisch-Englisch
- FORSCHUNGarxiv.org1w
OCR-aware Fine-Tuning mit LoRA verbessert multilinguale MLLMs bei verrauschten Bildtexten
- FORSCHUNGarxiv.org3d
SGER: LLM-Framework löst Namensabgleich mit 99% Genauigkeit bei Dream11
- FORSCHUNGarxiv.org2w
XLM-RoBERTa erkennt reklaimierte Slurs in mehrsprachigen Tweets