Gladia veröffentlicht leichtgewichtigen Echtzeit-ASR-Router für mehrsprachige Transkription

Warum es zählt

Das System erreicht ~13% WER auf Inter-Utterance-Code-Switching-Benchmarks – besser als getestete Cloud-APIs – und läuft auf lokaler Hardware. Für Entwickler lokaler ASR-Pipelines ist es ein praktikabler Ansatz für mehrsprachige Szenarien ohne Cloud-Abhängigkeit.

— Lumeric Redaktion

Der bei Gladia tätige Forscher /u/JeanMichelRanu hat ein Open-Source-System veröffentlicht, das das Problem mehrsprachiger Echtzeit-Spracherkennung auf lokaler Hardware durch einen Routing-Ansatz löst. Statt eines einzelnen großen Multilingual-Modells koordiniert ein Coordinator-Modul mehrere spezialisierte monolingualen Modelle mit je rund 100 Millionen Parametern. Zipformer übernimmt das Low-Latency-Streaming-Transcription, Silero VAD erkennt Sprachgrenzen, und SpeechBrain identifiziert die gesprochene Sprache. Das System startet die Transkription sofort, ohne auf die Spracherkennung zu warten. Wird ein Sprachwechsel über einem Konfidenz-Schwellenwert erkannt, rollt das System zur letzten Sprachgrenze zurück und transkribiert den Abschnitt mit dem passenden Modell neu. Auf Inter-Utterance-Code-Switching-Benchmarks erreicht der Ansatz ~13% WER und übertrifft damit alle getesteten Systeme einschließlich Cloud-APIs. Die bekannte Schwäche liegt bei intra-utterance Switching (z.B. Spanglish mitten im Satz) mit ~41% WER, was laut Autor jedoch noch besser ist als offene Alternativen. Das Repository ist auf GitHub unter gladiaio/realtime-multilingual-asr-router verfügbar.

Was wir noch wissen

Drei Kernkomponenten: Zipformer (Streaming-ASR), Silero VAD (Sprachgrenzen), SpeechBrain (Sprachidentifikation)
Intra-Utterance-Switching (z.B. Spanglish) degradiert auf ~41% WER — bekannte Systemlimitation
Aktivierung nur erwarteter Sprachen verbessert LID-Genauigkeit, besonders bei stark akzentierter Sprache
Open-Source-Repo: github.com/gladiaio/realtime-multilingual-asr-router
Jedes monolinguales Modell hat ~100M Parameter — deutlich kleiner als gängige Multilingual-Modelle

Quelle lesenreddit.com

~13% WER

Inter-Utterance Code-Switching Benchmark

Open Source Voice Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gladia veröffentlicht leichtgewichtigen Echtzeit-ASR-Router für mehrsprachige Transkription

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Drei Kernkomponenten: Zipformer (Streaming-ASR), Silero VAD (Sprachgrenzen), SpeechBrain (Sprachidentifikation)
Intra-Utterance-Switching (z.B. Spanglish) degradiert auf ~41% WER — bekannte Systemlimitation
Aktivierung nur erwarteter Sprachen verbessert LID-Genauigkeit, besonders bei stark akzentierter Sprache
Open-Source-Repo: github.com/gladiaio/realtime-multilingual-asr-router
Jedes monolinguales Modell hat ~100M Parameter — deutlich kleiner als gängige Multilingual-Modelle

~13% WER

Inter-Utterance Code-Switching Benchmark

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gladia veröffentlicht leichtgewichtigen Echtzeit-ASR-Router für mehrsprachige Transkription

Frag die KI zum Artikel

Verwandte Beiträge

Gladia veröffentlicht leichtgewichtigen Echtzeit-ASR-Router für mehrsprachige Transkription

Frag die KI zum Artikel

Verwandte Beiträge