Gladia veröffentlicht leichtgewichtigen Echtzeit-ASR-Router für mehrsprachige Transkription
Der bei Gladia tätige Forscher /u/JeanMichelRanu hat ein Open-Source-System veröffentlicht, das das Problem mehrsprachiger Echtzeit-Spracherkennung auf lokaler Hardware durch einen Routing-Ansatz löst. Statt eines einzelnen großen Multilingual-Modells koordiniert ein Coordinator-Modul mehrere spezialisierte monolingualen Modelle mit je rund 100 Millionen Parametern. Zipformer übernimmt das Low-Latency-Streaming-Transcription, Silero VAD erkennt Sprachgrenzen, und SpeechBrain identifiziert die gesprochene Sprache. Das System startet die Transkription sofort, ohne auf die Spracherkennung zu warten. Wird ein Sprachwechsel über einem Konfidenz-Schwellenwert erkannt, rollt das System zur letzten Sprachgrenze zurück und transkribiert den Abschnitt mit dem passenden Modell neu. Auf Inter-Utterance-Code-Switching-Benchmarks erreicht der Ansatz ~13% WER und übertrifft damit alle getesteten Systeme einschließlich Cloud-APIs. Die bekannte Schwäche liegt bei intra-utterance Switching (z.B. Spanglish mitten im Satz) mit ~41% WER, was laut Autor jedoch noch besser ist als offene Alternativen. Das Repository ist auf GitHub unter gladiaio/realtime-multilingual-asr-router verfügbar.
- Drei Kernkomponenten: Zipformer (Streaming-ASR), Silero VAD (Sprachgrenzen), SpeechBrain (Sprachidentifikation)
- Intra-Utterance-Switching (z.B. Spanglish) degradiert auf ~41% WER — bekannte Systemlimitation
- Aktivierung nur erwarteter Sprachen verbessert LID-Genauigkeit, besonders bei stark akzentierter Sprache
- Open-Source-Repo: github.com/gladiaio/realtime-multilingual-asr-router
- Jedes monolinguales Modell hat ~100M Parameter — deutlich kleiner als gängige Multilingual-Modelle
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Gladia veröffentlicht leichtgewichtigen Echtzeit-ASR-Router für mehrsprachige Transkription
Der bei Gladia tätige Forscher /u/JeanMichelRanu hat ein Open-Source-System veröffentlicht, das das Problem mehrsprachiger Echtzeit-Spracherkennung auf lokaler Hardware durch einen Routing-Ansatz löst. Statt eines einzelnen großen Multilingual-Modells koordiniert ein Coordinator-Modul mehrere spezialisierte monolingualen Modelle mit je rund 100 Millionen Parametern. Zipformer übernimmt das Low-Latency-Streaming-Transcription, Silero VAD erkennt Sprachgrenzen, und SpeechBrain identifiziert die gesprochene Sprache. Das System startet die Transkription sofort, ohne auf die Spracherkennung zu warten. Wird ein Sprachwechsel über einem Konfidenz-Schwellenwert erkannt, rollt das System zur letzten Sprachgrenze zurück und transkribiert den Abschnitt mit dem passenden Modell neu. Auf Inter-Utterance-Code-Switching-Benchmarks erreicht der Ansatz ~13% WER und übertrifft damit alle getesteten Systeme einschließlich Cloud-APIs. Die bekannte Schwäche liegt bei intra-utterance Switching (z.B. Spanglish mitten im Satz) mit ~41% WER, was laut Autor jedoch noch besser ist als offene Alternativen. Das Repository ist auf GitHub unter gladiaio/realtime-multilingual-asr-router verfügbar.
- Drei Kernkomponenten: Zipformer (Streaming-ASR), Silero VAD (Sprachgrenzen), SpeechBrain (Sprachidentifikation)
- Intra-Utterance-Switching (z.B. Spanglish) degradiert auf ~41% WER — bekannte Systemlimitation
- Aktivierung nur erwarteter Sprachen verbessert LID-Genauigkeit, besonders bei stark akzentierter Sprache
- Open-Source-Repo: github.com/gladiaio/realtime-multilingual-asr-router
- Jedes monolinguales Modell hat ~100M Parameter — deutlich kleiner als gängige Multilingual-Modelle
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.