
Alibaba Qwen3.5-LiveTranslate-Flash: Echtzeit-Übersetzung in 60 Sprachen mit 2,8 Sekunden Latenz
Alibabas Qwen-Team hat Qwen3.5-LiveTranslate-Flash als API-only-Modell über die Alibaba Cloud Model Studio-Plattform per WebSocket-Protokoll veröffentlicht. Das Modell verarbeitet Audio und Video gleichzeitig, unterstützt 60 Eingabesprachen und gibt Sprache in 29 Sprachen aus – bei einer Latenz von 2,8 Sekunden. Gegenüber dem Vorgänger Qwen3 wurden drei wesentliche Funktionen ergänzt: Echtzeit-Stimmklonen des Sprechers, visuelle Verständnisverbesserung durch Lippenbewegungserkennung und Einblendungstext (OCR), sowie dynamische Keyword-Konfiguration für domänenspezifische Terminologie. Auf den Benchmarks FLEURS und CoVoST2 übertrifft das Modell laut Angaben des Teams führende kommerzielle Alternativen. Eine Open-Source-Variante oder ein lokales Deployment sind nicht vorgesehen – der Zugang erfolgt ausschließlich über die Cloud-API.
- 60 Eingabesprachen, Sprachausgabe in 29 Sprachen per Echtzeit-Streaming
- Echtzeit-Stimmklonen: Die Stimme des Originalsprechers wird in der Zielsprache reproduziert
- Vision-Modul: Lippenbewegungen und On-Screen-Text verbessern die Erkennungsgenauigkeit
- Dynamische Keyword-Konfiguration erlaubt domain-spezifisches Fachvokabular zur Laufzeit
- Zugang ausschließlich als API über Alibaba Cloud Model Studio per WebSocket-Protokoll
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

Alibaba Qwen3.5-LiveTranslate-Flash: Echtzeit-Übersetzung in 60 Sprachen mit 2,8 Sekunden Latenz
Alibabas Qwen-Team hat Qwen3.5-LiveTranslate-Flash als API-only-Modell über die Alibaba Cloud Model Studio-Plattform per WebSocket-Protokoll veröffentlicht. Das Modell verarbeitet Audio und Video gleichzeitig, unterstützt 60 Eingabesprachen und gibt Sprache in 29 Sprachen aus – bei einer Latenz von 2,8 Sekunden. Gegenüber dem Vorgänger Qwen3 wurden drei wesentliche Funktionen ergänzt: Echtzeit-Stimmklonen des Sprechers, visuelle Verständnisverbesserung durch Lippenbewegungserkennung und Einblendungstext (OCR), sowie dynamische Keyword-Konfiguration für domänenspezifische Terminologie. Auf den Benchmarks FLEURS und CoVoST2 übertrifft das Modell laut Angaben des Teams führende kommerzielle Alternativen. Eine Open-Source-Variante oder ein lokales Deployment sind nicht vorgesehen – der Zugang erfolgt ausschließlich über die Cloud-API.
- 60 Eingabesprachen, Sprachausgabe in 29 Sprachen per Echtzeit-Streaming
- Echtzeit-Stimmklonen: Die Stimme des Originalsprechers wird in der Zielsprache reproduziert
- Vision-Modul: Lippenbewegungen und On-Screen-Text verbessern die Erkennungsgenauigkeit
- Dynamische Keyword-Konfiguration erlaubt domain-spezifisches Fachvokabular zur Laufzeit
- Zugang ausschließlich als API über Alibaba Cloud Model Studio per WebSocket-Protokoll
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.