Alibaba Qwen3.5-LiveTranslate-Flash: Echtzeit-Übersetzung in 60 Sprachen mit 2,8 Sekunden Latenz

Warum es zählt

Das Modell kombiniert Lippenbewegungsanalyse, Echtzeit-Stimmklonen und konfigurierbares Fachvokabular – relevant für alle, die mehrsprachige Live-Anwendungen über die Alibaba Cloud Model Studio API aufbauen.

— Lumeric Redaktion

Alibabas Qwen-Team hat Qwen3.5-LiveTranslate-Flash als API-only-Modell über die Alibaba Cloud Model Studio-Plattform per WebSocket-Protokoll veröffentlicht. Das Modell verarbeitet Audio und Video gleichzeitig, unterstützt 60 Eingabesprachen und gibt Sprache in 29 Sprachen aus – bei einer Latenz von 2,8 Sekunden. Gegenüber dem Vorgänger Qwen3 wurden drei wesentliche Funktionen ergänzt: Echtzeit-Stimmklonen des Sprechers, visuelle Verständnisverbesserung durch Lippenbewegungserkennung und Einblendungstext (OCR), sowie dynamische Keyword-Konfiguration für domänenspezifische Terminologie. Auf den Benchmarks FLEURS und CoVoST2 übertrifft das Modell laut Angaben des Teams führende kommerzielle Alternativen. Eine Open-Source-Variante oder ein lokales Deployment sind nicht vorgesehen – der Zugang erfolgt ausschließlich über die Cloud-API.

Was wir noch wissen

60 Eingabesprachen, Sprachausgabe in 29 Sprachen per Echtzeit-Streaming
Echtzeit-Stimmklonen: Die Stimme des Originalsprechers wird in der Zielsprache reproduziert
Vision-Modul: Lippenbewegungen und On-Screen-Text verbessern die Erkennungsgenauigkeit
Dynamische Keyword-Konfiguration erlaubt domain-spezifisches Fachvokabular zur Laufzeit
Zugang ausschließlich als API über Alibaba Cloud Model Studio per WebSocket-Protokoll

Quelle lesenmarktechpost.com

Multimodal Voice Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Alibaba Qwen3.5-LiveTranslate-Flash: Echtzeit-Übersetzung in 60 Sprachen mit 2,8 Sekunden Latenz

ToolsQwen

CompaniesAlibaba (Qwen)

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

60 Eingabesprachen, Sprachausgabe in 29 Sprachen per Echtzeit-Streaming
Echtzeit-Stimmklonen: Die Stimme des Originalsprechers wird in der Zielsprache reproduziert
Vision-Modul: Lippenbewegungen und On-Screen-Text verbessern die Erkennungsgenauigkeit
Dynamische Keyword-Konfiguration erlaubt domain-spezifisches Fachvokabular zur Laufzeit
Zugang ausschließlich als API über Alibaba Cloud Model Studio per WebSocket-Protokoll

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Alibaba Qwen3.5-LiveTranslate-Flash: Echtzeit-Übersetzung in 60 Sprachen mit 2,8 Sekunden Latenz

Frag die KI zum Artikel

Verwandte Beiträge

Alibaba Qwen3.5-LiveTranslate-Flash: Echtzeit-Übersetzung in 60 Sprachen mit 2,8 Sekunden Latenz

Frag die KI zum Artikel

Verwandte Beiträge