OpenMOSS veröffentlicht MOSS-TTS-v1.5 mit 31 Sprachen und expliziter Pause-Steuerung
MOSS-TTS-v1.5 ist das Nachfolgemodell von MOSS-TTS 1.0 des OpenMOSS-Teams und baut direkt auf dessen Funktionsumfang auf. Das Modell unterstützt Zero-Shot-Voice-Cloning, Long-Form-Sprachsynthese, Token-Level-Duration-Control sowie Pinyin/IPA-Aussprachesteuerung. Gegenüber Version 1.0 wurden vor allem die mehrsprachige Synthese, die Stabilität beim Voice-Cloning und die Interpunktions-Prosodie verbessert. Neu ist die explizite Pause-Steuerung über Inline-Marker wie „[pause 3.2s]", die sich direkt in den Eingabetext einfügen lassen. Die Sprachunterstützung wurde von 20 auf 31 Sprachen ausgebaut – neu hinzugekommen sind u. a. Kantonesisch, Niederländisch, Finnisch, Hindi, Malaiisch, Rumänisch, Suaheli, Tagalog, Thailändisch und Vietnamesisch. Sprach-Tags können über den Parameter `language` im `build_user_message`-Aufruf gesetzt werden, was laut den Entwicklern bei fast allen unterstützten Sprachen zu besseren Ergebnissen führt als der sprachunabhängige Modus. Zusätzlich veröffentlichte das Team das begleitende Modell MOSS-SoundEffect-v2.0 auf Hugging Face.
- MOSS-TTS-v1.5 erweitert die Sprachunterstützung von 20 auf 31 Sprachen, u. a. Kantonesisch, Hindi, Tagalog und Vietnamesisch.
- Neue Inline-Pause-Marker wie [pause 3.2s] ermöglichen präzise zeitliche Steuerung im Fließtext.
- Verbessertes Voice-Cloning: höhere Speaker-Similarity und geringere Varianz bei wiederholten Generierungen.
- v1.5 behandelt Szenarien, in denen die Referenz-Audio deutlich länger als der Zieltext ist, zuverlässiger als 1.0.
- Parallel veröffentlicht: MOSS-SoundEffect-v2.0 auf Hugging Face vom selben Team.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
X-Voice: 0,4B-Modell klont beliebige Stimmen in 30 Sprachen ohne Transkript
- LAUNCHtogether.ai2w
Together AI launcht Voice Finder: 600+ Stimmen per Prompt oder Audio durchsuchen
- LAUNCHreddit.com3w
Pocket TTS veröffentlicht mehrsprachiges Modell mit Int8-Optimierung
- LAUNCHthe-decoder.com2w
OpenAI bringt GPT-5-Reasoning in Echtzeit-Sprachmodelle
OpenMOSS veröffentlicht MOSS-TTS-v1.5 mit 31 Sprachen und expliziter Pause-Steuerung
MOSS-TTS-v1.5 ist das Nachfolgemodell von MOSS-TTS 1.0 des OpenMOSS-Teams und baut direkt auf dessen Funktionsumfang auf. Das Modell unterstützt Zero-Shot-Voice-Cloning, Long-Form-Sprachsynthese, Token-Level-Duration-Control sowie Pinyin/IPA-Aussprachesteuerung. Gegenüber Version 1.0 wurden vor allem die mehrsprachige Synthese, die Stabilität beim Voice-Cloning und die Interpunktions-Prosodie verbessert. Neu ist die explizite Pause-Steuerung über Inline-Marker wie „[pause 3.2s]", die sich direkt in den Eingabetext einfügen lassen. Die Sprachunterstützung wurde von 20 auf 31 Sprachen ausgebaut – neu hinzugekommen sind u. a. Kantonesisch, Niederländisch, Finnisch, Hindi, Malaiisch, Rumänisch, Suaheli, Tagalog, Thailändisch und Vietnamesisch. Sprach-Tags können über den Parameter `language` im `build_user_message`-Aufruf gesetzt werden, was laut den Entwicklern bei fast allen unterstützten Sprachen zu besseren Ergebnissen führt als der sprachunabhängige Modus. Zusätzlich veröffentlichte das Team das begleitende Modell MOSS-SoundEffect-v2.0 auf Hugging Face.
- MOSS-TTS-v1.5 erweitert die Sprachunterstützung von 20 auf 31 Sprachen, u. a. Kantonesisch, Hindi, Tagalog und Vietnamesisch.
- Neue Inline-Pause-Marker wie [pause 3.2s] ermöglichen präzise zeitliche Steuerung im Fließtext.
- Verbessertes Voice-Cloning: höhere Speaker-Similarity und geringere Varianz bei wiederholten Generierungen.
- v1.5 behandelt Szenarien, in denen die Referenz-Audio deutlich länger als der Zieltext ist, zuverlässiger als 1.0.
- Parallel veröffentlicht: MOSS-SoundEffect-v2.0 auf Hugging Face vom selben Team.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
X-Voice: 0,4B-Modell klont beliebige Stimmen in 30 Sprachen ohne Transkript
- LAUNCHtogether.ai2w
Together AI launcht Voice Finder: 600+ Stimmen per Prompt oder Audio durchsuchen
- LAUNCHreddit.com3w
Pocket TTS veröffentlicht mehrsprachiges Modell mit Int8-Optimierung
- LAUNCHthe-decoder.com2w
OpenAI bringt GPT-5-Reasoning in Echtzeit-Sprachmodelle