OpenMOSS veröffentlicht MOSS-TTS-v1.5 mit 31 Sprachen und expliziter Pause-Steuerung

Warum es zählt

Entwickler erhalten mit v1.5 stabileres Voice-Cloning, konsistentere Prosodie und explizite Pause-Steuerung im Text – besonders nützlich für lange TTS-Pipelines und Code-Switching-Anwendungen mit 31 Sprachen inkl. Kantonesisch, Hindi und Tagalog.

— Lumeric Redaktion

MOSS-TTS-v1.5 ist das Nachfolgemodell von MOSS-TTS 1.0 des OpenMOSS-Teams und baut direkt auf dessen Funktionsumfang auf. Das Modell unterstützt Zero-Shot-Voice-Cloning, Long-Form-Sprachsynthese, Token-Level-Duration-Control sowie Pinyin/IPA-Aussprachesteuerung. Gegenüber Version 1.0 wurden vor allem die mehrsprachige Synthese, die Stabilität beim Voice-Cloning und die Interpunktions-Prosodie verbessert. Neu ist die explizite Pause-Steuerung über Inline-Marker wie „[pause 3.2s]", die sich direkt in den Eingabetext einfügen lassen. Die Sprachunterstützung wurde von 20 auf 31 Sprachen ausgebaut – neu hinzugekommen sind u. a. Kantonesisch, Niederländisch, Finnisch, Hindi, Malaiisch, Rumänisch, Suaheli, Tagalog, Thailändisch und Vietnamesisch. Sprach-Tags können über den Parameter `language` im `build_user_message`-Aufruf gesetzt werden, was laut den Entwicklern bei fast allen unterstützten Sprachen zu besseren Ergebnissen führt als der sprachunabhängige Modus. Zusätzlich veröffentlichte das Team das begleitende Modell MOSS-SoundEffect-v2.0 auf Hugging Face.

Was wir noch wissen

MOSS-TTS-v1.5 erweitert die Sprachunterstützung von 20 auf 31 Sprachen, u. a. Kantonesisch, Hindi, Tagalog und Vietnamesisch.
Neue Inline-Pause-Marker wie [pause 3.2s] ermöglichen präzise zeitliche Steuerung im Fließtext.
Verbessertes Voice-Cloning: höhere Speaker-Similarity und geringere Varianz bei wiederholten Generierungen.
v1.5 behandelt Szenarien, in denen die Referenz-Audio deutlich länger als der Zieltext ist, zuverlässiger als 1.0.
Parallel veröffentlicht: MOSS-SoundEffect-v2.0 auf Hugging Face vom selben Team.

Quelle lesenreddit.com

Voice Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

OpenMOSS veröffentlicht MOSS-TTS-v1.5 mit 31 Sprachen und expliziter Pause-Steuerung

ToolsHugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

MOSS-TTS-v1.5 erweitert die Sprachunterstützung von 20 auf 31 Sprachen, u. a. Kantonesisch, Hindi, Tagalog und Vietnamesisch.
Neue Inline-Pause-Marker wie [pause 3.2s] ermöglichen präzise zeitliche Steuerung im Fließtext.
Verbessertes Voice-Cloning: höhere Speaker-Similarity und geringere Varianz bei wiederholten Generierungen.
v1.5 behandelt Szenarien, in denen die Referenz-Audio deutlich länger als der Zieltext ist, zuverlässiger als 1.0.
Parallel veröffentlicht: MOSS-SoundEffect-v2.0 auf Hugging Face vom selben Team.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

OpenMOSS veröffentlicht MOSS-TTS-v1.5 mit 31 Sprachen und expliziter Pause-Steuerung

Frag die KI zum Artikel

Verwandte Beiträge

OpenMOSS veröffentlicht MOSS-TTS-v1.5 mit 31 Sprachen und expliziter Pause-Steuerung

Frag die KI zum Artikel

Verwandte Beiträge