RedNote veröffentlicht dots.tts: 2B-Parameter Open-Source-TTS mit 48 kHz

Warum es zählt

Das Modell verzichtet auf Codec-Tokens und Phonem-Pipeline, was die Integration vereinfacht. Die Apache-2.0-Lizenz erlaubt kommerzielle Nutzung; Zero-Shot-Voice-Cloning ist direkt ohne Fine-Tuning nutzbar.

— Lumeric Redaktion

dots.tts stammt von RedNote (Xiaohongshu), der chinesischen Social-Media-Plattform, die auch als „Rotes Buch" bekannt ist, und wurde Anfang Juni 2026 als Open-Source-Projekt unter der Apache-2.0-Lizenz veröffentlicht. Das Modell mit 2 Milliarden Parametern setzt auf eine vollständig kontinuierliche Architektur – ein Ansatz, der sich von gängigen TTS-Systemen abhebt, die typischerweise auf diskrete Codec-Tokens (z. B. EnCodec oder SoundStream) als Zwischendarstellung setzen. Indem dots.tts direkt im kontinuierlichen Merkmalsraum operiert, entfällt die Quantisierungsstufe, was potenzielle Qualitätsverluste durch Tokenisierung vermeidet. Ebenfalls ungewöhnlich ist der Verzicht auf eine Phonem-Pipeline: Statt Text zunächst in phonetische Zwischenrepräsentationen zu übersetzen, erfolgt die Synthese direkt aus dem Rohtext. Die Ausgabe erfolgt mit 48 kHz, was oberhalb der für Sprache üblichen 22–24 kHz liegt und näher an Musik-Audio-Qualität heranreicht. Zero-Shot-Voice-Cloning ermöglicht es, eine neue Stimme anhand eines kurzen Audiobeispiels zu imitieren, ohne das Modell nachtrainieren zu müssen. Technische Details sind in einem begleitenden Arxiv-Bericht (2608.16894) dokumentiert; Code und Modellgewichte sind auf GitHub verfügbar.

Was wir noch wissen

Architektur vollständig kontinuierlich – keine diskreten Codec-Tokens als Zwischenschicht, direkter Text-zu-Waveform-Pfad.
Ausgabe-Sampling-Rate: 48 kHz – deutlich höher als bei den meisten verbreiteten TTS-Systemen (22–24 kHz).
Kein Phonem-Frontend erforderlich: Text wird ohne phonetische Vorverarbeitung direkt in Sprache überführt.
Lizenz: Apache 2.0 – erlaubt kommerzielle Nutzung und Modifikation ohne Einschränkungen.
Begleitender Technical Report auf Arxiv (arXiv:2608.16894) beschreibt Architektur und Evaluierung im Detail.

Quelle lesenreddit.com

Open Source Voice Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

RedNote veröffentlicht dots.tts: 2B-Parameter Open-Source-TTS mit 48 kHz

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Architektur vollständig kontinuierlich – keine diskreten Codec-Tokens als Zwischenschicht, direkter Text-zu-Waveform-Pfad.
Ausgabe-Sampling-Rate: 48 kHz – deutlich höher als bei den meisten verbreiteten TTS-Systemen (22–24 kHz).
Kein Phonem-Frontend erforderlich: Text wird ohne phonetische Vorverarbeitung direkt in Sprache überführt.
Lizenz: Apache 2.0 – erlaubt kommerzielle Nutzung und Modifikation ohne Einschränkungen.
Begleitender Technical Report auf Arxiv (arXiv:2608.16894) beschreibt Architektur und Evaluierung im Detail.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

RedNote veröffentlicht dots.tts: 2B-Parameter Open-Source-TTS mit 48 kHz

Frag die KI zum Artikel

Verwandte Beiträge

RedNote veröffentlicht dots.tts: 2B-Parameter Open-Source-TTS mit 48 kHz

Frag die KI zum Artikel

Verwandte Beiträge