RedNote veröffentlicht dots.tts: 2B-Parameter Open-Source-TTS mit 48 kHz
dots.tts stammt von RedNote (Xiaohongshu), der chinesischen Social-Media-Plattform, die auch als „Rotes Buch" bekannt ist, und wurde Anfang Juni 2026 als Open-Source-Projekt unter der Apache-2.0-Lizenz veröffentlicht. Das Modell mit 2 Milliarden Parametern setzt auf eine vollständig kontinuierliche Architektur – ein Ansatz, der sich von gängigen TTS-Systemen abhebt, die typischerweise auf diskrete Codec-Tokens (z. B. EnCodec oder SoundStream) als Zwischendarstellung setzen. Indem dots.tts direkt im kontinuierlichen Merkmalsraum operiert, entfällt die Quantisierungsstufe, was potenzielle Qualitätsverluste durch Tokenisierung vermeidet. Ebenfalls ungewöhnlich ist der Verzicht auf eine Phonem-Pipeline: Statt Text zunächst in phonetische Zwischenrepräsentationen zu übersetzen, erfolgt die Synthese direkt aus dem Rohtext. Die Ausgabe erfolgt mit 48 kHz, was oberhalb der für Sprache üblichen 22–24 kHz liegt und näher an Musik-Audio-Qualität heranreicht. Zero-Shot-Voice-Cloning ermöglicht es, eine neue Stimme anhand eines kurzen Audiobeispiels zu imitieren, ohne das Modell nachtrainieren zu müssen. Technische Details sind in einem begleitenden Arxiv-Bericht (2608.16894) dokumentiert; Code und Modellgewichte sind auf GitHub verfügbar.
- Architektur vollständig kontinuierlich – keine diskreten Codec-Tokens als Zwischenschicht, direkter Text-zu-Waveform-Pfad.
- Ausgabe-Sampling-Rate: 48 kHz – deutlich höher als bei den meisten verbreiteten TTS-Systemen (22–24 kHz).
- Kein Phonem-Frontend erforderlich: Text wird ohne phonetische Vorverarbeitung direkt in Sprache überführt.
- Lizenz: Apache 2.0 – erlaubt kommerzielle Nutzung und Modifikation ohne Einschränkungen.
- Begleitender Technical Report auf Arxiv (arXiv:2608.16894) beschreibt Architektur und Evaluierung im Detail.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
RedNote veröffentlicht dots.tts: 2B-Parameter Open-Source-TTS mit 48 kHz
dots.tts stammt von RedNote (Xiaohongshu), der chinesischen Social-Media-Plattform, die auch als „Rotes Buch" bekannt ist, und wurde Anfang Juni 2026 als Open-Source-Projekt unter der Apache-2.0-Lizenz veröffentlicht. Das Modell mit 2 Milliarden Parametern setzt auf eine vollständig kontinuierliche Architektur – ein Ansatz, der sich von gängigen TTS-Systemen abhebt, die typischerweise auf diskrete Codec-Tokens (z. B. EnCodec oder SoundStream) als Zwischendarstellung setzen. Indem dots.tts direkt im kontinuierlichen Merkmalsraum operiert, entfällt die Quantisierungsstufe, was potenzielle Qualitätsverluste durch Tokenisierung vermeidet. Ebenfalls ungewöhnlich ist der Verzicht auf eine Phonem-Pipeline: Statt Text zunächst in phonetische Zwischenrepräsentationen zu übersetzen, erfolgt die Synthese direkt aus dem Rohtext. Die Ausgabe erfolgt mit 48 kHz, was oberhalb der für Sprache üblichen 22–24 kHz liegt und näher an Musik-Audio-Qualität heranreicht. Zero-Shot-Voice-Cloning ermöglicht es, eine neue Stimme anhand eines kurzen Audiobeispiels zu imitieren, ohne das Modell nachtrainieren zu müssen. Technische Details sind in einem begleitenden Arxiv-Bericht (2608.16894) dokumentiert; Code und Modellgewichte sind auf GitHub verfügbar.
- Architektur vollständig kontinuierlich – keine diskreten Codec-Tokens als Zwischenschicht, direkter Text-zu-Waveform-Pfad.
- Ausgabe-Sampling-Rate: 48 kHz – deutlich höher als bei den meisten verbreiteten TTS-Systemen (22–24 kHz).
- Kein Phonem-Frontend erforderlich: Text wird ohne phonetische Vorverarbeitung direkt in Sprache überführt.
- Lizenz: Apache 2.0 – erlaubt kommerzielle Nutzung und Modifikation ohne Einschränkungen.
- Begleitender Technical Report auf Arxiv (arXiv:2608.16894) beschreibt Architektur und Evaluierung im Detail.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.