Scenema Audio: Open-Source-Diffusionsmodell für expressives Zero-Shot-Voice-Cloning
Scenema Audio ist ein Diffusionsmodell für expressives Text-to-Speech und Voice Cloning, das als Teil der Video-Produktionsplattform scenema.ai entstanden ist. Das zentrale Designprinzip: Stimmidentität (wer spricht) und emotionale Performance (wie gesprochen wird) sind voneinander entkoppelt. Per Prompt lässt sich die Darstellung beschreiben – etwa „Wut", „Trauer" oder „kindliche Begeisterung" – während optionales Referenzaudio die Stimme festlegt. Das Modell basiert auf einem Diffusionsprozess und wurde von 50 auf 8 Denoising-Schritte destilliert, ohne nennenswerten Qualitätsverlust. Typische Schwächen sind gelegentliche Wiederholungen oder Nonsense-Ausgaben bei bestimmten Seeds; der empfohlene Workflow ist generieren, bestes Take auswählen und bei Bedarf nachbearbeiten. Die Bereitstellung erfolgt als Docker-Container mit REST API und automatischer VRAM-Verwaltung – von INT8 auf 16-GB-GPUs bis hin zu bf16 auf 48 GB. Komplexe Eigennamen müssen phonetisch buchstabiert werden, da kein Aussprache-Wörterbuch vorhanden ist. Die Modellgewichte basieren auf der LTX-2 Community License, der gesamte Inferenz- und Pipeline-Code steht unter MIT-Lizenz.
- Stimmidentität (Referenzaudio) und emotionale Performance (Textprompt) sind unabhängige Steuerparameter
- Docker-Container mit REST API; VRAM-Konfigurationen für 16 GB (INT8), 24 GB (INT8+NF4) und 48 GB (bf16)
- Diffusionspass auf 8 Schritte destilliert (Ausgangsbasis: 50 Schritte)
- Laut Entwicklern klanglich natürlicher als Gemini 3.1 Flash TTS, besonders bei emotionaler Sprache
- ComfyUI-Node-Unterstützung in den nächsten Wochen geplant; Code unter MIT-Lizenz auf GitHub
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
ResembleAI veröffentlicht DramaBox – expressives Voice-Modell auf LTX-2.3-Basis
- MEINUNGreddit.com3w
OmniVoice ermöglicht One-Shot-Voice-Cloning ohne komplexe Konfiguration
- LAUNCHthe-decoder.com3w
xAI ermöglicht Stimm-Klonen mit einer Minute Sprachaufnahme
- FORSCHUNGarxiv.org2w
X-Voice: 0,4B-Modell klont beliebige Stimmen in 30 Sprachen ohne Transkript
Scenema Audio: Open-Source-Diffusionsmodell für expressives Zero-Shot-Voice-Cloning
Scenema Audio ist ein Diffusionsmodell für expressives Text-to-Speech und Voice Cloning, das als Teil der Video-Produktionsplattform scenema.ai entstanden ist. Das zentrale Designprinzip: Stimmidentität (wer spricht) und emotionale Performance (wie gesprochen wird) sind voneinander entkoppelt. Per Prompt lässt sich die Darstellung beschreiben – etwa „Wut", „Trauer" oder „kindliche Begeisterung" – während optionales Referenzaudio die Stimme festlegt. Das Modell basiert auf einem Diffusionsprozess und wurde von 50 auf 8 Denoising-Schritte destilliert, ohne nennenswerten Qualitätsverlust. Typische Schwächen sind gelegentliche Wiederholungen oder Nonsense-Ausgaben bei bestimmten Seeds; der empfohlene Workflow ist generieren, bestes Take auswählen und bei Bedarf nachbearbeiten. Die Bereitstellung erfolgt als Docker-Container mit REST API und automatischer VRAM-Verwaltung – von INT8 auf 16-GB-GPUs bis hin zu bf16 auf 48 GB. Komplexe Eigennamen müssen phonetisch buchstabiert werden, da kein Aussprache-Wörterbuch vorhanden ist. Die Modellgewichte basieren auf der LTX-2 Community License, der gesamte Inferenz- und Pipeline-Code steht unter MIT-Lizenz.
- Stimmidentität (Referenzaudio) und emotionale Performance (Textprompt) sind unabhängige Steuerparameter
- Docker-Container mit REST API; VRAM-Konfigurationen für 16 GB (INT8), 24 GB (INT8+NF4) und 48 GB (bf16)
- Diffusionspass auf 8 Schritte destilliert (Ausgangsbasis: 50 Schritte)
- Laut Entwicklern klanglich natürlicher als Gemini 3.1 Flash TTS, besonders bei emotionaler Sprache
- ComfyUI-Node-Unterstützung in den nächsten Wochen geplant; Code unter MIT-Lizenz auf GitHub
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
ResembleAI veröffentlicht DramaBox – expressives Voice-Modell auf LTX-2.3-Basis
- MEINUNGreddit.com3w
OmniVoice ermöglicht One-Shot-Voice-Cloning ohne komplexe Konfiguration
- LAUNCHthe-decoder.com3w
xAI ermöglicht Stimm-Klonen mit einer Minute Sprachaufnahme
- FORSCHUNGarxiv.org2w
X-Voice: 0,4B-Modell klont beliebige Stimmen in 30 Sprachen ohne Transkript