Scenema Audio: Open-Source-Diffusionsmodell für expressives Zero-Shot-Voice-Cloning

Warum es zählt

Entwickler können beliebige Stimmen in jede Emotion versetzen, ohne dafür entsprechende Aufnahmen zu benötigen – und das Modell soll laut Entwicklern natürlicher klingen als Gemini 3.1 Flash TTS, besonders bei emotionaler Sprache.

— Lumeric Redaktion

Scenema Audio ist ein Diffusionsmodell für expressives Text-to-Speech und Voice Cloning, das als Teil der Video-Produktionsplattform scenema.ai entstanden ist. Das zentrale Designprinzip: Stimmidentität (wer spricht) und emotionale Performance (wie gesprochen wird) sind voneinander entkoppelt. Per Prompt lässt sich die Darstellung beschreiben – etwa „Wut", „Trauer" oder „kindliche Begeisterung" – während optionales Referenzaudio die Stimme festlegt. Das Modell basiert auf einem Diffusionsprozess und wurde von 50 auf 8 Denoising-Schritte destilliert, ohne nennenswerten Qualitätsverlust. Typische Schwächen sind gelegentliche Wiederholungen oder Nonsense-Ausgaben bei bestimmten Seeds; der empfohlene Workflow ist generieren, bestes Take auswählen und bei Bedarf nachbearbeiten. Die Bereitstellung erfolgt als Docker-Container mit REST API und automatischer VRAM-Verwaltung – von INT8 auf 16-GB-GPUs bis hin zu bf16 auf 48 GB. Komplexe Eigennamen müssen phonetisch buchstabiert werden, da kein Aussprache-Wörterbuch vorhanden ist. Die Modellgewichte basieren auf der LTX-2 Community License, der gesamte Inferenz- und Pipeline-Code steht unter MIT-Lizenz.

Was wir noch wissen

Stimmidentität (Referenzaudio) und emotionale Performance (Textprompt) sind unabhängige Steuerparameter
Docker-Container mit REST API; VRAM-Konfigurationen für 16 GB (INT8), 24 GB (INT8+NF4) und 48 GB (bf16)
Diffusionspass auf 8 Schritte destilliert (Ausgangsbasis: 50 Schritte)
Laut Entwicklern klanglich natürlicher als Gemini 3.1 Flash TTS, besonders bei emotionaler Sprache
ComfyUI-Node-Unterstützung in den nächsten Wochen geplant; Code unter MIT-Lizenz auf GitHub

Quelle lesenreddit.com

Voice Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Scenema Audio: Open-Source-Diffusionsmodell für expressives Zero-Shot-Voice-Cloning

ToolsGemini Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Stimmidentität (Referenzaudio) und emotionale Performance (Textprompt) sind unabhängige Steuerparameter
Docker-Container mit REST API; VRAM-Konfigurationen für 16 GB (INT8), 24 GB (INT8+NF4) und 48 GB (bf16)
Diffusionspass auf 8 Schritte destilliert (Ausgangsbasis: 50 Schritte)
Laut Entwicklern klanglich natürlicher als Gemini 3.1 Flash TTS, besonders bei emotionaler Sprache
ComfyUI-Node-Unterstützung in den nächsten Wochen geplant; Code unter MIT-Lizenz auf GitHub

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Scenema Audio: Open-Source-Diffusionsmodell für expressives Zero-Shot-Voice-Cloning

Frag die KI zum Artikel

Verwandte Beiträge

Scenema Audio: Open-Source-Diffusionsmodell für expressives Zero-Shot-Voice-Cloning

Frag die KI zum Artikel

Verwandte Beiträge