Stability AI veröffentlicht Stable Audio 3: Schnelle Latent-Diffusion-Modelle für Audiogenerierung

Warum es zählt

SA3 Medium schlägt laut Paper alle bewerteten Open-Weight-Baselines auf dem BBC Sound Effects Benchmark und läuft bereits auf Consumer-Hardware mit 8 GB VRAM — das senkt die Einstiegshürde für lokale Audiogenerierung erheblich.

— Lumeric Redaktion

Stability AI hat mit Stable Audio 3 (SA3) eine neue Modellfamilie für Audio-Generierung und -Bearbeitung vorgestellt. Die Familie umfasst eine Small- und eine Medium-Variante, für beide werden Open Weights veröffentlicht. Die Small-Variante ist so ressourcenschonend, dass sie auf einem MacBook Pro M4 per CPU läuft, während Medium auf Consumer-GPUs mit mindestens 8 GB VRAM betrieben werden kann. Beide Modelle erzeugen Stereo-Audio mit 44,1 kHz und wurden mit einer dreistufigen Trainings-Pipeline entwickelt: Flow Matching, Distillation Warmup und adversariales Post-Training. Auf dem BBC Sound Effects Benchmark bei 5 Sekunden Generierungsdauer erzielt SA3 Medium einen Fréchet Audio Distance (FAD) von 0,369 — damit unterbietet es alle im Paper bewerteten Open-Weight-Baselines. Das Release richtet sich an Entwickler, die hochwertige Audiogenerierung lokal oder in schlanken Inference-Setups einsetzen wollen, ohne auf proprietäre Cloud-Dienste angewiesen zu sein.

Was wir noch wissen

SA3 Small läuft vollständig auf CPU eines MacBook Pro M4 — kein dediziertes GPU erforderlich.
SA3 Medium benötigt eine Consumer-GPU mit mindestens 8 GB VRAM.
Beide Varianten generieren Stereo-Audio mit 44,1 kHz Abtastrate.
Dreistufige Trainings-Pipeline: Flow Matching → Distillation Warmup → Adversarial Post-Training.
FAD 0,369 auf BBC Sound Effects Benchmark (5 Sek.) — bestes Ergebnis unter allen evaluierten Open-Weight-Modellen.

Quelle lesenmarktechpost.com

FAD 0.369

BBC Sound Effects Benchmark (5 Sek.), SA3 Medium

Foundation Modelle Open Source Multimodal

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Stability AI veröffentlicht Stable Audio 3: Schnelle Latent-Diffusion-Modelle für Audiogenerierung

ToolsStable Diffusion

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

SA3 Small läuft vollständig auf CPU eines MacBook Pro M4 — kein dediziertes GPU erforderlich.
SA3 Medium benötigt eine Consumer-GPU mit mindestens 8 GB VRAM.
Beide Varianten generieren Stereo-Audio mit 44,1 kHz Abtastrate.
Dreistufige Trainings-Pipeline: Flow Matching → Distillation Warmup → Adversarial Post-Training.
FAD 0,369 auf BBC Sound Effects Benchmark (5 Sek.) — bestes Ergebnis unter allen evaluierten Open-Weight-Modellen.

FAD 0.369

BBC Sound Effects Benchmark (5 Sek.), SA3 Medium

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Stability AI veröffentlicht Stable Audio 3: Schnelle Latent-Diffusion-Modelle für Audiogenerierung

Frag die KI zum Artikel

Verwandte Beiträge

Stability AI veröffentlicht Stable Audio 3: Schnelle Latent-Diffusion-Modelle für Audiogenerierung

Frag die KI zum Artikel

Verwandte Beiträge