
Stability AI veröffentlicht Stable Audio 3: Schnelle Latent-Diffusion-Modelle für Audiogenerierung
Stability AI hat mit Stable Audio 3 (SA3) eine neue Modellfamilie für Audio-Generierung und -Bearbeitung vorgestellt. Die Familie umfasst eine Small- und eine Medium-Variante, für beide werden Open Weights veröffentlicht. Die Small-Variante ist so ressourcenschonend, dass sie auf einem MacBook Pro M4 per CPU läuft, während Medium auf Consumer-GPUs mit mindestens 8 GB VRAM betrieben werden kann. Beide Modelle erzeugen Stereo-Audio mit 44,1 kHz und wurden mit einer dreistufigen Trainings-Pipeline entwickelt: Flow Matching, Distillation Warmup und adversariales Post-Training. Auf dem BBC Sound Effects Benchmark bei 5 Sekunden Generierungsdauer erzielt SA3 Medium einen Fréchet Audio Distance (FAD) von 0,369 — damit unterbietet es alle im Paper bewerteten Open-Weight-Baselines. Das Release richtet sich an Entwickler, die hochwertige Audiogenerierung lokal oder in schlanken Inference-Setups einsetzen wollen, ohne auf proprietäre Cloud-Dienste angewiesen zu sein.
- SA3 Small läuft vollständig auf CPU eines MacBook Pro M4 — kein dediziertes GPU erforderlich.
- SA3 Medium benötigt eine Consumer-GPU mit mindestens 8 GB VRAM.
- Beide Varianten generieren Stereo-Audio mit 44,1 kHz Abtastrate.
- Dreistufige Trainings-Pipeline: Flow Matching → Distillation Warmup → Adversarial Post-Training.
- FAD 0,369 auf BBC Sound Effects Benchmark (5 Sek.) — bestes Ergebnis unter allen evaluierten Open-Weight-Modellen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

Stability AI veröffentlicht Stable Audio 3: Schnelle Latent-Diffusion-Modelle für Audiogenerierung
Stability AI hat mit Stable Audio 3 (SA3) eine neue Modellfamilie für Audio-Generierung und -Bearbeitung vorgestellt. Die Familie umfasst eine Small- und eine Medium-Variante, für beide werden Open Weights veröffentlicht. Die Small-Variante ist so ressourcenschonend, dass sie auf einem MacBook Pro M4 per CPU läuft, während Medium auf Consumer-GPUs mit mindestens 8 GB VRAM betrieben werden kann. Beide Modelle erzeugen Stereo-Audio mit 44,1 kHz und wurden mit einer dreistufigen Trainings-Pipeline entwickelt: Flow Matching, Distillation Warmup und adversariales Post-Training. Auf dem BBC Sound Effects Benchmark bei 5 Sekunden Generierungsdauer erzielt SA3 Medium einen Fréchet Audio Distance (FAD) von 0,369 — damit unterbietet es alle im Paper bewerteten Open-Weight-Baselines. Das Release richtet sich an Entwickler, die hochwertige Audiogenerierung lokal oder in schlanken Inference-Setups einsetzen wollen, ohne auf proprietäre Cloud-Dienste angewiesen zu sein.
- SA3 Small läuft vollständig auf CPU eines MacBook Pro M4 — kein dediziertes GPU erforderlich.
- SA3 Medium benötigt eine Consumer-GPU mit mindestens 8 GB VRAM.
- Beide Varianten generieren Stereo-Audio mit 44,1 kHz Abtastrate.
- Dreistufige Trainings-Pipeline: Flow Matching → Distillation Warmup → Adversarial Post-Training.
- FAD 0,369 auf BBC Sound Effects Benchmark (5 Sek.) — bestes Ergebnis unter allen evaluierten Open-Weight-Modellen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.