Flare-TTS 28M: Open-Source-TTS-Modell vom Community-Entwickler
Flare-TTS 28M ist das erste Text-to-Speech-Modell des Community-Entwicklers LH-Tech_AI, das vollständig von Grund auf neu trainiert wurde – ohne Vortraining auf fremden Checkpoints. Als Hardware-Basis diente eine einzelne NVIDIA A6000 GPU, das Training dauerte rund 24 Stunden über ca. 300 Epochen. Trainingsdaten ist der öffentlich verfügbare LJSpeech-Datensatz, ein Standardkorpus für englischsprachige TTS-Forschung mit Aufnahmen einer einzelnen Sprecherin. Das Modell ist auf Hugging Face unter LH-Tech-AI/Flare-TTS-28M frei zugänglich. Der Entwickler räumt selbst ein, dass die Sprachausgabe noch „etwas robotisch" klingt, sieht das Release aber als ersten Schritt und Grundlage für weitere Iterationen. Die Veröffentlichung demonstriert, dass der Einstieg in eigene TTS-Entwicklung mit überschaubarem Hardware-Budget und öffentlichen Datensätzen möglich ist.
- Trainiert auf einem einzelnen NVIDIA A6000 GPU über ~24 Stunden und ~300 Epochen
- Verwendet den LJSpeech-Datensatz (englischsprachig, Single-Speaker)
- Modell und Weights frei auf Hugging Face verfügbar (LH-Tech-AI/Flare-TTS-28M)
- Laut Entwickler noch hörbar robotische Sprachqualität – weiteres Fine-Tuning geplant
- Vollständig from-scratch-Training ohne Nutzung existierender Basis-Checkpoints
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
ResembleAI veröffentlicht DramaBox – expressives Voice-Modell auf LTX-2.3-Basis
- MEINUNGreddit.com2w
Suche nach kleinem TTS-Modell unter 600M Params für Low-Resource-Sprache
- LAUNCHreddit.com3w
Community-Entwickler veröffentlicht SHARD: 40M-Parameter-LLM für IoT-Aufgaben
- LAUNCHreddit.com6d
SupraLabs veröffentlicht Supra-50M: Kompaktes 50M-Modell schlägt GPT-2 auf mehreren Benchmarks
Flare-TTS 28M: Open-Source-TTS-Modell vom Community-Entwickler
Flare-TTS 28M ist das erste Text-to-Speech-Modell des Community-Entwicklers LH-Tech_AI, das vollständig von Grund auf neu trainiert wurde – ohne Vortraining auf fremden Checkpoints. Als Hardware-Basis diente eine einzelne NVIDIA A6000 GPU, das Training dauerte rund 24 Stunden über ca. 300 Epochen. Trainingsdaten ist der öffentlich verfügbare LJSpeech-Datensatz, ein Standardkorpus für englischsprachige TTS-Forschung mit Aufnahmen einer einzelnen Sprecherin. Das Modell ist auf Hugging Face unter LH-Tech-AI/Flare-TTS-28M frei zugänglich. Der Entwickler räumt selbst ein, dass die Sprachausgabe noch „etwas robotisch" klingt, sieht das Release aber als ersten Schritt und Grundlage für weitere Iterationen. Die Veröffentlichung demonstriert, dass der Einstieg in eigene TTS-Entwicklung mit überschaubarem Hardware-Budget und öffentlichen Datensätzen möglich ist.
- Trainiert auf einem einzelnen NVIDIA A6000 GPU über ~24 Stunden und ~300 Epochen
- Verwendet den LJSpeech-Datensatz (englischsprachig, Single-Speaker)
- Modell und Weights frei auf Hugging Face verfügbar (LH-Tech-AI/Flare-TTS-28M)
- Laut Entwickler noch hörbar robotische Sprachqualität – weiteres Fine-Tuning geplant
- Vollständig from-scratch-Training ohne Nutzung existierender Basis-Checkpoints
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
ResembleAI veröffentlicht DramaBox – expressives Voice-Modell auf LTX-2.3-Basis
- MEINUNGreddit.com2w
Suche nach kleinem TTS-Modell unter 600M Params für Low-Resource-Sprache
- LAUNCHreddit.com3w
Community-Entwickler veröffentlicht SHARD: 40M-Parameter-LLM für IoT-Aufgaben
- LAUNCHreddit.com6d
SupraLabs veröffentlicht Supra-50M: Kompaktes 50M-Modell schlägt GPT-2 auf mehreren Benchmarks