Flare-TTS 28M: Open-Source-TTS-Modell vom Community-Entwickler

Warum es zählt

Das Modell zeigt, dass kompakte TTS-Systeme mit Single-GPU-Training reproduzierbar sind – für AI-Builder relevant als Referenzpunkt für eigene Low-Budget-TTS-Experimente. Die Qualität ist laut Autor noch „robotisch", der Code und Weights sind frei verfügbar.

— Lumeric Redaktion

Flare-TTS 28M ist das erste Text-to-Speech-Modell des Community-Entwicklers LH-Tech_AI, das vollständig von Grund auf neu trainiert wurde – ohne Vortraining auf fremden Checkpoints. Als Hardware-Basis diente eine einzelne NVIDIA A6000 GPU, das Training dauerte rund 24 Stunden über ca. 300 Epochen. Trainingsdaten ist der öffentlich verfügbare LJSpeech-Datensatz, ein Standardkorpus für englischsprachige TTS-Forschung mit Aufnahmen einer einzelnen Sprecherin. Das Modell ist auf Hugging Face unter LH-Tech-AI/Flare-TTS-28M frei zugänglich. Der Entwickler räumt selbst ein, dass die Sprachausgabe noch „etwas robotisch" klingt, sieht das Release aber als ersten Schritt und Grundlage für weitere Iterationen. Die Veröffentlichung demonstriert, dass der Einstieg in eigene TTS-Entwicklung mit überschaubarem Hardware-Budget und öffentlichen Datensätzen möglich ist.

Was wir noch wissen

Trainiert auf einem einzelnen NVIDIA A6000 GPU über ~24 Stunden und ~300 Epochen
Verwendet den LJSpeech-Datensatz (englischsprachig, Single-Speaker)
Modell und Weights frei auf Hugging Face verfügbar (LH-Tech-AI/Flare-TTS-28M)
Laut Entwickler noch hörbar robotische Sprachqualität – weiteres Fine-Tuning geplant
Vollständig from-scratch-Training ohne Nutzung existierender Basis-Checkpoints

Quelle lesenreddit.com

28M Parameter

Modellgröße, trainiert auf LJSpeech

Voice Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Flare-TTS 28M: Open-Source-TTS-Modell vom Community-Entwickler

ToolsNVIDIA Hardware Hugging Face

CompaniesHugging Face NVIDIA

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Trainiert auf einem einzelnen NVIDIA A6000 GPU über ~24 Stunden und ~300 Epochen
Verwendet den LJSpeech-Datensatz (englischsprachig, Single-Speaker)
Modell und Weights frei auf Hugging Face verfügbar (LH-Tech-AI/Flare-TTS-28M)
Laut Entwickler noch hörbar robotische Sprachqualität – weiteres Fine-Tuning geplant
Vollständig from-scratch-Training ohne Nutzung existierender Basis-Checkpoints

28M Parameter

Modellgröße, trainiert auf LJSpeech

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Flare-TTS 28M: Open-Source-TTS-Modell vom Community-Entwickler

Frag die KI zum Artikel

Verwandte Beiträge

Flare-TTS 28M: Open-Source-TTS-Modell vom Community-Entwickler

Frag die KI zum Artikel

Verwandte Beiträge