Suche nach kleinem TTS-Modell unter 600M Params für Low-Resource-Sprache

Warum es zählt

Wer TTS-Systeme für Low-Resource-Sprachen lokal trainieren will, stößt schnell an Grenzen: Orpheus ist zu groß, Qwen3-Varianten liefern schlechte Qualität oder sind zu langsam – die Community-Suche zeigt, dass es kaum erprobte kleine Fine-Tune-Optionen unter 600M Params gibt.

— Lumeric Redaktion

Der Reddit-Nutzer ContentAmbassador953 fragt in r/LocalLLaMA nach praxiserprobten Empfehlungen für kleine TTS-Modelle (unter 600M Parameter), die sich lokal auf einem nicht-englischen Datensatz feintunen lassen. Als Trainingsgrundlage liegen 150 Stunden sehr sauberes Einzel-Speaker-Audio mit präzisen Transkripten und Ausspracheangaben sowie rund 45.000 Textzeilen vor – ein vergleichsweise großes Low-Resource-Dataset. Bereits getestete Modelle scheiden aus verschiedenen Gründen aus: Orpheus liefert gute Qualität, ist aber zu groß; Qwen3 0.6B produziert schlechte Ergebnisse; Qwen3 1.7B ist für den lokalen Einsatz zu langsam. Gesucht wird explizit etwas Leichtgewichtiges, das sich einfach feintunen lässt und für nicht-englische Sprachen geeignet ist. Der Post spiegelt eine breitere Lücke im Open-Source-TTS-Ökosystem wider: Während englischsprachige Modelle gut abgedeckt sind, fehlen robuste, kleine Alternativen für andere Sprachen.

Was wir noch wissen

Datensatz: ~150 Stunden sauberes Einzel-Speaker-Audio mit Transkripten und Aussprache-Annotations
~45.000 Textzeilen als Trainingsgrundlage vorhanden
Orpheus getestet: gute Qualität, aber Modell zu groß (über 600M Params)
Qwen3 0.6B getestet: schlechte Ergebnisse; Qwen3 1.7B: zu langsam für lokalen Einsatz
Anforderung: leichtgewichtig, einfach feintuning-fähig, geeignet für Low-Resource/nicht-englische Sprachen

Quelle lesenreddit.com

Voice Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Suche nach kleinem TTS-Modell unter 600M Params für Low-Resource-Sprache

ToolsQwen

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Datensatz: ~150 Stunden sauberes Einzel-Speaker-Audio mit Transkripten und Aussprache-Annotations
~45.000 Textzeilen als Trainingsgrundlage vorhanden
Orpheus getestet: gute Qualität, aber Modell zu groß (über 600M Params)
Qwen3 0.6B getestet: schlechte Ergebnisse; Qwen3 1.7B: zu langsam für lokalen Einsatz
Anforderung: leichtgewichtig, einfach feintuning-fähig, geeignet für Low-Resource/nicht-englische Sprachen

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Suche nach kleinem TTS-Modell unter 600M Params für Low-Resource-Sprache

Frag die KI zum Artikel

Verwandte Beiträge

Suche nach kleinem TTS-Modell unter 600M Params für Low-Resource-Sprache

Frag die KI zum Artikel

Verwandte Beiträge