Derpy Turtle: GUI-Tool kombiniert Kokoro TTS mit RVC für lokales Voice-Cloning

Warum es zählt

Wer lokal Stimmen klonen will, kann nun Kokoro-Sprachqualität und RVC-Stimmidentität per GUI kombinieren, ohne einzelne Tools manuell zu verknüpfen. Auf einer RTX 3060 reduziert CUDA den Trainingsaufwand von ~26 auf ~4 Stunden.

— Lumeric Redaktion

Derpy Turtle: The Kokoro Trainer ist ein Windows-GUI-Tool, das die Sprachsynthese-Engine Kokoro mit dem RVC-Stimmkonvertierungsframework kombiniert. Der Nutzer lädt einen Ziel-Voice-Clip, sucht und verfeinert passende Kokoro-`.pt`-Stimmen, trainiert ein eigenes RVC-Modell auf dem Zielaudio und generiert anschließend Sprachausgaben, die automatisch durch das RVC-Modell konvertiert werden. Das Endergebnis wird als `_rvc.wav` gespeichert. Entwickler /u/Great-Investigator30 erklärt, dass ein hoher Kokoro-Similarity-Score allein nicht ausreicht – selbst nach langen Optimierungsläufen blieb dieser im niedrigen bis mittleren 80%-Bereich, ohne dass das Ergebnis überzeugend klang. Die eigentliche Stimmidentität liefert RVC, während Kokoro für saubere Sprach-Grundlage sorgt. Das Tool unterstützt CUDA: Auf einer RTX 3060 sank die Laufzeit eines Durchlaufs von rund 26 Stunden auf CPU auf etwa 4 Stunden. Zur Ausstattung zählen Presets, Queue-Management, ETA-Logging, Transkript-Mapping pro Audio und ein Setup-Launcher als `.exe`. Die Nutzung ist für Privat- und Forschungszwecke kostenlos; für kommerzielle Verwendung ist eine separate Vereinbarung erforderlich.

Was wir noch wissen

Workflow: RVC-Modell auf Zielaudio trainieren → Kokoro-Suche starten → RVC-Konvertierung aktivieren → _rvc.wav ausgeben
Kokoro-Similarity-Score bleibt pre-RVC; finales Audio kann besser klingen als der Score suggeriert
RTX 3060: CUDA reduziert Trainingslauf von ~26 Stunden (CPU) auf ~4 Stunden
Kleineres, sauberes Trainings-Dataset schlägt größere, verrauschte Datenmengen
Kostenlos für nicht-kommerzielle Nutzung; kommerzielle Nutzung erfordert Kontaktaufnahme mit dem Entwickler

Quelle lesenreddit.com

Voice Open Source Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Derpy Turtle: GUI-Tool kombiniert Kokoro TTS mit RVC für lokales Voice-Cloning

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Workflow: RVC-Modell auf Zielaudio trainieren → Kokoro-Suche starten → RVC-Konvertierung aktivieren → _rvc.wav ausgeben
Kokoro-Similarity-Score bleibt pre-RVC; finales Audio kann besser klingen als der Score suggeriert
RTX 3060: CUDA reduziert Trainingslauf von ~26 Stunden (CPU) auf ~4 Stunden
Kleineres, sauberes Trainings-Dataset schlägt größere, verrauschte Datenmengen
Kostenlos für nicht-kommerzielle Nutzung; kommerzielle Nutzung erfordert Kontaktaufnahme mit dem Entwickler

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Derpy Turtle: GUI-Tool kombiniert Kokoro TTS mit RVC für lokales Voice-Cloning

Frag die KI zum Artikel

Verwandte Beiträge

Derpy Turtle: GUI-Tool kombiniert Kokoro TTS mit RVC für lokales Voice-Cloning

Frag die KI zum Artikel

Verwandte Beiträge