Derpy Turtle: GUI-Tool kombiniert Kokoro TTS mit RVC für lokales Voice-Cloning
Derpy Turtle: The Kokoro Trainer ist ein Windows-GUI-Tool, das die Sprachsynthese-Engine Kokoro mit dem RVC-Stimmkonvertierungsframework kombiniert. Der Nutzer lädt einen Ziel-Voice-Clip, sucht und verfeinert passende Kokoro-`.pt`-Stimmen, trainiert ein eigenes RVC-Modell auf dem Zielaudio und generiert anschließend Sprachausgaben, die automatisch durch das RVC-Modell konvertiert werden. Das Endergebnis wird als `_rvc.wav` gespeichert. Entwickler /u/Great-Investigator30 erklärt, dass ein hoher Kokoro-Similarity-Score allein nicht ausreicht – selbst nach langen Optimierungsläufen blieb dieser im niedrigen bis mittleren 80%-Bereich, ohne dass das Ergebnis überzeugend klang. Die eigentliche Stimmidentität liefert RVC, während Kokoro für saubere Sprach-Grundlage sorgt. Das Tool unterstützt CUDA: Auf einer RTX 3060 sank die Laufzeit eines Durchlaufs von rund 26 Stunden auf CPU auf etwa 4 Stunden. Zur Ausstattung zählen Presets, Queue-Management, ETA-Logging, Transkript-Mapping pro Audio und ein Setup-Launcher als `.exe`. Die Nutzung ist für Privat- und Forschungszwecke kostenlos; für kommerzielle Verwendung ist eine separate Vereinbarung erforderlich.
- Workflow: RVC-Modell auf Zielaudio trainieren → Kokoro-Suche starten → RVC-Konvertierung aktivieren → _rvc.wav ausgeben
- Kokoro-Similarity-Score bleibt pre-RVC; finales Audio kann besser klingen als der Score suggeriert
- RTX 3060: CUDA reduziert Trainingslauf von ~26 Stunden (CPU) auf ~4 Stunden
- Kleineres, sauberes Trainings-Dataset schlägt größere, verrauschte Datenmengen
- Kostenlos für nicht-kommerzielle Nutzung; kommerzielle Nutzung erfordert Kontaktaufnahme mit dem Entwickler
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com6d
Open-Source-Pipeline klont Rockys Stimme aus „Project Hail Mary" in zwei Tagen
- MEINUNGreddit.com3w
Reddit-Sammlung: Nischenprogramme für lokale KI-Modelle
- MEINUNGreddit.com3w
OmniVoice ermöglicht One-Shot-Voice-Cloning ohne komplexe Konfiguration
- LAUNCHreddit.com3w
Voice-Agenten lokal bauen: Tutorial für Whisper + GGUF + Kokoro
Derpy Turtle: GUI-Tool kombiniert Kokoro TTS mit RVC für lokales Voice-Cloning
Derpy Turtle: The Kokoro Trainer ist ein Windows-GUI-Tool, das die Sprachsynthese-Engine Kokoro mit dem RVC-Stimmkonvertierungsframework kombiniert. Der Nutzer lädt einen Ziel-Voice-Clip, sucht und verfeinert passende Kokoro-`.pt`-Stimmen, trainiert ein eigenes RVC-Modell auf dem Zielaudio und generiert anschließend Sprachausgaben, die automatisch durch das RVC-Modell konvertiert werden. Das Endergebnis wird als `_rvc.wav` gespeichert. Entwickler /u/Great-Investigator30 erklärt, dass ein hoher Kokoro-Similarity-Score allein nicht ausreicht – selbst nach langen Optimierungsläufen blieb dieser im niedrigen bis mittleren 80%-Bereich, ohne dass das Ergebnis überzeugend klang. Die eigentliche Stimmidentität liefert RVC, während Kokoro für saubere Sprach-Grundlage sorgt. Das Tool unterstützt CUDA: Auf einer RTX 3060 sank die Laufzeit eines Durchlaufs von rund 26 Stunden auf CPU auf etwa 4 Stunden. Zur Ausstattung zählen Presets, Queue-Management, ETA-Logging, Transkript-Mapping pro Audio und ein Setup-Launcher als `.exe`. Die Nutzung ist für Privat- und Forschungszwecke kostenlos; für kommerzielle Verwendung ist eine separate Vereinbarung erforderlich.
- Workflow: RVC-Modell auf Zielaudio trainieren → Kokoro-Suche starten → RVC-Konvertierung aktivieren → _rvc.wav ausgeben
- Kokoro-Similarity-Score bleibt pre-RVC; finales Audio kann besser klingen als der Score suggeriert
- RTX 3060: CUDA reduziert Trainingslauf von ~26 Stunden (CPU) auf ~4 Stunden
- Kleineres, sauberes Trainings-Dataset schlägt größere, verrauschte Datenmengen
- Kostenlos für nicht-kommerzielle Nutzung; kommerzielle Nutzung erfordert Kontaktaufnahme mit dem Entwickler
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com6d
Open-Source-Pipeline klont Rockys Stimme aus „Project Hail Mary" in zwei Tagen
- MEINUNGreddit.com3w
Reddit-Sammlung: Nischenprogramme für lokale KI-Modelle
- MEINUNGreddit.com3w
OmniVoice ermöglicht One-Shot-Voice-Cloning ohne komplexe Konfiguration
- LAUNCHreddit.com3w
Voice-Agenten lokal bauen: Tutorial für Whisper + GGUF + Kokoro