Open-Source-Pipeline klont Rockys Stimme aus „Project Hail Mary" in zwei Tagen
Der Entwickler Pedram Amini hat innerhalb von zwei Tagen Rockys synthetische Computerstimme aus dem Film „Project Hail Mary" nachgebaut und alle Artefakte öffentlich zugänglich gemacht. Ausgangspunkt waren 11 per ffmpeg extrahierte Dialogschnipsel (~33 Min.), aus denen nach manueller Sichtung von ~80 Segmenten schließlich 2:10 Minuten bereinigtes Trainingsaudio (22 MB WAV) entstanden. Automatisierte Trennverfahren (Spectral Clustering, Cosine-Distance-Embeddings, Silence Splitting) scheiterten, nachdem demucs (htdemucs) die Spektren beider Filmstimmen angeglichen hatte. Im Engine-Vergleich siegte YourTTS (Coqui VITS-basiert) bei längeren Passagen; RVC v2 wurde 300 Epochen lang (~2,5 Std. auf CPU, MPS für HuBERT) trainiert und als 55-MB-.pth-Modell veröffentlicht. XTTS v2 läuft per persistentem HTTP-Server (Kaltstart 17 s → Warmstart ~3 s). Die Rocky-typischen Sprachmuster (Wort-Dreifachung, „question?"-Suffix, keine Artikel, keine Kontraktionen) wurden regelbasiert aus 269 sauberen Rocky-Zeilen des Andy-Weir-Romans abgeleitet, das passwortgeschützte PDF mit qpdf entsperrt. Drei separate Python-Venvs (3.14, 3.11, 3.10) waren nötig, da demucs, Coqui und RVC inkompatible Dependency-Ranges haben.
- RVC v2 trainiert über 300 Epochen, ~2,5 Std. auf CPU; HuBERT-Feature-Extraktion via Apple MPS
- YourTTS (Coqui VITS-basiert) gewann den Engine-Vergleich auf längeren Passagen
- 269 Rocky-Zeilen aus dem Andy-Weir-Roman via Multi-Pass-Regex mit Pronoun-Tracking extrahiert
- Drei Python-Venvs (3.14, 3.11, 3.10) wegen inkompatibler Dependency-Ranges der Tools nötig
- Alle Outputs öffentlich: Python-Skript (GitHub Gist), 22-MB-WAV, 55-MB-.pth-Modell
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
Derpy Turtle: GUI-Tool kombiniert Kokoro TTS mit RVC für lokales Voice-Cloning
- LAUNCHreddit.com3w
GLaDOS TTS Build Kit: Portal-Besitzer trainieren eigene GLaDOS-Stimme lokal
- FORSCHUNGarxiv.org2w
X-Voice: 0,4B-Modell klont beliebige Stimmen in 30 Sprachen ohne Transkript
- LAUNCHmarktechpost.com2d
OmniVoice Studio: Open-Source-Alternative zu ElevenLabs mit lokalem Betrieb
Open-Source-Pipeline klont Rockys Stimme aus „Project Hail Mary" in zwei Tagen
Der Entwickler Pedram Amini hat innerhalb von zwei Tagen Rockys synthetische Computerstimme aus dem Film „Project Hail Mary" nachgebaut und alle Artefakte öffentlich zugänglich gemacht. Ausgangspunkt waren 11 per ffmpeg extrahierte Dialogschnipsel (~33 Min.), aus denen nach manueller Sichtung von ~80 Segmenten schließlich 2:10 Minuten bereinigtes Trainingsaudio (22 MB WAV) entstanden. Automatisierte Trennverfahren (Spectral Clustering, Cosine-Distance-Embeddings, Silence Splitting) scheiterten, nachdem demucs (htdemucs) die Spektren beider Filmstimmen angeglichen hatte. Im Engine-Vergleich siegte YourTTS (Coqui VITS-basiert) bei längeren Passagen; RVC v2 wurde 300 Epochen lang (~2,5 Std. auf CPU, MPS für HuBERT) trainiert und als 55-MB-.pth-Modell veröffentlicht. XTTS v2 läuft per persistentem HTTP-Server (Kaltstart 17 s → Warmstart ~3 s). Die Rocky-typischen Sprachmuster (Wort-Dreifachung, „question?"-Suffix, keine Artikel, keine Kontraktionen) wurden regelbasiert aus 269 sauberen Rocky-Zeilen des Andy-Weir-Romans abgeleitet, das passwortgeschützte PDF mit qpdf entsperrt. Drei separate Python-Venvs (3.14, 3.11, 3.10) waren nötig, da demucs, Coqui und RVC inkompatible Dependency-Ranges haben.
- RVC v2 trainiert über 300 Epochen, ~2,5 Std. auf CPU; HuBERT-Feature-Extraktion via Apple MPS
- YourTTS (Coqui VITS-basiert) gewann den Engine-Vergleich auf längeren Passagen
- 269 Rocky-Zeilen aus dem Andy-Weir-Roman via Multi-Pass-Regex mit Pronoun-Tracking extrahiert
- Drei Python-Venvs (3.14, 3.11, 3.10) wegen inkompatibler Dependency-Ranges der Tools nötig
- Alle Outputs öffentlich: Python-Skript (GitHub Gist), 22-MB-WAV, 55-MB-.pth-Modell
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
Derpy Turtle: GUI-Tool kombiniert Kokoro TTS mit RVC für lokales Voice-Cloning
- LAUNCHreddit.com3w
GLaDOS TTS Build Kit: Portal-Besitzer trainieren eigene GLaDOS-Stimme lokal
- FORSCHUNGarxiv.org2w
X-Voice: 0,4B-Modell klont beliebige Stimmen in 30 Sprachen ohne Transkript
- LAUNCHmarktechpost.com2d
OmniVoice Studio: Open-Source-Alternative zu ElevenLabs mit lokalem Betrieb