Open-Source-Pipeline klont Rockys Stimme aus „Project Hail Mary" in zwei Tagen

Warum es zählt

Das Projekt zeigt einen vollständigen, reproduzierbaren Voice-Cloning-Workflow mit ausschließlich Open-Source-Tools (demucs, RVC v2, XTTS v2, pyannote) – inklusive der konkreten Dependency-Konflikte zwischen drei Python-Venvs, die solche Pipelines in der Praxis aufwändig machen.

— Lumeric Redaktion

Der Entwickler Pedram Amini hat innerhalb von zwei Tagen Rockys synthetische Computerstimme aus dem Film „Project Hail Mary" nachgebaut und alle Artefakte öffentlich zugänglich gemacht. Ausgangspunkt waren 11 per ffmpeg extrahierte Dialogschnipsel (~33 Min.), aus denen nach manueller Sichtung von ~80 Segmenten schließlich 2:10 Minuten bereinigtes Trainingsaudio (22 MB WAV) entstanden. Automatisierte Trennverfahren (Spectral Clustering, Cosine-Distance-Embeddings, Silence Splitting) scheiterten, nachdem demucs (htdemucs) die Spektren beider Filmstimmen angeglichen hatte. Im Engine-Vergleich siegte YourTTS (Coqui VITS-basiert) bei längeren Passagen; RVC v2 wurde 300 Epochen lang (~2,5 Std. auf CPU, MPS für HuBERT) trainiert und als 55-MB-.pth-Modell veröffentlicht. XTTS v2 läuft per persistentem HTTP-Server (Kaltstart 17 s → Warmstart ~3 s). Die Rocky-typischen Sprachmuster (Wort-Dreifachung, „question?"-Suffix, keine Artikel, keine Kontraktionen) wurden regelbasiert aus 269 sauberen Rocky-Zeilen des Andy-Weir-Romans abgeleitet, das passwortgeschützte PDF mit qpdf entsperrt. Drei separate Python-Venvs (3.14, 3.11, 3.10) waren nötig, da demucs, Coqui und RVC inkompatible Dependency-Ranges haben.

Was wir noch wissen

RVC v2 trainiert über 300 Epochen, ~2,5 Std. auf CPU; HuBERT-Feature-Extraktion via Apple MPS
YourTTS (Coqui VITS-basiert) gewann den Engine-Vergleich auf längeren Passagen
269 Rocky-Zeilen aus dem Andy-Weir-Roman via Multi-Pass-Regex mit Pronoun-Tracking extrahiert
Drei Python-Venvs (3.14, 3.11, 3.10) wegen inkompatibler Dependency-Ranges der Tools nötig
Alle Outputs öffentlich: Python-Skript (GitHub Gist), 22-MB-WAV, 55-MB-.pth-Modell

Quelle lesenreddit.com

Voice Open Source Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Open-Source-Pipeline klont Rockys Stimme aus „Project Hail Mary" in zwei Tagen

ToolsWhisper Claude

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

RVC v2 trainiert über 300 Epochen, ~2,5 Std. auf CPU; HuBERT-Feature-Extraktion via Apple MPS
YourTTS (Coqui VITS-basiert) gewann den Engine-Vergleich auf längeren Passagen
269 Rocky-Zeilen aus dem Andy-Weir-Roman via Multi-Pass-Regex mit Pronoun-Tracking extrahiert
Drei Python-Venvs (3.14, 3.11, 3.10) wegen inkompatibler Dependency-Ranges der Tools nötig
Alle Outputs öffentlich: Python-Skript (GitHub Gist), 22-MB-WAV, 55-MB-.pth-Modell

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Open-Source-Pipeline klont Rockys Stimme aus „Project Hail Mary" in zwei Tagen

Frag die KI zum Artikel

Verwandte Beiträge

Open-Source-Pipeline klont Rockys Stimme aus „Project Hail Mary" in zwei Tagen

Frag die KI zum Artikel

Verwandte Beiträge