vibevoice.cpp: Microsofts VibeVoice als C++-Engine für CPU/CUDA/Metal
vibevoice.cpp ist eine von der LocalAI-Community entwickelte C++-Reimplementierung des Microsofts VibeVoice-Modells im GGML-Format. Die Engine bietet zwei Hauptfunktionen: TTS mit Voice Cloning (nutzt 30-Sekunden-Referenzclips, 0.5B Realtime-Modell) und Long-Form ASR mit Speaker-Diarization (7B-Modell, JSON-Output mit Zeitstempel und Sprecher-Labels). Das System wurde erfolgreich mit 17-Minuten-Audio getestet. Der wichtigste Aspekt ist die Python-freie Inference: es lädt vLLM, torch und Python zur Laufzeit nicht, sondern läuft nativ als C++-Binäre oder einbettbare Library (libvibevoice.so mit flacher C-ABI). Unterstützte Backend sind CPU, CUDA, Metal, Vulkan und hipBLAS. Performance auf CUDA (68s Sample) liegt bei RTF 0.41 mit ~6 GB RAM, auf CPU (R9) bei RTF 2.20 mit ~8 GB. Eine 17-Minuten-Transkripton benötigt auf CPU ~1929 Sekunden mit Peak-RSS von 26 GB. Die Implementierung besteht Closed-Loop-Tests (TTS→ASR mit 100% Wort-Recall). Limitierungen sind Speicherverbrauch der Encoder-Aktivierungen und fehlende Streaming-Ausgabe.
- 0.5B TTS-Modell mit 24 kHz Voice-Cloning aus 30s-Referenzclips, 7B ASR mit Diarization und JSON-Output
- CUDA-Inferenz (Q4_K): RTF 0.41 auf 68s Audio, CPU (R9): RTF 2.20 bei 8 GB RAM
- 17-Minuten-Audio erfolgreich transkribiert; CPU-Peak-RSS 26 GB bei Q8_0 Quantisierung
- Pre-konvertierte GGUFs auf huggingface.co/mudler/vibevoice.cpp-models; MIT-Lizenz
- Integriert als Backend in LocalAI; Single Binary oder libvibevoice.so für Embedding
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
X-Voice: 0,4B-Modell klont beliebige Stimmen in 30 Sprachen ohne Transkript
- LAUNCHreddit.com1w
OpenMOSS: Pure-C++-TTS-Pipeline auf GGML-Basis veröffentlicht
- LAUNCHreddit.com3w
Qwen3-TTS in OpenVINO: Optimierungsansatz für lokale Sprachsynthese
- LAUNCHreddit.com3w
GLaDOS TTS Build Kit: Portal-Besitzer trainieren eigene GLaDOS-Stimme lokal
vibevoice.cpp: Microsofts VibeVoice als C++-Engine für CPU/CUDA/Metal
vibevoice.cpp ist eine von der LocalAI-Community entwickelte C++-Reimplementierung des Microsofts VibeVoice-Modells im GGML-Format. Die Engine bietet zwei Hauptfunktionen: TTS mit Voice Cloning (nutzt 30-Sekunden-Referenzclips, 0.5B Realtime-Modell) und Long-Form ASR mit Speaker-Diarization (7B-Modell, JSON-Output mit Zeitstempel und Sprecher-Labels). Das System wurde erfolgreich mit 17-Minuten-Audio getestet. Der wichtigste Aspekt ist die Python-freie Inference: es lädt vLLM, torch und Python zur Laufzeit nicht, sondern läuft nativ als C++-Binäre oder einbettbare Library (libvibevoice.so mit flacher C-ABI). Unterstützte Backend sind CPU, CUDA, Metal, Vulkan und hipBLAS. Performance auf CUDA (68s Sample) liegt bei RTF 0.41 mit ~6 GB RAM, auf CPU (R9) bei RTF 2.20 mit ~8 GB. Eine 17-Minuten-Transkripton benötigt auf CPU ~1929 Sekunden mit Peak-RSS von 26 GB. Die Implementierung besteht Closed-Loop-Tests (TTS→ASR mit 100% Wort-Recall). Limitierungen sind Speicherverbrauch der Encoder-Aktivierungen und fehlende Streaming-Ausgabe.
- 0.5B TTS-Modell mit 24 kHz Voice-Cloning aus 30s-Referenzclips, 7B ASR mit Diarization und JSON-Output
- CUDA-Inferenz (Q4_K): RTF 0.41 auf 68s Audio, CPU (R9): RTF 2.20 bei 8 GB RAM
- 17-Minuten-Audio erfolgreich transkribiert; CPU-Peak-RSS 26 GB bei Q8_0 Quantisierung
- Pre-konvertierte GGUFs auf huggingface.co/mudler/vibevoice.cpp-models; MIT-Lizenz
- Integriert als Backend in LocalAI; Single Binary oder libvibevoice.so für Embedding
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
X-Voice: 0,4B-Modell klont beliebige Stimmen in 30 Sprachen ohne Transkript
- LAUNCHreddit.com1w
OpenMOSS: Pure-C++-TTS-Pipeline auf GGML-Basis veröffentlicht
- LAUNCHreddit.com3w
Qwen3-TTS in OpenVINO: Optimierungsansatz für lokale Sprachsynthese
- LAUNCHreddit.com3w
GLaDOS TTS Build Kit: Portal-Besitzer trainieren eigene GLaDOS-Stimme lokal