vibevoice.cpp: Microsofts VibeVoice als C++-Engine für CPU/CUDA/Metal

Warum es zählt

Ermöglicht offline TTS mit Voice Cloning und lange ASR-Transkription (bis 17 Min) ohne Python-Runtime und ML-Frameworks. Reduziert Deployment-Komplexität und Hardware-Anforderungen für lokale Sprachverarbeitung deutlich.

— Lumeric Redaktion

vibevoice.cpp ist eine von der LocalAI-Community entwickelte C++-Reimplementierung des Microsofts VibeVoice-Modells im GGML-Format. Die Engine bietet zwei Hauptfunktionen: TTS mit Voice Cloning (nutzt 30-Sekunden-Referenzclips, 0.5B Realtime-Modell) und Long-Form ASR mit Speaker-Diarization (7B-Modell, JSON-Output mit Zeitstempel und Sprecher-Labels). Das System wurde erfolgreich mit 17-Minuten-Audio getestet. Der wichtigste Aspekt ist die Python-freie Inference: es lädt vLLM, torch und Python zur Laufzeit nicht, sondern läuft nativ als C++-Binäre oder einbettbare Library (libvibevoice.so mit flacher C-ABI). Unterstützte Backend sind CPU, CUDA, Metal, Vulkan und hipBLAS. Performance auf CUDA (68s Sample) liegt bei RTF 0.41 mit ~6 GB RAM, auf CPU (R9) bei RTF 2.20 mit ~8 GB. Eine 17-Minuten-Transkripton benötigt auf CPU ~1929 Sekunden mit Peak-RSS von 26 GB. Die Implementierung besteht Closed-Loop-Tests (TTS→ASR mit 100% Wort-Recall). Limitierungen sind Speicherverbrauch der Encoder-Aktivierungen und fehlende Streaming-Ausgabe.

Was wir noch wissen

0.5B TTS-Modell mit 24 kHz Voice-Cloning aus 30s-Referenzclips, 7B ASR mit Diarization und JSON-Output
CUDA-Inferenz (Q4_K): RTF 0.41 auf 68s Audio, CPU (R9): RTF 2.20 bei 8 GB RAM
17-Minuten-Audio erfolgreich transkribiert; CPU-Peak-RSS 26 GB bei Q8_0 Quantisierung
Pre-konvertierte GGUFs auf huggingface.co/mudler/vibevoice.cpp-models; MIT-Lizenz
Integriert als Backend in LocalAI; Single Binary oder libvibevoice.so für Embedding

Quelle lesenreddit.com

Open Source Voice Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

vibevoice.cpp: Microsofts VibeVoice als C++-Engine für CPU/CUDA/Metal

ToolsQwen Hugging Face

CompaniesHugging Face Microsoft AI

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

0.5B TTS-Modell mit 24 kHz Voice-Cloning aus 30s-Referenzclips, 7B ASR mit Diarization und JSON-Output
CUDA-Inferenz (Q4_K): RTF 0.41 auf 68s Audio, CPU (R9): RTF 2.20 bei 8 GB RAM
17-Minuten-Audio erfolgreich transkribiert; CPU-Peak-RSS 26 GB bei Q8_0 Quantisierung
Pre-konvertierte GGUFs auf huggingface.co/mudler/vibevoice.cpp-models; MIT-Lizenz
Integriert als Backend in LocalAI; Single Binary oder libvibevoice.so für Embedding

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

vibevoice.cpp: Microsofts VibeVoice als C++-Engine für CPU/CUDA/Metal

Frag die KI zum Artikel

Verwandte Beiträge

vibevoice.cpp: Microsofts VibeVoice als C++-Engine für CPU/CUDA/Metal

Frag die KI zum Artikel

Verwandte Beiträge