Reachy Mini läuft jetzt vollständig lokal mit speech-to-speech-Pipeline
Der Hugging-Face-Blogpost von Amir Mahla und Andres Marafioti beschreibt, wie sich der Roboter Reachy Mini vollständig ohne Cloud-Dienste betreiben lässt. Herzstück ist die Open-Source-Bibliothek speech-to-speech, die eine vierstufige Kaskade aus Voice Activity Detection (VAD), Speech-to-Text (STT), LLM und Text-to-Speech (TTS) zu einem einzigen CLI-Kommando bündelt. Der Server exponiert einen WebSocket-Endpunkt unter /v1/realtime, der das Realtime-API-Protokoll spricht und direkt vom Reachy-Mini-Desktop-App angesprochen werden kann. Als LLM-Backend empfehlen die Autoren llama.cpp mit dem Modell Gemma 4 (GGUF-Format, 64k-Kontextfenster, Flash Attention). Für VAD kommt Silero VAD v5 zum Einsatz, für STT Parakeet-TDT und für TTS Qwen3-TTS. Das System unterstützt auch externe Inference-Engines über das Responses-API-Protokoll – so lässt sich der LLM-Prozess vom Voice-Loop entkoppeln, um Latenz zu reduzieren. Alle Komponenten sind einzeln austauschbar, was schnelle Upgrades ermöglicht, sobald neue Modelle auf dem Hub erscheinen.
- Pipeline-Stufen: Silero VAD v5 (CPU-tauglich), Parakeet-TDT (STT), Gemma 4 via llama.cpp (LLM), Qwen3-TTS (multilingual, expressiv)
- llama.cpp-Flags: -np 2 für parallele Slots, -c 65536 für 64k-Kontextfenster, -fa on für Flash Attention, --swa-full für schnelleres Prompt-Processing
- WebSocket-Endpunkt /v1/realtime ist Realtime-API-kompatibel – Reachy Mini spricht das Protokoll nativ
- Zwei Betriebsmodi: --mode local (alles in einem Prozess) und Responses-API-Modus (LLM in separatem Terminal)
- Keine Cloud, keine API-Keys, kein Datentransfer nach außen – vollständige Kontrolle über die Hardware
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Reachy Mini läuft jetzt vollständig lokal mit speech-to-speech-Pipeline
Der Hugging-Face-Blogpost von Amir Mahla und Andres Marafioti beschreibt, wie sich der Roboter Reachy Mini vollständig ohne Cloud-Dienste betreiben lässt. Herzstück ist die Open-Source-Bibliothek speech-to-speech, die eine vierstufige Kaskade aus Voice Activity Detection (VAD), Speech-to-Text (STT), LLM und Text-to-Speech (TTS) zu einem einzigen CLI-Kommando bündelt. Der Server exponiert einen WebSocket-Endpunkt unter /v1/realtime, der das Realtime-API-Protokoll spricht und direkt vom Reachy-Mini-Desktop-App angesprochen werden kann. Als LLM-Backend empfehlen die Autoren llama.cpp mit dem Modell Gemma 4 (GGUF-Format, 64k-Kontextfenster, Flash Attention). Für VAD kommt Silero VAD v5 zum Einsatz, für STT Parakeet-TDT und für TTS Qwen3-TTS. Das System unterstützt auch externe Inference-Engines über das Responses-API-Protokoll – so lässt sich der LLM-Prozess vom Voice-Loop entkoppeln, um Latenz zu reduzieren. Alle Komponenten sind einzeln austauschbar, was schnelle Upgrades ermöglicht, sobald neue Modelle auf dem Hub erscheinen.
- Pipeline-Stufen: Silero VAD v5 (CPU-tauglich), Parakeet-TDT (STT), Gemma 4 via llama.cpp (LLM), Qwen3-TTS (multilingual, expressiv)
- llama.cpp-Flags: -np 2 für parallele Slots, -c 65536 für 64k-Kontextfenster, -fa on für Flash Attention, --swa-full für schnelleres Prompt-Processing
- WebSocket-Endpunkt /v1/realtime ist Realtime-API-kompatibel – Reachy Mini spricht das Protokoll nativ
- Zwei Betriebsmodi: --mode local (alles in einem Prozess) und Responses-API-Modus (LLM in separatem Terminal)
- Keine Cloud, keine API-Keys, kein Datentransfer nach außen – vollständige Kontrolle über die Hardware
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.