Reachy Mini läuft jetzt vollständig lokal mit speech-to-speech-Pipeline

Warum es zählt

Wer Reachy Mini einsetzt, kann Audiodaten vollständig lokal verarbeiten – ohne API-Kosten und ohne dass Daten das eigene Netzwerk verlassen. Jede Pipeline-Komponente (VAD, STT, LLM, TTS) ist austauschbar, sobald bessere Modelle erscheinen.

— Lumeric Redaktion

Der Hugging-Face-Blogpost von Amir Mahla und Andres Marafioti beschreibt, wie sich der Roboter Reachy Mini vollständig ohne Cloud-Dienste betreiben lässt. Herzstück ist die Open-Source-Bibliothek speech-to-speech, die eine vierstufige Kaskade aus Voice Activity Detection (VAD), Speech-to-Text (STT), LLM und Text-to-Speech (TTS) zu einem einzigen CLI-Kommando bündelt. Der Server exponiert einen WebSocket-Endpunkt unter /v1/realtime, der das Realtime-API-Protokoll spricht und direkt vom Reachy-Mini-Desktop-App angesprochen werden kann. Als LLM-Backend empfehlen die Autoren llama.cpp mit dem Modell Gemma 4 (GGUF-Format, 64k-Kontextfenster, Flash Attention). Für VAD kommt Silero VAD v5 zum Einsatz, für STT Parakeet-TDT und für TTS Qwen3-TTS. Das System unterstützt auch externe Inference-Engines über das Responses-API-Protokoll – so lässt sich der LLM-Prozess vom Voice-Loop entkoppeln, um Latenz zu reduzieren. Alle Komponenten sind einzeln austauschbar, was schnelle Upgrades ermöglicht, sobald neue Modelle auf dem Hub erscheinen.

Was wir noch wissen

Pipeline-Stufen: Silero VAD v5 (CPU-tauglich), Parakeet-TDT (STT), Gemma 4 via llama.cpp (LLM), Qwen3-TTS (multilingual, expressiv)
llama.cpp-Flags: -np 2 für parallele Slots, -c 65536 für 64k-Kontextfenster, -fa on für Flash Attention, --swa-full für schnelleres Prompt-Processing
WebSocket-Endpunkt /v1/realtime ist Realtime-API-kompatibel – Reachy Mini spricht das Protokoll nativ
Zwei Betriebsmodi: --mode local (alles in einem Prozess) und Responses-API-Modus (LLM in separatem Terminal)
Keine Cloud, keine API-Keys, kein Datentransfer nach außen – vollständige Kontrolle über die Hardware

Quelle lesenhuggingface.co

Robotik Voice Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Reachy Mini läuft jetzt vollständig lokal mit speech-to-speech-Pipeline

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Pipeline-Stufen: Silero VAD v5 (CPU-tauglich), Parakeet-TDT (STT), Gemma 4 via llama.cpp (LLM), Qwen3-TTS (multilingual, expressiv)
llama.cpp-Flags: -np 2 für parallele Slots, -c 65536 für 64k-Kontextfenster, -fa on für Flash Attention, --swa-full für schnelleres Prompt-Processing
WebSocket-Endpunkt /v1/realtime ist Realtime-API-kompatibel – Reachy Mini spricht das Protokoll nativ
Zwei Betriebsmodi: --mode local (alles in einem Prozess) und Responses-API-Modus (LLM in separatem Terminal)
Keine Cloud, keine API-Keys, kein Datentransfer nach außen – vollständige Kontrolle über die Hardware

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Reachy Mini läuft jetzt vollständig lokal mit speech-to-speech-Pipeline

Frag die KI zum Artikel

Verwandte Beiträge

Reachy Mini läuft jetzt vollständig lokal mit speech-to-speech-Pipeline

Frag die KI zum Artikel

Verwandte Beiträge