Reachy Mini von Hugging Face erhält Echtzeit-Sprachsteuerung via GPT Realtime 2
Das Projekt entstand spontan auf einem Event, bei dem Entwickler des Unternehmens Opper einen Reachy Mini von Hugging Face vorfanden. Innerhalb einer Stunde integrierten sie eine vollständige Echtzeit-Sprachsteuerung. Das System nutzt GPT Realtime 2 als Sprachmodell, das über die Opper-Plattform geroutet wird – wodurch das Modell per One-Liner ausgetauscht werden kann, auch gegen lokale oder OS-basierte Realtime-Modelle. Der Roboter hat Zugriff auf 19 Tools, die Bewegungen (Kopf, Antennen, Körper), Emotes, Kamerazugriff und Schallrichtungserkennung abdecken. Eine Web-UI zeigt Kamerabild, Transkript und Tool-Calls live an. Besonders hervorgehoben wird die Mimikry-Funktion: Der Roboter ahmt Gesten des Gegenübers nach – Winken, Nicken, Kopfneigen. Technische Voraussetzung ist Python 3.12+, das Projekt steht unter MIT-Lizenz auf GitHub unter opper-ai/reachy-voice-realtime.
- 19 Motion- und Perception-Tools werden vom Modell direkt mid-conversation aufgerufen (Emotes, Kopf-/Antennen-/Körperbewegung, Kamera, Schallrichtung).
- Routing über Opper macht das Sprachmodell zur One-Line-Konfiguration — GPT Realtime 2 ist austauschbar gegen lokale oder andere Provider.
- Web-UI zeigt Kamerafeed, Transkript und Tool-Calls in Echtzeit.
- Mimikry-Feature: Reachy Mini kopiert Gesten des Nutzers (Winken, Nicken, Kopfneigen).
- MIT-lizenziert, Python 3.12+ erforderlich, Repo: github.com/opper-ai/reachy-voice-realtime.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Reachy Mini von Hugging Face erhält Echtzeit-Sprachsteuerung via GPT Realtime 2
Das Projekt entstand spontan auf einem Event, bei dem Entwickler des Unternehmens Opper einen Reachy Mini von Hugging Face vorfanden. Innerhalb einer Stunde integrierten sie eine vollständige Echtzeit-Sprachsteuerung. Das System nutzt GPT Realtime 2 als Sprachmodell, das über die Opper-Plattform geroutet wird – wodurch das Modell per One-Liner ausgetauscht werden kann, auch gegen lokale oder OS-basierte Realtime-Modelle. Der Roboter hat Zugriff auf 19 Tools, die Bewegungen (Kopf, Antennen, Körper), Emotes, Kamerazugriff und Schallrichtungserkennung abdecken. Eine Web-UI zeigt Kamerabild, Transkript und Tool-Calls live an. Besonders hervorgehoben wird die Mimikry-Funktion: Der Roboter ahmt Gesten des Gegenübers nach – Winken, Nicken, Kopfneigen. Technische Voraussetzung ist Python 3.12+, das Projekt steht unter MIT-Lizenz auf GitHub unter opper-ai/reachy-voice-realtime.
- 19 Motion- und Perception-Tools werden vom Modell direkt mid-conversation aufgerufen (Emotes, Kopf-/Antennen-/Körperbewegung, Kamera, Schallrichtung).
- Routing über Opper macht das Sprachmodell zur One-Line-Konfiguration — GPT Realtime 2 ist austauschbar gegen lokale oder andere Provider.
- Web-UI zeigt Kamerafeed, Transkript und Tool-Calls in Echtzeit.
- Mimikry-Feature: Reachy Mini kopiert Gesten des Nutzers (Winken, Nicken, Kopfneigen).
- MIT-lizenziert, Python 3.12+ erforderlich, Repo: github.com/opper-ai/reachy-voice-realtime.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.