Reachy Mini von Hugging Face erhält Echtzeit-Sprachsteuerung via GPT Realtime 2

Warum es zählt

Das Open-Source-Repo zeigt, wie GPT Realtime 2 via Opper als austauschbares Backend in eine Roboter-Steuerung integriert wird — inklusive Tool-Calling für physische Reaktionen in Echtzeit. Der modulare Aufbau erlaubt auch lokale Modelle als Drop-in-Ersatz.

— Lumeric Redaktion

Das Projekt entstand spontan auf einem Event, bei dem Entwickler des Unternehmens Opper einen Reachy Mini von Hugging Face vorfanden. Innerhalb einer Stunde integrierten sie eine vollständige Echtzeit-Sprachsteuerung. Das System nutzt GPT Realtime 2 als Sprachmodell, das über die Opper-Plattform geroutet wird – wodurch das Modell per One-Liner ausgetauscht werden kann, auch gegen lokale oder OS-basierte Realtime-Modelle. Der Roboter hat Zugriff auf 19 Tools, die Bewegungen (Kopf, Antennen, Körper), Emotes, Kamerazugriff und Schallrichtungserkennung abdecken. Eine Web-UI zeigt Kamerabild, Transkript und Tool-Calls live an. Besonders hervorgehoben wird die Mimikry-Funktion: Der Roboter ahmt Gesten des Gegenübers nach – Winken, Nicken, Kopfneigen. Technische Voraussetzung ist Python 3.12+, das Projekt steht unter MIT-Lizenz auf GitHub unter opper-ai/reachy-voice-realtime.

Was wir noch wissen

19 Motion- und Perception-Tools werden vom Modell direkt mid-conversation aufgerufen (Emotes, Kopf-/Antennen-/Körperbewegung, Kamera, Schallrichtung).
Routing über Opper macht das Sprachmodell zur One-Line-Konfiguration — GPT Realtime 2 ist austauschbar gegen lokale oder andere Provider.
Web-UI zeigt Kamerafeed, Transkript und Tool-Calls in Echtzeit.
Mimikry-Feature: Reachy Mini kopiert Gesten des Nutzers (Winken, Nicken, Kopfneigen).
MIT-lizenziert, Python 3.12+ erforderlich, Repo: github.com/opper-ai/reachy-voice-realtime.

Quelle lesenreddit.com

Agents Voice Robotik

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Reachy Mini von Hugging Face erhält Echtzeit-Sprachsteuerung via GPT Realtime 2

ToolsGPT Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

19 Motion- und Perception-Tools werden vom Modell direkt mid-conversation aufgerufen (Emotes, Kopf-/Antennen-/Körperbewegung, Kamera, Schallrichtung).
Routing über Opper macht das Sprachmodell zur One-Line-Konfiguration — GPT Realtime 2 ist austauschbar gegen lokale oder andere Provider.
Web-UI zeigt Kamerafeed, Transkript und Tool-Calls in Echtzeit.
Mimikry-Feature: Reachy Mini kopiert Gesten des Nutzers (Winken, Nicken, Kopfneigen).
MIT-lizenziert, Python 3.12+ erforderlich, Repo: github.com/opper-ai/reachy-voice-realtime.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Reachy Mini von Hugging Face erhält Echtzeit-Sprachsteuerung via GPT Realtime 2

Frag die KI zum Artikel

Verwandte Beiträge

Reachy Mini von Hugging Face erhält Echtzeit-Sprachsteuerung via GPT Realtime 2

Frag die KI zum Artikel

Verwandte Beiträge