OpenAI rearchitektet WebRTC-Stack für Ultra-Low-Latency Voice AI

ToolsGPT

CompaniesOpenAI

Warum es zählt

Für Entwickler von Real-time-AI-Anwendungen zeigt OpenAI konkret, wie man WebRTC für Milliarden-Scale optimiert: statt per-Session-Ports nutzt man Relay-Architektur, stateful ICE/DTLS-Sessions bleiben stabil, und globale Routing hält erste Hop-Latenz niedrig. Das ist praktisch relevant für alle, die conversational AI oder Realtime API bauen.

— Lumeric Redaktion

OpenAI dokumentiert den technischen Aufbau seiner Voice-AI-Infrastruktur, die ChatGPT Voice, die Realtime API und interne Research-Projekte antreibt. Das Unternehmen rearchitekturierte seinen WebRTC-Stack, um drei zentrale Anforderungen bei globaler Skalierung zu erfüllen: schnelle Verbindungsaufbau, stabile Echtzeit-Media-Latenzen unter 900 Millionen wöchentlichen Nutzern und zuverlässiges Turn-Taking ohne Pausen oder Unterbrechungen. Ausgangspunkt war WebRTC als offener Standard für verschlüsselte Audio-Streaming mit standardisiertem NAT-Traversal, Codec-Negotiation und Echo-Cancellation. OpenAI verwarf das klassische SFU-Modell (Selective Forwarding Unit), das in Multiparty-Szenarien üblich ist, zugunsten eines Transceiver-Ansatzes: ein WebRTC-Edge-Service terminiert die Client-Verbindung und konvertiert Media/Events in interne Protokolle für Inference, Transkription, Speech-Generierung und Orchestration. Der Kern-Deployment-Challenge bestand darin, dass traditionelle WebRTC-Patterns (eine Port pro Session, stateful ICE/DTLS, globales Routing) bei Kubernetes-Infrastruktur nicht effizient skalieren. Die Lösung: Split-Relay-Plus-Transceiver-Architektur mit stabiler Session-Ownership.

Was wir noch wissen

Über 900 Millionen wöchentlich aktive Nutzer als Skalierungsziel für Voice-Infrastruktur
Transceiver-Design statt SFU-Modell für 1:1-Gesprräche mit extremer Latenz-Sensitivität
WebRTC-Stack gebaut auf Pion Go-Library mit Justin Uberti und Sean DuBois als Architekten-Kollegen bei OpenAI
Split-Relay-Architektur löst Konflikt zwischen One-Port-Per-Session-Termination und Kubernetes-Skalierbarkeit

Quelle lesenopenai.com

Inferenz Infra Voice Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

OpenAI rearchitektet WebRTC-Stack für Ultra-Low-Latency Voice AI

ToolsGPT

CompaniesOpenAI

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Über 900 Millionen wöchentlich aktive Nutzer als Skalierungsziel für Voice-Infrastruktur
Transceiver-Design statt SFU-Modell für 1:1-Gesprräche mit extremer Latenz-Sensitivität
WebRTC-Stack gebaut auf Pion Go-Library mit Justin Uberti und Sean DuBois als Architekten-Kollegen bei OpenAI
Split-Relay-Architektur löst Konflikt zwischen One-Port-Per-Session-Termination und Kubernetes-Skalierbarkeit

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

OpenAI rearchitektet WebRTC-Stack für Ultra-Low-Latency Voice AI

Frag die KI zum Artikel

Verwandte Beiträge

OpenAI rearchitektet WebRTC-Stack für Ultra-Low-Latency Voice AI

Frag die KI zum Artikel

Verwandte Beiträge