OpenAI rearchitektet WebRTC-Stack für Ultra-Low-Latency Voice AI
OpenAI dokumentiert den technischen Aufbau seiner Voice-AI-Infrastruktur, die ChatGPT Voice, die Realtime API und interne Research-Projekte antreibt. Das Unternehmen rearchitekturierte seinen WebRTC-Stack, um drei zentrale Anforderungen bei globaler Skalierung zu erfüllen: schnelle Verbindungsaufbau, stabile Echtzeit-Media-Latenzen unter 900 Millionen wöchentlichen Nutzern und zuverlässiges Turn-Taking ohne Pausen oder Unterbrechungen. Ausgangspunkt war WebRTC als offener Standard für verschlüsselte Audio-Streaming mit standardisiertem NAT-Traversal, Codec-Negotiation und Echo-Cancellation. OpenAI verwarf das klassische SFU-Modell (Selective Forwarding Unit), das in Multiparty-Szenarien üblich ist, zugunsten eines Transceiver-Ansatzes: ein WebRTC-Edge-Service terminiert die Client-Verbindung und konvertiert Media/Events in interne Protokolle für Inference, Transkription, Speech-Generierung und Orchestration. Der Kern-Deployment-Challenge bestand darin, dass traditionelle WebRTC-Patterns (eine Port pro Session, stateful ICE/DTLS, globales Routing) bei Kubernetes-Infrastruktur nicht effizient skalieren. Die Lösung: Split-Relay-Plus-Transceiver-Architektur mit stabiler Session-Ownership.
- Über 900 Millionen wöchentlich aktive Nutzer als Skalierungsziel für Voice-Infrastruktur
- Transceiver-Design statt SFU-Modell für 1:1-Gesprräche mit extremer Latenz-Sensitivität
- WebRTC-Stack gebaut auf Pion Go-Library mit Justin Uberti und Sean DuBois als Architekten-Kollegen bei OpenAI
- Split-Relay-Architektur löst Konflikt zwischen One-Port-Per-Session-Termination und Kubernetes-Skalierbarkeit
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
OpenAI rearchitektet WebRTC-Stack für Ultra-Low-Latency Voice AI
OpenAI dokumentiert den technischen Aufbau seiner Voice-AI-Infrastruktur, die ChatGPT Voice, die Realtime API und interne Research-Projekte antreibt. Das Unternehmen rearchitekturierte seinen WebRTC-Stack, um drei zentrale Anforderungen bei globaler Skalierung zu erfüllen: schnelle Verbindungsaufbau, stabile Echtzeit-Media-Latenzen unter 900 Millionen wöchentlichen Nutzern und zuverlässiges Turn-Taking ohne Pausen oder Unterbrechungen. Ausgangspunkt war WebRTC als offener Standard für verschlüsselte Audio-Streaming mit standardisiertem NAT-Traversal, Codec-Negotiation und Echo-Cancellation. OpenAI verwarf das klassische SFU-Modell (Selective Forwarding Unit), das in Multiparty-Szenarien üblich ist, zugunsten eines Transceiver-Ansatzes: ein WebRTC-Edge-Service terminiert die Client-Verbindung und konvertiert Media/Events in interne Protokolle für Inference, Transkription, Speech-Generierung und Orchestration. Der Kern-Deployment-Challenge bestand darin, dass traditionelle WebRTC-Patterns (eine Port pro Session, stateful ICE/DTLS, globales Routing) bei Kubernetes-Infrastruktur nicht effizient skalieren. Die Lösung: Split-Relay-Plus-Transceiver-Architektur mit stabiler Session-Ownership.
- Über 900 Millionen wöchentlich aktive Nutzer als Skalierungsziel für Voice-Infrastruktur
- Transceiver-Design statt SFU-Modell für 1:1-Gesprräche mit extremer Latenz-Sensitivität
- WebRTC-Stack gebaut auf Pion Go-Library mit Justin Uberti und Sean DuBois als Architekten-Kollegen bei OpenAI
- Split-Relay-Architektur löst Konflikt zwischen One-Port-Per-Session-Termination und Kubernetes-Skalierbarkeit
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.