
OpenAI bringt WebSocket-Modus für Responses API – bis zu 40 % weniger Latenz
OpenAI hat für seine Responses API einen neuen WebSocket-basierten Ausführungsmodus eingeführt, der speziell auf die Anforderungen agentischer Workflows ausgelegt ist. Statt bei jedem Schritt eine neue HTTP-Verbindung aufzubauen, hält der WebSocket-Modus eine persistente Verbindung aufrecht – das reduziert den Overhead durch wiederholte Verbindungsaufbauten erheblich. Laut OpenAI sinkt die Latenz dadurch um bis zu 40 Prozent gegenüber dem klassischen HTTP-Request-Response-Modell. Profitieren sollen vor allem Coding-Agenten und Echtzeit-KI-Systeme, die auf schnelles Streaming, parallele Tool-Ausführung und mehrstufige Orchestrierung angewiesen sind. Der Modus richtet sich an produktionsreife AI-Systeme, bei denen jede Millisekunde Latenz die Nutzererfahrung und die Kosten beeinflusst. Der Artikel wurde von Leela Kumili für InfoQ verfasst.
- Persistente WebSocket-Verbindung ersetzt zustandslose HTTP-Request-Response-Zyklen pro Schritt.
- Latenzreduktion von bis zu 40 % in agentischen Workflows laut OpenAI-Angaben.
- Verbesserungen betreffen Streaming, Tool-Ausführung und Multi-Step-Orchestrierung.
- Primäre Zielgruppe: Coding-Agenten und Echtzeit-KI-Systeme im Produktionsbetrieb.
- Das Feature ist Teil der bestehenden Responses API – kein eigenständiges neues Produkt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

OpenAI bringt WebSocket-Modus für Responses API – bis zu 40 % weniger Latenz
OpenAI hat für seine Responses API einen neuen WebSocket-basierten Ausführungsmodus eingeführt, der speziell auf die Anforderungen agentischer Workflows ausgelegt ist. Statt bei jedem Schritt eine neue HTTP-Verbindung aufzubauen, hält der WebSocket-Modus eine persistente Verbindung aufrecht – das reduziert den Overhead durch wiederholte Verbindungsaufbauten erheblich. Laut OpenAI sinkt die Latenz dadurch um bis zu 40 Prozent gegenüber dem klassischen HTTP-Request-Response-Modell. Profitieren sollen vor allem Coding-Agenten und Echtzeit-KI-Systeme, die auf schnelles Streaming, parallele Tool-Ausführung und mehrstufige Orchestrierung angewiesen sind. Der Modus richtet sich an produktionsreife AI-Systeme, bei denen jede Millisekunde Latenz die Nutzererfahrung und die Kosten beeinflusst. Der Artikel wurde von Leela Kumili für InfoQ verfasst.
- Persistente WebSocket-Verbindung ersetzt zustandslose HTTP-Request-Response-Zyklen pro Schritt.
- Latenzreduktion von bis zu 40 % in agentischen Workflows laut OpenAI-Angaben.
- Verbesserungen betreffen Streaming, Tool-Ausführung und Multi-Step-Orchestrierung.
- Primäre Zielgruppe: Coding-Agenten und Echtzeit-KI-Systeme im Produktionsbetrieb.
- Das Feature ist Teil der bestehenden Responses API – kein eigenständiges neues Produkt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.