
StepFun veröffentlicht StepAudio 2.5 Realtime: Echtzeit-Voice-Modell mit Roleplay-RLHF
StepFun, das Shanghaier KI-Labor, hat im Mai 2026 StepAudio 2.5 Realtime veröffentlicht – ein End-to-End-Echtzeit-Sprachmodell, das vollständig anpassbare Persona-Fähigkeiten (Roleplay) bietet. Die Anbindung erfolgt über eine WebSocket-API, unterstützte Sprachen sind Chinesisch und Englisch. Besonderes Merkmal ist der Einsatz von Roleplay-spezifischem RLHF (Reinforcement Learning from Human Feedback), das gezielt auf die Qualität von charakterbasierten Interaktionen ausgerichtet ist. Zudem verfügt das Modell über paralinguistische Komprehension, also die Fähigkeit, nicht-verbale Sprachaspekte wie Tonfall, Emotion oder Prosodie zu verstehen. In einem im April 2026 durchgeführten Benchmark-Test erzielte StepAudio 2.5 Realtime in allen fünf gemessenen Dimensionen den ersten Platz, darunter ein Human-Evaluation-Score von 80,41 und ein Wert von 82,18 bei paralingualem Verstehen.
- StepAudio 2.5 Realtime ist ein End-to-End-Modell – kein Pipeline-Ansatz mit separaten ASR/TTS-Komponenten.
- Anbindung über WebSocket-API ermöglicht Echtzeit-Kommunikation mit niedrigen Latenzen.
- Roleplay-spezifisches RLHF trainiert das Modell explizit auf qualitativ hochwertige Charakterinteraktionen.
- Paralinguistische Komprehension erlaubt das Verstehen von Tonfall, Emotion und Prosodie jenseits reiner Wortbedeutung.
- Benchmark-Tests wurden im April 2026 durchgeführt; Platz 1 in allen fünf getesteten Dimensionen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

StepFun veröffentlicht StepAudio 2.5 Realtime: Echtzeit-Voice-Modell mit Roleplay-RLHF
StepFun, das Shanghaier KI-Labor, hat im Mai 2026 StepAudio 2.5 Realtime veröffentlicht – ein End-to-End-Echtzeit-Sprachmodell, das vollständig anpassbare Persona-Fähigkeiten (Roleplay) bietet. Die Anbindung erfolgt über eine WebSocket-API, unterstützte Sprachen sind Chinesisch und Englisch. Besonderes Merkmal ist der Einsatz von Roleplay-spezifischem RLHF (Reinforcement Learning from Human Feedback), das gezielt auf die Qualität von charakterbasierten Interaktionen ausgerichtet ist. Zudem verfügt das Modell über paralinguistische Komprehension, also die Fähigkeit, nicht-verbale Sprachaspekte wie Tonfall, Emotion oder Prosodie zu verstehen. In einem im April 2026 durchgeführten Benchmark-Test erzielte StepAudio 2.5 Realtime in allen fünf gemessenen Dimensionen den ersten Platz, darunter ein Human-Evaluation-Score von 80,41 und ein Wert von 82,18 bei paralingualem Verstehen.
- StepAudio 2.5 Realtime ist ein End-to-End-Modell – kein Pipeline-Ansatz mit separaten ASR/TTS-Komponenten.
- Anbindung über WebSocket-API ermöglicht Echtzeit-Kommunikation mit niedrigen Latenzen.
- Roleplay-spezifisches RLHF trainiert das Modell explizit auf qualitativ hochwertige Charakterinteraktionen.
- Paralinguistische Komprehension erlaubt das Verstehen von Tonfall, Emotion und Prosodie jenseits reiner Wortbedeutung.
- Benchmark-Tests wurden im April 2026 durchgeführt; Platz 1 in allen fünf getesteten Dimensionen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.