StepFun veröffentlicht StepAudio 2.5 Realtime: Echtzeit-Voice-Modell mit Roleplay-RLHF

Warum es zählt

Das Modell belegt Platz 1 in allen fünf getesteten Benchmark-Dimensionen – darunter 80,41 im Human-Eval und 82,18 bei paralingualem Verstehen – und bietet durch Roleplay-spezifisches RLHF eine direkte Alternative zu bestehenden Voice-API-Lösungen.

— Lumeric Redaktion

StepFun, das Shanghaier KI-Labor, hat im Mai 2026 StepAudio 2.5 Realtime veröffentlicht – ein End-to-End-Echtzeit-Sprachmodell, das vollständig anpassbare Persona-Fähigkeiten (Roleplay) bietet. Die Anbindung erfolgt über eine WebSocket-API, unterstützte Sprachen sind Chinesisch und Englisch. Besonderes Merkmal ist der Einsatz von Roleplay-spezifischem RLHF (Reinforcement Learning from Human Feedback), das gezielt auf die Qualität von charakterbasierten Interaktionen ausgerichtet ist. Zudem verfügt das Modell über paralinguistische Komprehension, also die Fähigkeit, nicht-verbale Sprachaspekte wie Tonfall, Emotion oder Prosodie zu verstehen. In einem im April 2026 durchgeführten Benchmark-Test erzielte StepAudio 2.5 Realtime in allen fünf gemessenen Dimensionen den ersten Platz, darunter ein Human-Evaluation-Score von 80,41 und ein Wert von 82,18 bei paralingualem Verstehen.

Was wir noch wissen

StepAudio 2.5 Realtime ist ein End-to-End-Modell – kein Pipeline-Ansatz mit separaten ASR/TTS-Komponenten.
Anbindung über WebSocket-API ermöglicht Echtzeit-Kommunikation mit niedrigen Latenzen.
Roleplay-spezifisches RLHF trainiert das Modell explizit auf qualitativ hochwertige Charakterinteraktionen.
Paralinguistische Komprehension erlaubt das Verstehen von Tonfall, Emotion und Prosodie jenseits reiner Wortbedeutung.
Benchmark-Tests wurden im April 2026 durchgeführt; Platz 1 in allen fünf getesteten Dimensionen.

Quelle lesenmarktechpost.com

StepAudio 2.5 Realtime Benchmark (April 2026) · Spitzenwert

82.18%

Paralinguistic Comprehension

Voice Foundation Modelle Post Training

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

StepFun veröffentlicht StepAudio 2.5 Realtime: Echtzeit-Voice-Modell mit Roleplay-RLHF

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

StepAudio 2.5 Realtime ist ein End-to-End-Modell – kein Pipeline-Ansatz mit separaten ASR/TTS-Komponenten.
Anbindung über WebSocket-API ermöglicht Echtzeit-Kommunikation mit niedrigen Latenzen.
Roleplay-spezifisches RLHF trainiert das Modell explizit auf qualitativ hochwertige Charakterinteraktionen.
Paralinguistische Komprehension erlaubt das Verstehen von Tonfall, Emotion und Prosodie jenseits reiner Wortbedeutung.
Benchmark-Tests wurden im April 2026 durchgeführt; Platz 1 in allen fünf getesteten Dimensionen.

StepAudio 2.5 Realtime Benchmark (April 2026) · Spitzenwert

82.18%

Paralinguistic Comprehension

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

StepFun veröffentlicht StepAudio 2.5 Realtime: Echtzeit-Voice-Modell mit Roleplay-RLHF

Frag die KI zum Artikel

Verwandte Beiträge

StepFun veröffentlicht StepAudio 2.5 Realtime: Echtzeit-Voice-Modell mit Roleplay-RLHF

Frag die KI zum Artikel

Verwandte Beiträge