Voice — April 2026
10 Beiträge im April 2026.
- LAUNCH30. Apr.IBM veröffentlicht zwei Granite Speech 4.1 2B Modelle für Enterprise-ASRZwei spezialisierte 2B-Modelle erlauben AI-Buildern, je nach Latenz- und Genauigkeitsanforderung zwischen autoregressive ASR+Übersetzung und nicht-autoregressivem Editing für schnelle Inferenz zu wählen — beides kompakt genug für On-Premise-Deployments.
- LAUNCH29. Apr.smol-audio: Colab-Notebook-Sammlung zum Fine-Tuning von Whisper, Voxtral und Co.Praktiker erhalten einen niedrigschwelligen Einstieg ins Audio-Modell-Fine-Tuning ohne eigene GPU-Infrastruktur. Die Sammlung deckt mehrere Modellarchitekturen ab und reduziert den Aufwand für Sprach-KI-Experimente erheblich.
- MEINUNG28. Apr.Taylor Swift beantragt Markenrechte gegen KI-Imitationen ihrer StimmeProminente versuchen zunehmend, Markenrecht als Schutzinstrument gegen KI-Voice-Cloning einzusetzen – ein Ansatz mit unklarer Erfolgsaussicht, der aber zeigt, wie dringend rechtliche Rahmenbedingungen für KI-generierte Stimmen gebraucht werden.
- LAUNCH28. Apr.Amazon führt KI-gestützte Audio-Q&A-Funktion auf Produktseiten einAmazons Shopping-App bekommt einen kontextbewussten Audio-Assistenten, der Produktdetails und Kundenbewertungen gesprächsartig zusammenfasst – Händler und Entwickler sollten beobachten, wie konversationelle UI-Muster den Produktdiscovery-Prozess im E-Commerce verschieben.
- LAUNCH27. Apr.Microsoft VibeVoice: Whisper-Alternative mit Speaker-Diarization, MIT-lizenziertVibeVoice läuft lokal per One-Liner mit uv und mlx-audio, liefert zeitgestempeltes JSON mit Speaker-IDs und ist damit eine praktische Alternative zu Cloud-STT-Diensten – jedoch auf max. 1 Stunde Audio pro Lauf begrenzt.
- LAUNCH27. Apr.Google Meet rollt Sprach-Echtzeit-Übersetzung auf Mobilgeräte ausDie Funktion ist noch im Alpha-Stadium und lief laut Erfahrungsbericht auf Desktop-Browsern, scheiterte aber zwischen iPhone und iPad. Für internationale Teams könnte sie mittelfristig sprachbarrierenfreie Meetings ermöglichen – sobald die Stabilität verbessert ist.
- BENCHMARK25. Apr.xAI launcht grok-voice-think-fast-1.0: Führend im τ-voice Bench mit 67,3%Das Modell übertrifft Gemini und GPT Realtime in praxisnahen Voice-Workflows (Retail, Airline, Telecom) – relevant für Teams, die Voice-Agenten in Produktivumgebungen einsetzen oder evaluieren.
- LAUNCH25. Apr.Deepgram Python SDK: Tutorial zu Transkription, TTS und Async AudioEntwickler erhalten eine strukturierte Anleitung zur Integration mehrerer Deepgram-Voice-AI-Features – inklusive Sync/Async-Clients und Authentifizierung – ohne separate Bibliotheken kombinieren zu müssen.
- LAUNCH24. Apr.Nothing führt KI-gestütztes Diktierwerkzeug einVoice-to-Text mit KI wird zunehmend in Consumer-Hardware integriert – ein Hinweis darauf, dass On-Device-AI-Features zum Standard-Differenzierungsmerkmal für Smartphone-Hersteller werden.
- LAUNCH15. Apr.Google DeepMind startet Gemini 3.1 Flash TTS für ausdrucksstarke KI-SprachsyntheseExpressivere TTS-Modelle senken die Hürde für natürlich klingende Voice-Anwendungen und Agenten-Interfaces – relevant für alle, die Sprach-Features in Produkte integrieren.