Topic

Voice

50 Beiträge der letzten 90 Tage zu Voice — kuratiert von der Lumeric-Redaktion mit Trust-Labels und kurzem Warum-es-zählt-Block pro Story.

Top-Tools rund um Voice

GPT42×Hugging Face41×Whisper37×Qwen36×Gemini23×NVIDIA Hardware23×

Top-Unternehmen in Voice

Hugging Face41×Google DeepMind33×

Top-Tools rund um Voice

Top-Unternehmen in Voice

Archiv

Beiträge · 50

Community-Diskussion: Aktueller Stand von Voice-to-Voice-Modellen

Entwickler protestieren gegen Abschaltung von Gemini 2.5 Flash

Voice-Assistent auf CPU: Qwen3-ASR und Kokoro-TTS ONNX ohne GPU

Deutsche Telekom wird KI-nativer Telco mit OpenAI-Partnerschaft

Ello baut Echtzeit-KI-Tutor für Kinder mit eigener Streaming-Architektur

Gradium sammelt 100 Mio. USD Seed-Runde ein – Nvidia beteiligt

MOSS-Transcribe-Diarize 0.9B: End-to-End-Modell für Multi-Speaker-Transkription

FL Studio 2026: KI-Assistent Gopher führt nun DAW-Aktionen eigenständig aus

audio.cpp: 4 ASR-Modelle in nativem C++/GGML mit Streaming-Support

OpenAI launcht GPT-Live-1: Verbesserter Sprachmodus unterbricht weniger

Android-App für Qwen3 TTS 0.6B läuft on-device mit GGML-Backend

Cohere veröffentlicht Open-Source-Modell für arabische Spracherkennung

Gepard 1.0: 0,6B Streaming-TTS mit 20× Echtzeit-Faktor und 50ms TTFA

Solos AirGo A6: Kameralose Smart Glasses mit 19 Gramm

Savi Security launcht App gegen KI-Betrugsanrufe mit 7 Mio. Dollar Seed-Funding

Community-Diskussion: Lokale ASR-Modelle als Whisper-Alternativen gesucht

NVIDIA veröffentlicht Nemotron-Labs-Audex-30B: Audio-Text-LLM mit 1M-Token-Kontext

iOS 27 Beta 3: Siri erhält anpassbare Sprachtempo- und Ausdrucksstärke-Regler

Athena: Vollständig lokaler Voice-Assistent mit Qwen3.5-397B in C++

Steno: Quelloffenes KI-Notizbuch mit lokalem LLM als Granola-Alternative

Gemma 4 31B als sprechender 3D-Avatar mit Mimik und Gestik

audio.cpp: C++/GGML-Framework für Musikgenerierung, SFX und Stemtrennung erweitert

Open-Source Voice-Pipeline mit Gemma 4 32B als Drop-in für OpenAI Realtime API

Open-Source-Backend für lokale LLM-NPCs mit NPC-zu-NPC-Kommunikation

Community sucht Open-Source-Alternativen zu KI-Meeting-Assistenten wie Fathom

Google Home Speaker: Neue Hardware, aber Gemini for Home noch nicht ausgereift

Hugging Face und Cerebras bringen Gemma 4 in Echtzeit-Voice-AI

Netflix nutzt KI-generierte Gene-Wilder-Stimme in Willy-Wonka-Reality-Show

Qwen3-TTS.cpp: GGML-basierte TTS-Engine mit Desktop-GUI, 15× schneller als Python-Referenz

Vercel AI Gateway unterstützt jetzt Realtime Voice, Speech und Transcription

NPC-Engine mit lokalen Modellen für spielagnostische RPG-KI

Whisperian: Android-App für lokale Spracheingabe mit ASR-Modellen

LocalLLaMA-Nutzer baut privaten Jarvis-Assistenten mit 4× 48GB 4090

Community sucht lokale STT-Alternative zu Dragon Professional für Windows

Kokoro TTS: Web- und Python-Erweiterungen mit WebGPU-Beschleunigung

Streaming-Medizin-STT läuft lokal auf MacBook via MLX

audio.cpp: 12 Audio-Modelle in einem C++/ggml-Runtime, TTS bis 5× schneller als Python

Google Home Speaker im Hands-on: Guter Klang, aber wählerisch

llama.cpp ergänzt granite-speech-4.1-2b, LFM2.5-Modelle und Vulkan-Verbesserungen

Hugging Face startet FFASR Leaderboard für praxisnahes ASR-Benchmarking

CPU-only TTS-Benchmark: Kokoro 82M vs Supertonic-3 vs Inflect-Nano mit UTMOS-Scoring

Amazon testet Alexa+ in Indien mit Hindi-Unterstützung

Qwen-Modelle 9B bis 0.8B im Voice-Agent-Test auf RTX 5060 Ti

Community-Diskussion: Beste Open-Source Speech-to-Text-Lösung mit Diarisierung

Karamo Brown launcht Kē: Wellness-App mit KI-Klon des TV-Coaches

Inflect-Nano-v1: TTS-Modell mit nur 4,63M Parametern veröffentlicht

Google Home Speaker ab 29. Juni erhältlich – erster smarter Lautsprecher seit sechs Jahren

DeepL übernimmt Mixhalo für Echtzeit-Audio-Übersetzung bei Live-Events

Ein Jahr Erfahrungsbericht: Voll lokaler Home-Voice-Assistent mit Open-Source-Modellen

Community sucht lokale Lösung für automatische Untertitel aus Videodateien