Fine-Tune ergänzt Cohere Transcribe um Diarisierung und Zeitstempel
Der Reddit-Nutzer /u/iamMess hat Cohere Transcribe, das derzeit als führendes Open-Source-Speech-to-Text-Modell gilt, durch ein Fine-Tuning um zwei wesentliche Funktionen ergänzt: Sprecher-Diarisierung und Zeitstempel. Beide Features waren zwar über spezielle Tokens im Tokenizer angelegt, wurden vom Originalmodell aber nicht unterstützt. Das Training folgt dem Standard-Zeitstempel-Format und produziert ein leicht parsbares Output-Format mit Speaker-Tokens (spltoken0, spltoken1 …) sowie zeitcodierten Segmenten. Die mittlere Zeitstempel-Abweichung liegt bei 0,097 Sekunden; 90 % der Zeitstempel weichen weniger als 0,006 Sekunden ab. Pro 30-Sekunden-Fenster werden bis zu 4 Sprecher unterschieden; mit dem mitgelieferten Skript diarize_long.py können bei längeren Aufnahmen bis zu 32 Personen korrekt identifiziert werden. Das Fine-Tuned-Modell steht kostenlos auf Hugging Face zur Verfügung.
- Zeitstempel-Genauigkeit: 90 % der Werte liegen innerhalb von 0,006 Sekunden
- Bis zu 4 Sprecher pro 30-Sekunden-Segment; via diarize_long.py bis zu 32 Sprecher insgesamt
- Output-Format nutzt bestehende Tokenizer-Tokens (spltoken0/1…) im Standard-Zeitstempel-Format
- Modell kostenlos auf Hugging Face verfügbar
- Cohere Transcribe wird als aktuell bestes Open-Source-STT-Modell eingestuft
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
WorldSpeech: 65.000-Stunden-Sprachkorpus für 76 Sprachen veröffentlicht
- FORSCHUNGarxiv.org2w
Bangla-WhisperDiar: Whisper und PyAnnote für bengalische Spracherkennung und Diarisierung
- FORSCHUNGarxiv.org1w
SpeechLLM für Echtzeit-Sprachübersetzung mit 1–2 Sekunden Latenz
- MEINUNGreddit.com2w
Suche nach kleinem TTS-Modell unter 600M Params für Low-Resource-Sprache
Fine-Tune ergänzt Cohere Transcribe um Diarisierung und Zeitstempel
Der Reddit-Nutzer /u/iamMess hat Cohere Transcribe, das derzeit als führendes Open-Source-Speech-to-Text-Modell gilt, durch ein Fine-Tuning um zwei wesentliche Funktionen ergänzt: Sprecher-Diarisierung und Zeitstempel. Beide Features waren zwar über spezielle Tokens im Tokenizer angelegt, wurden vom Originalmodell aber nicht unterstützt. Das Training folgt dem Standard-Zeitstempel-Format und produziert ein leicht parsbares Output-Format mit Speaker-Tokens (spltoken0, spltoken1 …) sowie zeitcodierten Segmenten. Die mittlere Zeitstempel-Abweichung liegt bei 0,097 Sekunden; 90 % der Zeitstempel weichen weniger als 0,006 Sekunden ab. Pro 30-Sekunden-Fenster werden bis zu 4 Sprecher unterschieden; mit dem mitgelieferten Skript diarize_long.py können bei längeren Aufnahmen bis zu 32 Personen korrekt identifiziert werden. Das Fine-Tuned-Modell steht kostenlos auf Hugging Face zur Verfügung.
- Zeitstempel-Genauigkeit: 90 % der Werte liegen innerhalb von 0,006 Sekunden
- Bis zu 4 Sprecher pro 30-Sekunden-Segment; via diarize_long.py bis zu 32 Sprecher insgesamt
- Output-Format nutzt bestehende Tokenizer-Tokens (spltoken0/1…) im Standard-Zeitstempel-Format
- Modell kostenlos auf Hugging Face verfügbar
- Cohere Transcribe wird als aktuell bestes Open-Source-STT-Modell eingestuft
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
WorldSpeech: 65.000-Stunden-Sprachkorpus für 76 Sprachen veröffentlicht
- FORSCHUNGarxiv.org2w
Bangla-WhisperDiar: Whisper und PyAnnote für bengalische Spracherkennung und Diarisierung
- FORSCHUNGarxiv.org1w
SpeechLLM für Echtzeit-Sprachübersetzung mit 1–2 Sekunden Latenz
- MEINUNGreddit.com2w
Suche nach kleinem TTS-Modell unter 600M Params für Low-Resource-Sprache