Fine-Tune ergänzt Cohere Transcribe um Diarisierung und Zeitstempel

Warum es zählt

Cohere Transcribe gilt aktuell als bestes Open-Source-STT-Modell, fehlte aber bei Diarisierung und Zeitstempeln. Das Fine-Tune schließt diese Lücke mit einer mittleren Timestamp-Genauigkeit von 0,097 Sekunden und Support für bis zu 32 Sprecher.

— Lumeric Redaktion

Der Reddit-Nutzer /u/iamMess hat Cohere Transcribe, das derzeit als führendes Open-Source-Speech-to-Text-Modell gilt, durch ein Fine-Tuning um zwei wesentliche Funktionen ergänzt: Sprecher-Diarisierung und Zeitstempel. Beide Features waren zwar über spezielle Tokens im Tokenizer angelegt, wurden vom Originalmodell aber nicht unterstützt. Das Training folgt dem Standard-Zeitstempel-Format und produziert ein leicht parsbares Output-Format mit Speaker-Tokens (spltoken0, spltoken1 …) sowie zeitcodierten Segmenten. Die mittlere Zeitstempel-Abweichung liegt bei 0,097 Sekunden; 90 % der Zeitstempel weichen weniger als 0,006 Sekunden ab. Pro 30-Sekunden-Fenster werden bis zu 4 Sprecher unterschieden; mit dem mitgelieferten Skript diarize_long.py können bei längeren Aufnahmen bis zu 32 Personen korrekt identifiziert werden. Das Fine-Tuned-Modell steht kostenlos auf Hugging Face zur Verfügung.

Was wir noch wissen

Zeitstempel-Genauigkeit: 90 % der Werte liegen innerhalb von 0,006 Sekunden
Bis zu 4 Sprecher pro 30-Sekunden-Segment; via diarize_long.py bis zu 32 Sprecher insgesamt
Output-Format nutzt bestehende Tokenizer-Tokens (spltoken0/1…) im Standard-Zeitstempel-Format
Modell kostenlos auf Hugging Face verfügbar
Cohere Transcribe wird als aktuell bestes Open-Source-STT-Modell eingestuft

Quelle lesenreddit.com

0.097s

Mittlere Zeitstempel-Abweichung

Open Source Voice Post Training

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Fine-Tune ergänzt Cohere Transcribe um Diarisierung und Zeitstempel

ToolsHugging Face

CompaniesHugging Face Cohere

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Zeitstempel-Genauigkeit: 90 % der Werte liegen innerhalb von 0,006 Sekunden
Bis zu 4 Sprecher pro 30-Sekunden-Segment; via diarize_long.py bis zu 32 Sprecher insgesamt
Output-Format nutzt bestehende Tokenizer-Tokens (spltoken0/1…) im Standard-Zeitstempel-Format
Modell kostenlos auf Hugging Face verfügbar
Cohere Transcribe wird als aktuell bestes Open-Source-STT-Modell eingestuft

0.097s

Mittlere Zeitstempel-Abweichung

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Fine-Tune ergänzt Cohere Transcribe um Diarisierung und Zeitstempel

Frag die KI zum Artikel

Verwandte Beiträge

Fine-Tune ergänzt Cohere Transcribe um Diarisierung und Zeitstempel

Frag die KI zum Artikel

Verwandte Beiträge