NVIDIA Parakeet Speech-to-Text als ggml-Port: bis zu 600× Echtzeit, kein Python
Der Entwickler /u/mudler_it (Mitarbeiter von LocalAI) hat NVIDIAs Parakeet-Spracherkennungsmodelle vollständig in C++/ggml reimplementiert – dem Engine-Backend hinter llama.cpp und whisper.cpp. Das Projekt namens parakeet.cpp unterstützt die FastConformer-Architekturen TDT, CTC, RNNT und Hybrid-Varianten. Die Ausgabe ist auf dem f32/f16-Pfad byteidentisch zu NeMos PyTorch-Referenz (WER 0). Auf GPU erreicht der Port bis zu 5× höheren Durchsatz als NeMo bei den größeren TDT/Hybrid-Modellen; auf CPU liegt der Speedup bei quantisierten Modellen bei bis zu 1,86×, der Speicherbedarf halbiert sich. Ein 23-Sekunden-Audioclip wird auf GPU in rund 6 Sekunden verarbeitet – entspricht ~600× Echtzeit. GGUF-Quantisierungsstufen f16, q8_0, q6_k, q5_k und q4_k stehen auf HuggingFace bereit. Der Tokenizer ist direkt in die GGUF-Datei eingebettet, externe Dateien sind nicht nötig. Features wie cache-aware Streaming, Echtzeit-End-of-Utterance-Erkennung und wortgenaue Zeitstempel mit Konfidenzwerten sind integriert. Eine flache C-API ermöglicht einfache Einbettung; als LocalAI-Backend liefert der Port einen OpenAI-kompatiblen /v1/audio/transcriptions-Endpunkt vollständig lokal. Der Code steht unter MIT-Lizenz auf GitHub.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com4d
Dockerized Nemotron 3.5 ASR: 4,5× Echtzeit-Speed auf CPU mit Streaming
- LAUNCHdeveloper.nvidia.com22h
DiffusionGemma von Google DeepMind läuft optimiert auf NVIDIA-Plattformen
- FORSCHUNGarxiv.org2w
Morphling: GNN-Training bis zu 66× schneller als PyG und DGL
- MEINUNGreddit.com5h
NVIDIA erklärt Entwicklung des Nemotron 3 Open Models
NVIDIA Parakeet Speech-to-Text als ggml-Port: bis zu 600× Echtzeit, kein Python
Der Entwickler /u/mudler_it (Mitarbeiter von LocalAI) hat NVIDIAs Parakeet-Spracherkennungsmodelle vollständig in C++/ggml reimplementiert – dem Engine-Backend hinter llama.cpp und whisper.cpp. Das Projekt namens parakeet.cpp unterstützt die FastConformer-Architekturen TDT, CTC, RNNT und Hybrid-Varianten. Die Ausgabe ist auf dem f32/f16-Pfad byteidentisch zu NeMos PyTorch-Referenz (WER 0). Auf GPU erreicht der Port bis zu 5× höheren Durchsatz als NeMo bei den größeren TDT/Hybrid-Modellen; auf CPU liegt der Speedup bei quantisierten Modellen bei bis zu 1,86×, der Speicherbedarf halbiert sich. Ein 23-Sekunden-Audioclip wird auf GPU in rund 6 Sekunden verarbeitet – entspricht ~600× Echtzeit. GGUF-Quantisierungsstufen f16, q8_0, q6_k, q5_k und q4_k stehen auf HuggingFace bereit. Der Tokenizer ist direkt in die GGUF-Datei eingebettet, externe Dateien sind nicht nötig. Features wie cache-aware Streaming, Echtzeit-End-of-Utterance-Erkennung und wortgenaue Zeitstempel mit Konfidenzwerten sind integriert. Eine flache C-API ermöglicht einfache Einbettung; als LocalAI-Backend liefert der Port einen OpenAI-kompatiblen /v1/audio/transcriptions-Endpunkt vollständig lokal. Der Code steht unter MIT-Lizenz auf GitHub.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com4d
Dockerized Nemotron 3.5 ASR: 4,5× Echtzeit-Speed auf CPU mit Streaming
- LAUNCHdeveloper.nvidia.com22h
DiffusionGemma von Google DeepMind läuft optimiert auf NVIDIA-Plattformen
- FORSCHUNGarxiv.org2w
Morphling: GNN-Training bis zu 66× schneller als PyG und DGL
- MEINUNGreddit.com5h
NVIDIA erklärt Entwicklung des Nemotron 3 Open Models