NVIDIA Parakeet Speech-to-Text als ggml-Port: bis zu 600× Echtzeit, kein Python

ToolsWhisper GPT NVIDIA Hardware Llama Hugging Face

Warum es zählt

parakeet.cpp ermöglicht lokale, ressourcenschonende Speech-to-Text-Inferenz auf CPU und GPU (CUDA, HIP, Vulkan, Metal) mit einem einzigen selbstständigen GGUF-File und einer flachen C-API – ideal für Embedded- und Edge-Deployments ohne Python-Stack.

— Lumeric Redaktion

Der Entwickler /u/mudler_it (Mitarbeiter von LocalAI) hat NVIDIAs Parakeet-Spracherkennungsmodelle vollständig in C++/ggml reimplementiert – dem Engine-Backend hinter llama.cpp und whisper.cpp. Das Projekt namens parakeet.cpp unterstützt die FastConformer-Architekturen TDT, CTC, RNNT und Hybrid-Varianten. Die Ausgabe ist auf dem f32/f16-Pfad byteidentisch zu NeMos PyTorch-Referenz (WER 0). Auf GPU erreicht der Port bis zu 5× höheren Durchsatz als NeMo bei den größeren TDT/Hybrid-Modellen; auf CPU liegt der Speedup bei quantisierten Modellen bei bis zu 1,86×, der Speicherbedarf halbiert sich. Ein 23-Sekunden-Audioclip wird auf GPU in rund 6 Sekunden verarbeitet – entspricht ~600× Echtzeit. GGUF-Quantisierungsstufen f16, q8_0, q6_k, q5_k und q4_k stehen auf HuggingFace bereit. Der Tokenizer ist direkt in die GGUF-Datei eingebettet, externe Dateien sind nicht nötig. Features wie cache-aware Streaming, Echtzeit-End-of-Utterance-Erkennung und wortgenaue Zeitstempel mit Konfidenzwerten sind integriert. Eine flache C-API ermöglicht einfache Einbettung; als LocalAI-Backend liefert der Port einen OpenAI-kompatiblen /v1/audio/transcriptions-Endpunkt vollständig lokal. Der Code steht unter MIT-Lizenz auf GitHub.

Quelle lesenreddit.com

~600× Echtzeit (GPU)

23s-Clip in ~6 Sekunden transkribiert

Open Source Voice Inferenz Infra