Intel Arrow Lake NPU für Smart-Home-ASR: 6× schneller, 21× energieeffizienter als CPU
Reddit-Nutzer cibernox hat seinen Intel Arrow Lake NPU (13 TOPS) erfolgreich für automatische Spracherkennung (ASR) im Smart Home eingesetzt – mit dem Open-Source-Projekt wyoming-parakeet-on-intel-npu, das onnx-asr über OpenVINO auf dem NPU ausführt. In seinen Benchmarks verglich er CPU-Inferenz (INT8) mit NPU-Inferenz (FP32) anhand von Audioclips unterschiedlicher Länge. Bei 60 Sekunden Audio benötigte die CPU 5011 ms und 237,7 Joule, der NPU dagegen nur 818 ms und 11,0 Joule – ein Speedup von 6,1× und 21,6× weniger Energieverbrauch. Die Energie wurde per intel-rapl mit 10 Hz abgetastet, abzüglich gemessener Leerlaufleistung. In realen Smart-Home-Szenarien mit 3–4 Sekunden langen Sprachbefehlen erreicht der NPU 120–160 ms End-to-End-Latenz und schlägt damit sogar eine externe RTX-3060-eGPU (150–300 ms), vermutlich weil der NPU ohne Anlaufzeit aus dem Ruhezustand startet. Als Nebeneffekt werden 2–3 GB VRAM auf der Radeon RX 7900 XTX für LLM-Workloads frei. Cibernox plant, als nächsten Schritt auch TTS (Text-to-Speech/STT Audio Generation) auf den NPU zu verlagern.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org12h
NPUs bei Mobile-LLM-Inferenz oft langsamer als CPUs – neue Studie
- FORSCHUNGreddit.com3w
Llama.cpp auf Snapdragon Hexagon NPU: Mobile Inferenz ohne Hitzeprobleme
- FORSCHUNGarxiv.org3w
Nvidia vs. Apple Silicon: Leistungsvergleich bei 70B+ LLM-Inferenz
- FORSCHUNGarxiv.org0mo
AHASD: 4,2× Durchsatz-Boost für Speculative Decoding auf Mobile-NPU
Intel Arrow Lake NPU für Smart-Home-ASR: 6× schneller, 21× energieeffizienter als CPU
Reddit-Nutzer cibernox hat seinen Intel Arrow Lake NPU (13 TOPS) erfolgreich für automatische Spracherkennung (ASR) im Smart Home eingesetzt – mit dem Open-Source-Projekt wyoming-parakeet-on-intel-npu, das onnx-asr über OpenVINO auf dem NPU ausführt. In seinen Benchmarks verglich er CPU-Inferenz (INT8) mit NPU-Inferenz (FP32) anhand von Audioclips unterschiedlicher Länge. Bei 60 Sekunden Audio benötigte die CPU 5011 ms und 237,7 Joule, der NPU dagegen nur 818 ms und 11,0 Joule – ein Speedup von 6,1× und 21,6× weniger Energieverbrauch. Die Energie wurde per intel-rapl mit 10 Hz abgetastet, abzüglich gemessener Leerlaufleistung. In realen Smart-Home-Szenarien mit 3–4 Sekunden langen Sprachbefehlen erreicht der NPU 120–160 ms End-to-End-Latenz und schlägt damit sogar eine externe RTX-3060-eGPU (150–300 ms), vermutlich weil der NPU ohne Anlaufzeit aus dem Ruhezustand startet. Als Nebeneffekt werden 2–3 GB VRAM auf der Radeon RX 7900 XTX für LLM-Workloads frei. Cibernox plant, als nächsten Schritt auch TTS (Text-to-Speech/STT Audio Generation) auf den NPU zu verlagern.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org12h
NPUs bei Mobile-LLM-Inferenz oft langsamer als CPUs – neue Studie
- FORSCHUNGreddit.com3w
Llama.cpp auf Snapdragon Hexagon NPU: Mobile Inferenz ohne Hitzeprobleme
- FORSCHUNGarxiv.org3w
Nvidia vs. Apple Silicon: Leistungsvergleich bei 70B+ LLM-Inferenz
- FORSCHUNGarxiv.org0mo
AHASD: 4,2× Durchsatz-Boost für Speculative Decoding auf Mobile-NPU