Llama.cpp auf Snapdragon Hexagon NPU: Mobile Inferenz ohne Hitzeprobleme
Ein Nutzer mit OnePlus 12 (Snapdragon 8 Gen 3) berichtet von erfolgreicher Cross-Kompilation und Ausführung von llama.cpp auf dem Hexagon NPU des Geräts über Termux. Mit Gemma-3-12B erreicht er 8 Token/s Prefill und 4.5 Token/s Generierung (Q4_0-Quantisierung), mit dem kleineren 4B-Modell sogar 20/12.5 Token/s. Die Performance entspricht CPU-Inferenz, verursacht aber deutlich weniger Wärmeentwicklung. Das Backend ist durch Qualcomm-Mitarbeiter gut gepflegt. Limitierungen bestehen in unterstützten Quantisierungsformaten (Q4_0, IQ4_NL, MXFP4, Q8_0, F32) und der 4GB-RAM-Adressierungsgrenze des Hexagon-Speichers, die Multi-Device-Setups notwendig macht (GGML_HEXAGON_NDEV). Der Nutzer fragt nach Erfahrungen mit neueren Chips (SD 8 Elite Gen 5, X2 Elite Extreme) und möglicher GPU-Only-Offloading-Strategie für maximale Performance.
- Getestete Hardware: OnePlus 12 mit Snapdragon 8 Gen 3, Hexagon NPU hat 34 INT8 TOPS und 76.8GB/s Speicherbandbreite
- Supported GGUF-Quantisierungen: Q4_0, IQ4_NL, MXFP4, Q8_0, F32; KV-Cache-Quantisierung aktuell nicht unterstützt
- Workaround für 4GB-RAM-Limit über Umgebungsvariable GGML_HEXAGON_NDEV zur Nutzung mehrerer HTP-Devices
- Vergleich: Snapdragon X2 Elite Extreme mit 80 INT8 TOPS/228GB/s vs. Nvidia RTX 3090 mit 248 INT8 TOPS/936GB/s
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Llama.cpp auf Snapdragon Hexagon NPU: Mobile Inferenz ohne Hitzeprobleme
Ein Nutzer mit OnePlus 12 (Snapdragon 8 Gen 3) berichtet von erfolgreicher Cross-Kompilation und Ausführung von llama.cpp auf dem Hexagon NPU des Geräts über Termux. Mit Gemma-3-12B erreicht er 8 Token/s Prefill und 4.5 Token/s Generierung (Q4_0-Quantisierung), mit dem kleineren 4B-Modell sogar 20/12.5 Token/s. Die Performance entspricht CPU-Inferenz, verursacht aber deutlich weniger Wärmeentwicklung. Das Backend ist durch Qualcomm-Mitarbeiter gut gepflegt. Limitierungen bestehen in unterstützten Quantisierungsformaten (Q4_0, IQ4_NL, MXFP4, Q8_0, F32) und der 4GB-RAM-Adressierungsgrenze des Hexagon-Speichers, die Multi-Device-Setups notwendig macht (GGML_HEXAGON_NDEV). Der Nutzer fragt nach Erfahrungen mit neueren Chips (SD 8 Elite Gen 5, X2 Elite Extreme) und möglicher GPU-Only-Offloading-Strategie für maximale Performance.
- Getestete Hardware: OnePlus 12 mit Snapdragon 8 Gen 3, Hexagon NPU hat 34 INT8 TOPS und 76.8GB/s Speicherbandbreite
- Supported GGUF-Quantisierungen: Q4_0, IQ4_NL, MXFP4, Q8_0, F32; KV-Cache-Quantisierung aktuell nicht unterstützt
- Workaround für 4GB-RAM-Limit über Umgebungsvariable GGML_HEXAGON_NDEV zur Nutzung mehrerer HTP-Devices
- Vergleich: Snapdragon X2 Elite Extreme mit 80 INT8 TOPS/228GB/s vs. Nvidia RTX 3090 mit 248 INT8 TOPS/936GB/s
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.