Llama.cpp auf Snapdragon Hexagon NPU: Mobile Inferenz ohne Hitzeprobleme

CompaniesNVIDIA

Warum es zählt

On-Device-LLM-Inferenz auf Smartphone-NPUs wird praktisch, wenn Skalierbarkeit (Multi-Device-Setup) und Quantisierungsformat-Unterstützung erweitert werden. Verdeutlicht Konkurrenz zwischen mobilen NPU-Architekten (Snapdragon 80 INT8 TOPS) und Desktop-GPUs.

— Lumeric Redaktion

Ein Nutzer mit OnePlus 12 (Snapdragon 8 Gen 3) berichtet von erfolgreicher Cross-Kompilation und Ausführung von llama.cpp auf dem Hexagon NPU des Geräts über Termux. Mit Gemma-3-12B erreicht er 8 Token/s Prefill und 4.5 Token/s Generierung (Q4_0-Quantisierung), mit dem kleineren 4B-Modell sogar 20/12.5 Token/s. Die Performance entspricht CPU-Inferenz, verursacht aber deutlich weniger Wärmeentwicklung. Das Backend ist durch Qualcomm-Mitarbeiter gut gepflegt. Limitierungen bestehen in unterstützten Quantisierungsformaten (Q4_0, IQ4_NL, MXFP4, Q8_0, F32) und der 4GB-RAM-Adressierungsgrenze des Hexagon-Speichers, die Multi-Device-Setups notwendig macht (GGML_HEXAGON_NDEV). Der Nutzer fragt nach Erfahrungen mit neueren Chips (SD 8 Elite Gen 5, X2 Elite Extreme) und möglicher GPU-Only-Offloading-Strategie für maximale Performance.

Was wir noch wissen

Getestete Hardware: OnePlus 12 mit Snapdragon 8 Gen 3, Hexagon NPU hat 34 INT8 TOPS und 76.8GB/s Speicherbandbreite
Supported GGUF-Quantisierungen: Q4_0, IQ4_NL, MXFP4, Q8_0, F32; KV-Cache-Quantisierung aktuell nicht unterstützt
Workaround für 4GB-RAM-Limit über Umgebungsvariable GGML_HEXAGON_NDEV zur Nutzung mehrerer HTP-Devices
Vergleich: Snapdragon X2 Elite Extreme mit 80 INT8 TOPS/228GB/s vs. Nvidia RTX 3090 mit 248 INT8 TOPS/936GB/s

Quelle lesenreddit.com

Open Source Inferenz Infra Chips Silizium

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Llama.cpp auf Snapdragon Hexagon NPU: Mobile Inferenz ohne Hitzeprobleme

ToolsNVIDIA Hardware Llama

CompaniesNVIDIA

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Getestete Hardware: OnePlus 12 mit Snapdragon 8 Gen 3, Hexagon NPU hat 34 INT8 TOPS und 76.8GB/s Speicherbandbreite
Supported GGUF-Quantisierungen: Q4_0, IQ4_NL, MXFP4, Q8_0, F32; KV-Cache-Quantisierung aktuell nicht unterstützt
Workaround für 4GB-RAM-Limit über Umgebungsvariable GGML_HEXAGON_NDEV zur Nutzung mehrerer HTP-Devices
Vergleich: Snapdragon X2 Elite Extreme mit 80 INT8 TOPS/228GB/s vs. Nvidia RTX 3090 mit 248 INT8 TOPS/936GB/s

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Llama.cpp auf Snapdragon Hexagon NPU: Mobile Inferenz ohne Hitzeprobleme

Frag die KI zum Artikel

Verwandte Beiträge

Llama.cpp auf Snapdragon Hexagon NPU: Mobile Inferenz ohne Hitzeprobleme

Frag die KI zum Artikel

Verwandte Beiträge