Gemma 4 mit LiteRT-LM auf Mobilgeräten: 1,5–2 GB statt 4–5 GB Speicherbedarf
Der Reddit-Nutzer Aguxez beschreibt seinen Wechsel von einer llama.cpp-Integration (via React-Native-Bridge) auf LiteRT-LM für mobile On-Device-Inferenz. Mit Gemma 3 1B IT auf einem Samsung S25 Ultra lag der RAM-Verbrauch bei 4–5 GB im Inference-Betrieb und rund 1 GB im Idle-Zustand, was zu OS-seitigem App-Killing und starker Erwärmung führte. Nach dem Umstieg auf Gemma 4 E2B IT über LiteRT-LM sank der Footprint auf 1,5–2 GB, die GPU-Inferenz dauert 2–4 Sekunden, CPU-Inferenz 3–6 Sekunden. Getestet wurde außerdem auf einem iPhone 13 Pro Max, wobei dort mangels Metal-Unterstützung nur CPU genutzt wurde. Für iOS musste der Entwickler native Module in Objective-C schreiben, da LiteRT-LM noch keine Swift-API bietet. NPU-Nutzung ist noch nicht implementiert. Konkret einsetzt wird das Setup in einer Kraft-Tracking-App für Routinengenerierung, Workout-Feedback und Übungsvorschläge. Als nächste Schritte plant der Entwickler Bilderkennung für Übungen sowie spontane Workout-Generierung.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- BENCHMARKreddit.com5d
Llama.cpp vs. LiteRT: DIY-24/7-LLM-Server auf Xiaomi 12 Pro im Vergleich
- MEINUNGreddit.com3w
Gemma4 26B läuft flüssig auf CPU-only-System mit 32 GB RAM
- FORSCHUNGreddit.com3w
Llama.cpp auf Snapdragon Hexagon NPU: Mobile Inferenz ohne Hitzeprobleme
- LAUNCHreddit.com1w
Gemma4 26B MoE läuft mit TurboQuant in MLX auf MacBook Air M5
Gemma 4 mit LiteRT-LM auf Mobilgeräten: 1,5–2 GB statt 4–5 GB Speicherbedarf
Der Reddit-Nutzer Aguxez beschreibt seinen Wechsel von einer llama.cpp-Integration (via React-Native-Bridge) auf LiteRT-LM für mobile On-Device-Inferenz. Mit Gemma 3 1B IT auf einem Samsung S25 Ultra lag der RAM-Verbrauch bei 4–5 GB im Inference-Betrieb und rund 1 GB im Idle-Zustand, was zu OS-seitigem App-Killing und starker Erwärmung führte. Nach dem Umstieg auf Gemma 4 E2B IT über LiteRT-LM sank der Footprint auf 1,5–2 GB, die GPU-Inferenz dauert 2–4 Sekunden, CPU-Inferenz 3–6 Sekunden. Getestet wurde außerdem auf einem iPhone 13 Pro Max, wobei dort mangels Metal-Unterstützung nur CPU genutzt wurde. Für iOS musste der Entwickler native Module in Objective-C schreiben, da LiteRT-LM noch keine Swift-API bietet. NPU-Nutzung ist noch nicht implementiert. Konkret einsetzt wird das Setup in einer Kraft-Tracking-App für Routinengenerierung, Workout-Feedback und Übungsvorschläge. Als nächste Schritte plant der Entwickler Bilderkennung für Übungen sowie spontane Workout-Generierung.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- BENCHMARKreddit.com5d
Llama.cpp vs. LiteRT: DIY-24/7-LLM-Server auf Xiaomi 12 Pro im Vergleich
- MEINUNGreddit.com3w
Gemma4 26B läuft flüssig auf CPU-only-System mit 32 GB RAM
- FORSCHUNGreddit.com3w
Llama.cpp auf Snapdragon Hexagon NPU: Mobile Inferenz ohne Hitzeprobleme
- LAUNCHreddit.com1w
Gemma4 26B MoE läuft mit TurboQuant in MLX auf MacBook Air M5