Llama.cpp vs. LiteRT: DIY-24/7-LLM-Server auf Xiaomi 12 Pro im Vergleich

Warum es zählt

Llama.cpp liefert auf dem Gerät 5,7 t/s bei geringerer CPU-Last und niedrigerem Stromverbrauch; LiteRT ist minimal schneller bei der Generierung, maximiert aber alle CPUs. Für Edge-Deployments auf Snapdragon-Hardware ist Effizienz gegenüber Rohgeschwindigkeit abzuwägen.

— Lumeric Redaktion

Nutzer /u/Aromatic_Ad_7557 hat sein Xiaomi 12 Pro (Snapdragon 8 Gen 1) nach Community-Feedback vollständig zum dauerhaften Headless-LLM-Server umgebaut. Das überarbeitete Setup umfasst einen Kupferkühlkörper mit Lüfter auf der Rückseite, eine Aluminiumplatte mit zwei Lüftern an der Frontseite (Display entfernt), ein selbstgebautes Netzteil mit direkter BMS-Anbindung, Crowbar-Schutzschaltung bei 4,3 V sowie ein 3D-gedrucktes Gehäuse aus Aluminiumprofilen. Im Benchmark mit gemma-4-E4B (Prompt: „Write 2000 words IT essay") erreicht Llama.cpp 30,6 t/s beim Prompt-Processing und 5,7 t/s bei der Generierung bei moderater CPU-Last. LiteRT von Google erzielt eine leicht höhere Generierungsgeschwindigkeit, lastet jedoch alle CPU-Kerne vollständig aus und zieht spürbar mehr Strom. GPU-Beschleunigung via LiteRT scheiterte mangels passendem APK für den Snapdragon 8 Gen 1; auch ein Vulkan-Build von Llama.cpp funktionierte nicht. Der Erbauer bewertet das Projekt als lohnenden DIY-Eingriff für Enthusiasten mit überschüssigem Smartphone, empfiehlt aber für reine LLM-Server-Nutzung den Kauf eines Mini-PCs.

Quelle lesenreddit.com

gemma-4-E4B Inferenz auf Xiaomi 12 Pro (Snapdragon 8 Gen 1) · Spitzenwert

30.6%

Llama.cpp – Prompt

Inferenz Infra Open Source Foundation Modelle