Llama.cpp vs. LiteRT: DIY-24/7-LLM-Server auf Xiaomi 12 Pro im Vergleich
Nutzer /u/Aromatic_Ad_7557 hat sein Xiaomi 12 Pro (Snapdragon 8 Gen 1) nach Community-Feedback vollständig zum dauerhaften Headless-LLM-Server umgebaut. Das überarbeitete Setup umfasst einen Kupferkühlkörper mit Lüfter auf der Rückseite, eine Aluminiumplatte mit zwei Lüftern an der Frontseite (Display entfernt), ein selbstgebautes Netzteil mit direkter BMS-Anbindung, Crowbar-Schutzschaltung bei 4,3 V sowie ein 3D-gedrucktes Gehäuse aus Aluminiumprofilen. Im Benchmark mit gemma-4-E4B (Prompt: „Write 2000 words IT essay") erreicht Llama.cpp 30,6 t/s beim Prompt-Processing und 5,7 t/s bei der Generierung bei moderater CPU-Last. LiteRT von Google erzielt eine leicht höhere Generierungsgeschwindigkeit, lastet jedoch alle CPU-Kerne vollständig aus und zieht spürbar mehr Strom. GPU-Beschleunigung via LiteRT scheiterte mangels passendem APK für den Snapdragon 8 Gen 1; auch ein Vulkan-Build von Llama.cpp funktionierte nicht. Der Erbauer bewertet das Projekt als lohnenden DIY-Eingriff für Enthusiasten mit überschüssigem Smartphone, empfiehlt aber für reine LLM-Server-Nutzung den Kauf eines Mini-PCs.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Llama.cpp vs. LiteRT: DIY-24/7-LLM-Server auf Xiaomi 12 Pro im Vergleich
Nutzer /u/Aromatic_Ad_7557 hat sein Xiaomi 12 Pro (Snapdragon 8 Gen 1) nach Community-Feedback vollständig zum dauerhaften Headless-LLM-Server umgebaut. Das überarbeitete Setup umfasst einen Kupferkühlkörper mit Lüfter auf der Rückseite, eine Aluminiumplatte mit zwei Lüftern an der Frontseite (Display entfernt), ein selbstgebautes Netzteil mit direkter BMS-Anbindung, Crowbar-Schutzschaltung bei 4,3 V sowie ein 3D-gedrucktes Gehäuse aus Aluminiumprofilen. Im Benchmark mit gemma-4-E4B (Prompt: „Write 2000 words IT essay") erreicht Llama.cpp 30,6 t/s beim Prompt-Processing und 5,7 t/s bei der Generierung bei moderater CPU-Last. LiteRT von Google erzielt eine leicht höhere Generierungsgeschwindigkeit, lastet jedoch alle CPU-Kerne vollständig aus und zieht spürbar mehr Strom. GPU-Beschleunigung via LiteRT scheiterte mangels passendem APK für den Snapdragon 8 Gen 1; auch ein Vulkan-Build von Llama.cpp funktionierte nicht. Der Erbauer bewertet das Projekt als lohnenden DIY-Eingriff für Enthusiasten mit überschüssigem Smartphone, empfiehlt aber für reine LLM-Server-Nutzung den Kauf eines Mini-PCs.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.