Offline-Koffer-Roboter auf Jetson Orin NX: Gemma 4 E4B mit 200 ms TTFT
Der Reddit-Nutzer CreativelyBankrupt beschreibt den Bau eines vollständig offline betriebenen Roboters in einem Koffer-Gehäuse, der auf einem Jetson Orin NX SUPER 16 GB läuft. Das Sprachmodell Gemma 4 E4B wird im Q4_K_M-Format via llama.cpp ausgeführt, mit q8_0-KV-Cache und Flash Attention bei 12K Kontext. Die gecachte TTFT liegt bei rund 200 ms, der sustained Durchsatz bei 14–15 tok/s. Für Spracheingabe kommt SenseVoiceSmall zum Einsatz, für die Sprachausgabe Piper mit 43-Hz-Mundsynchronisation; ein PixiJS-Gesicht wird auf dem Deckel-Display angezeigt. Da Gemma 4 Vision und OCR nativ unterstützt, entfiel der bisherige BLIP-Subprocess. Über 30 Sensoren werden pro Gesprächszug als natürliche Sprache in den Prompt eingebettet. Ein zentrales Optimierungsergebnis ist die Prompt-Struktur für Cache-Stabilität: Persona und Tools stehen an erster Stelle, History in der Mitte, volatile Sensor- und Visionsdaten am Ende des letzten User-Turns — diese Auslagerung dynamischer Daten aus dem System-Block senkte die gecachte TTFT von mehreren Sekunden auf ~200 ms. Das System wird vollständig on-device über eine Tastenreihe, einen Joystick und einen analogen Encoder-Knopf konfiguriert; eine Netzwerkschnittstelle existiert nicht.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
Gemma 4 läuft offline im Browser via WebGPU und steuert Roboter Reachy Mini
- BENCHMARKreddit.com1w
Gemma 4 mit LiteRT-LM auf Mobilgeräten: 1,5–2 GB statt 4–5 GB Speicherbedarf
- MEINUNGreddit.com3w
Gemma4 26B läuft flüssig auf CPU-only-System mit 32 GB RAM
- MEINUNGreddit.com3d
NVIDIA Jetson AGX Orin 64GB als lokale LLM-Plattform: Use-Cases gesucht
Offline-Koffer-Roboter auf Jetson Orin NX: Gemma 4 E4B mit 200 ms TTFT
Der Reddit-Nutzer CreativelyBankrupt beschreibt den Bau eines vollständig offline betriebenen Roboters in einem Koffer-Gehäuse, der auf einem Jetson Orin NX SUPER 16 GB läuft. Das Sprachmodell Gemma 4 E4B wird im Q4_K_M-Format via llama.cpp ausgeführt, mit q8_0-KV-Cache und Flash Attention bei 12K Kontext. Die gecachte TTFT liegt bei rund 200 ms, der sustained Durchsatz bei 14–15 tok/s. Für Spracheingabe kommt SenseVoiceSmall zum Einsatz, für die Sprachausgabe Piper mit 43-Hz-Mundsynchronisation; ein PixiJS-Gesicht wird auf dem Deckel-Display angezeigt. Da Gemma 4 Vision und OCR nativ unterstützt, entfiel der bisherige BLIP-Subprocess. Über 30 Sensoren werden pro Gesprächszug als natürliche Sprache in den Prompt eingebettet. Ein zentrales Optimierungsergebnis ist die Prompt-Struktur für Cache-Stabilität: Persona und Tools stehen an erster Stelle, History in der Mitte, volatile Sensor- und Visionsdaten am Ende des letzten User-Turns — diese Auslagerung dynamischer Daten aus dem System-Block senkte die gecachte TTFT von mehreren Sekunden auf ~200 ms. Das System wird vollständig on-device über eine Tastenreihe, einen Joystick und einen analogen Encoder-Knopf konfiguriert; eine Netzwerkschnittstelle existiert nicht.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
Gemma 4 läuft offline im Browser via WebGPU und steuert Roboter Reachy Mini
- BENCHMARKreddit.com1w
Gemma 4 mit LiteRT-LM auf Mobilgeräten: 1,5–2 GB statt 4–5 GB Speicherbedarf
- MEINUNGreddit.com3w
Gemma4 26B läuft flüssig auf CPU-only-System mit 32 GB RAM
- MEINUNGreddit.com3d
NVIDIA Jetson AGX Orin 64GB als lokale LLM-Plattform: Use-Cases gesucht