Offline-Koffer-Roboter auf Jetson Orin NX: Gemma 4 E4B mit 200 ms TTFT

Warum es zählt

Zeigt, dass Gemma 4 E4B auf Consumer-Edge-Hardware (Jetson Orin NX) multimodale Robotik-Anwendungen mit über 30 Sensoren, STT, TTS und Vision ohne jede Netzwerkverbindung praxistauglich betreiben kann — Prompt-Strukturoptimierung für Prefix-Cache-Stabilität ist dabei entscheidend für niedrige Latenz.

— Lumeric Redaktion

Der Reddit-Nutzer CreativelyBankrupt beschreibt den Bau eines vollständig offline betriebenen Roboters in einem Koffer-Gehäuse, der auf einem Jetson Orin NX SUPER 16 GB läuft. Das Sprachmodell Gemma 4 E4B wird im Q4_K_M-Format via llama.cpp ausgeführt, mit q8_0-KV-Cache und Flash Attention bei 12K Kontext. Die gecachte TTFT liegt bei rund 200 ms, der sustained Durchsatz bei 14–15 tok/s. Für Spracheingabe kommt SenseVoiceSmall zum Einsatz, für die Sprachausgabe Piper mit 43-Hz-Mundsynchronisation; ein PixiJS-Gesicht wird auf dem Deckel-Display angezeigt. Da Gemma 4 Vision und OCR nativ unterstützt, entfiel der bisherige BLIP-Subprocess. Über 30 Sensoren werden pro Gesprächszug als natürliche Sprache in den Prompt eingebettet. Ein zentrales Optimierungsergebnis ist die Prompt-Struktur für Cache-Stabilität: Persona und Tools stehen an erster Stelle, History in der Mitte, volatile Sensor- und Visionsdaten am Ende des letzten User-Turns — diese Auslagerung dynamischer Daten aus dem System-Block senkte die gecachte TTFT von mehreren Sekunden auf ~200 ms. Das System wird vollständig on-device über eine Tastenreihe, einen Joystick und einen analogen Encoder-Knopf konfiguriert; eine Netzwerkschnittstelle existiert nicht.

Quelle lesenreddit.com

~200 ms TTFT

Gecachte Antwortlatenz auf Jetson Orin NX

Open Source Inferenz Infra Multimodal

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Offline-Koffer-Roboter auf Jetson Orin NX: Gemma 4 E4B mit 200 ms TTFT

ToolsLlama

Warum es zählt

— Lumeric Redaktion

~200 ms TTFT

Gecachte Antwortlatenz auf Jetson Orin NX

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Offline-Koffer-Roboter auf Jetson Orin NX: Gemma 4 E4B mit 200 ms TTFT

Frag die KI zum Artikel

Verwandte Beiträge

Offline-Koffer-Roboter auf Jetson Orin NX: Gemma 4 E4B mit 200 ms TTFT

Frag die KI zum Artikel

Verwandte Beiträge