Gemma 4 E4B mit LiteRT-Engine: 2,4× schnellere Textgenerierung gegenüber Q4 GGUF

Warum es zählt

Für lokale Inferenz auf Consumer-GPUs (hier: RTX 4060 Ti 16 GB) bietet LiteRT mit MTP einen deutlichen Durchsatz-Vorteil gegenüber GGUF — allerdings nur bei Text; Vision-Bottlenecks (Bildverarbeitung) profitieren kaum. Der veröffentlichte Python-Wrapper ermöglicht OpenAI-kompatible Endpunkte, hat aber aktuell Einschränkungen wie kein Streaming und deterministischen Output.

— Lumeric Redaktion

Reddit-Nutzer AnticitizenPrime hat Gemma 4 E4B in Googles LiteRT-Format betrieben und über einen selbst geschriebenen Python-Wrapper als OpenAI-kompatiblen Endpunkt eingebunden. Im direkten Vergleich mit dem Unsloth/AtomicChat Q4M-Quant via llama.cpp erreicht die LiteRT-Variante bei der Textgenerierung im Schnitt 157,2 tok/s gegenüber 66,3 tok/s – ein Faktor von 2,4×. Der Speedup ist auf Multi-Token Prediction (MTP) zurückzuführen, bei der ein Drafter-Modell mehrere Tokens vorausberechnet und verifiziert. Bei der Bildverarbeitung (111 Bilder, volle Auflösung) fällt der Vorteil mit ~1,1× minimal aus, da der Vision-Encoder den Flaschenhals bildet und MTP dort nicht greift. Beide Modelle wurden auf einer RTX 4060 Ti mit 16 GB VRAM getestet, wobei der Speicherbedarf vergleichbar war. Einschränkungen des aktuellen Setups: deterministische Ausgabe (kein Temperature/Top-P-Einfluss), kein Streaming, kein Request-Batching sowie ausschließliche Linux-Unterstützung (Ubuntu 24.04 LTS). Audio-Transkription ist möglich, läuft aber nur auf der CPU. Der Wrapper-Code wurde auf GitHub veröffentlicht.

Quelle lesenreddit.com

Textgenerierung: LiteRT-LM vs. llama.cpp GGUF (Gemma 4 E4B) · Spitzenwert

157.2%

LiteRT-LM 4B (MTP)

Inferenz Infra Open Source Multimodal

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma 4 E4B mit LiteRT-Engine: 2,4× schnellere Textgenerierung gegenüber Q4 GGUF

ToolsGPT Llama OpenRouter

CompaniesOpenAI Google DeepMind

Warum es zählt

— Lumeric Redaktion

Textgenerierung: LiteRT-LM vs. llama.cpp GGUF (Gemma 4 E4B) · Spitzenwert

157.2%

LiteRT-LM 4B (MTP)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma 4 E4B mit LiteRT-Engine: 2,4× schnellere Textgenerierung gegenüber Q4 GGUF

Frag die KI zum Artikel

Verwandte Beiträge

Gemma 4 E4B mit LiteRT-Engine: 2,4× schnellere Textgenerierung gegenüber Q4 GGUF

Frag die KI zum Artikel

Verwandte Beiträge