Gemma 4 E4B mit LiteRT-Engine: 2,4× schnellere Textgenerierung gegenüber Q4 GGUF
Reddit-Nutzer AnticitizenPrime hat Gemma 4 E4B in Googles LiteRT-Format betrieben und über einen selbst geschriebenen Python-Wrapper als OpenAI-kompatiblen Endpunkt eingebunden. Im direkten Vergleich mit dem Unsloth/AtomicChat Q4M-Quant via llama.cpp erreicht die LiteRT-Variante bei der Textgenerierung im Schnitt 157,2 tok/s gegenüber 66,3 tok/s – ein Faktor von 2,4×. Der Speedup ist auf Multi-Token Prediction (MTP) zurückzuführen, bei der ein Drafter-Modell mehrere Tokens vorausberechnet und verifiziert. Bei der Bildverarbeitung (111 Bilder, volle Auflösung) fällt der Vorteil mit ~1,1× minimal aus, da der Vision-Encoder den Flaschenhals bildet und MTP dort nicht greift. Beide Modelle wurden auf einer RTX 4060 Ti mit 16 GB VRAM getestet, wobei der Speicherbedarf vergleichbar war. Einschränkungen des aktuellen Setups: deterministische Ausgabe (kein Temperature/Top-P-Einfluss), kein Streaming, kein Request-Batching sowie ausschließliche Linux-Unterstützung (Ubuntu 24.04 LTS). Audio-Transkription ist möglich, läuft aber nur auf der CPU. Der Wrapper-Code wurde auf GitHub veröffentlicht.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Gemma 4 E4B mit LiteRT-Engine: 2,4× schnellere Textgenerierung gegenüber Q4 GGUF
Reddit-Nutzer AnticitizenPrime hat Gemma 4 E4B in Googles LiteRT-Format betrieben und über einen selbst geschriebenen Python-Wrapper als OpenAI-kompatiblen Endpunkt eingebunden. Im direkten Vergleich mit dem Unsloth/AtomicChat Q4M-Quant via llama.cpp erreicht die LiteRT-Variante bei der Textgenerierung im Schnitt 157,2 tok/s gegenüber 66,3 tok/s – ein Faktor von 2,4×. Der Speedup ist auf Multi-Token Prediction (MTP) zurückzuführen, bei der ein Drafter-Modell mehrere Tokens vorausberechnet und verifiziert. Bei der Bildverarbeitung (111 Bilder, volle Auflösung) fällt der Vorteil mit ~1,1× minimal aus, da der Vision-Encoder den Flaschenhals bildet und MTP dort nicht greift. Beide Modelle wurden auf einer RTX 4060 Ti mit 16 GB VRAM getestet, wobei der Speicherbedarf vergleichbar war. Einschränkungen des aktuellen Setups: deterministische Ausgabe (kein Temperature/Top-P-Einfluss), kein Streaming, kein Request-Batching sowie ausschließliche Linux-Unterstützung (Ubuntu 24.04 LTS). Audio-Transkription ist möglich, läuft aber nur auf der CPU. Der Wrapper-Code wurde auf GitHub veröffentlicht.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.