llama.cpp integriert Gemma4 MTP-Unterstützung
Multi-Token Prediction (MTP) ist eine Technik, bei der ein Sprachmodell in einem einzigen Vorwärtsdurchlauf mehrere Token gleichzeitig vorhersagt, anstatt strikt eines nach dem anderen – das reduziert die Anzahl der nötigen Decoder-Schritte und erhöht den Durchsatz bei der Inferenz spürbar. Googles Gemma-4-Modellfamilie unterstützt dieses Feature nativ, konnte es bis zum Merge jedoch in llama.cpp nicht nutzen. Mit dem jetzt abgeschlossenen Merge ist die MTP-Unterstützung für Gemma-4 im Mainline-Branch von llama.cpp gelandet und steht damit allen Nutzern ohne zusätzliche Patches zur Verfügung. llama.cpp ist das meistgenutzte Framework für CPU- und Mixed-CPU/GPU-Inferenz lokaler Large Language Models und bildet die Basis für viele populäre Frontends wie Ollama, LM Studio und Jan. MTP wurde in llama.cpp bereits für andere Modelle wie DeepSeek eingeführt und wird nun schrittweise auf weitere Architekturen ausgerollt. Für Gemma-4-Nutzer bedeutet dies konkret, dass Tokens-per-Second bei gleicher Hardware steigen – besonders relevant für die größeren Gewichtsklassen der Gemma-4-Reihe, die lokal an der VRAM-Grenze betrieben werden. Der Reddit-Post von /u/pinkyellowneon meldet den Merge als vollzogen, weitere Implementierungsdetails sind im verlinkten Pull-Request auf GitHub einsehbar.
- MTP (Multi-Token Prediction) erlaubt die gleichzeitige Vorhersage mehrerer Token pro Schritt und steigert so den Inferenz-Durchsatz.
- Der Support ist direkt im Mainline-Branch von llama.cpp gelandet – kein Fork oder manueller Patch erforderlich.
- llama.cpp hatte MTP-Support zuvor bereits für andere Architekturen (z. B. DeepSeek) implementiert; Gemma-4 ist ein weiterer Rollout.
- Post stammt von Reddit-Nutzer /u/pinkyellowneon im Subreddit r/LocalLLaMA.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama.cpp integriert Gemma4 MTP-Unterstützung
Multi-Token Prediction (MTP) ist eine Technik, bei der ein Sprachmodell in einem einzigen Vorwärtsdurchlauf mehrere Token gleichzeitig vorhersagt, anstatt strikt eines nach dem anderen – das reduziert die Anzahl der nötigen Decoder-Schritte und erhöht den Durchsatz bei der Inferenz spürbar. Googles Gemma-4-Modellfamilie unterstützt dieses Feature nativ, konnte es bis zum Merge jedoch in llama.cpp nicht nutzen. Mit dem jetzt abgeschlossenen Merge ist die MTP-Unterstützung für Gemma-4 im Mainline-Branch von llama.cpp gelandet und steht damit allen Nutzern ohne zusätzliche Patches zur Verfügung. llama.cpp ist das meistgenutzte Framework für CPU- und Mixed-CPU/GPU-Inferenz lokaler Large Language Models und bildet die Basis für viele populäre Frontends wie Ollama, LM Studio und Jan. MTP wurde in llama.cpp bereits für andere Modelle wie DeepSeek eingeführt und wird nun schrittweise auf weitere Architekturen ausgerollt. Für Gemma-4-Nutzer bedeutet dies konkret, dass Tokens-per-Second bei gleicher Hardware steigen – besonders relevant für die größeren Gewichtsklassen der Gemma-4-Reihe, die lokal an der VRAM-Grenze betrieben werden. Der Reddit-Post von /u/pinkyellowneon meldet den Merge als vollzogen, weitere Implementierungsdetails sind im verlinkten Pull-Request auf GitHub einsehbar.
- MTP (Multi-Token Prediction) erlaubt die gleichzeitige Vorhersage mehrerer Token pro Schritt und steigert so den Inferenz-Durchsatz.
- Der Support ist direkt im Mainline-Branch von llama.cpp gelandet – kein Fork oder manueller Patch erforderlich.
- llama.cpp hatte MTP-Support zuvor bereits für andere Architekturen (z. B. DeepSeek) implementiert; Gemma-4 ist ein weiterer Rollout.
- Post stammt von Reddit-Nutzer /u/pinkyellowneon im Subreddit r/LocalLLaMA.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.