llama.cpp integriert Gemma4 MTP-Unterstützung

Warum es zählt

Nutzer von llama.cpp können Gemma-4-Modelle nun mit Multi-Token Prediction nutzen, was die Inferenzgeschwindigkeit lokal erhöht. Kein manueller Patch nötig – der Support ist im Mainline-Branch verfügbar.

— Lumeric Redaktion

Multi-Token Prediction (MTP) ist eine Technik, bei der ein Sprachmodell in einem einzigen Vorwärtsdurchlauf mehrere Token gleichzeitig vorhersagt, anstatt strikt eines nach dem anderen – das reduziert die Anzahl der nötigen Decoder-Schritte und erhöht den Durchsatz bei der Inferenz spürbar. Googles Gemma-4-Modellfamilie unterstützt dieses Feature nativ, konnte es bis zum Merge jedoch in llama.cpp nicht nutzen. Mit dem jetzt abgeschlossenen Merge ist die MTP-Unterstützung für Gemma-4 im Mainline-Branch von llama.cpp gelandet und steht damit allen Nutzern ohne zusätzliche Patches zur Verfügung. llama.cpp ist das meistgenutzte Framework für CPU- und Mixed-CPU/GPU-Inferenz lokaler Large Language Models und bildet die Basis für viele populäre Frontends wie Ollama, LM Studio und Jan. MTP wurde in llama.cpp bereits für andere Modelle wie DeepSeek eingeführt und wird nun schrittweise auf weitere Architekturen ausgerollt. Für Gemma-4-Nutzer bedeutet dies konkret, dass Tokens-per-Second bei gleicher Hardware steigen – besonders relevant für die größeren Gewichtsklassen der Gemma-4-Reihe, die lokal an der VRAM-Grenze betrieben werden. Der Reddit-Post von /u/pinkyellowneon meldet den Merge als vollzogen, weitere Implementierungsdetails sind im verlinkten Pull-Request auf GitHub einsehbar.

Was wir noch wissen

MTP (Multi-Token Prediction) erlaubt die gleichzeitige Vorhersage mehrerer Token pro Schritt und steigert so den Inferenz-Durchsatz.
Der Support ist direkt im Mainline-Branch von llama.cpp gelandet – kein Fork oder manueller Patch erforderlich.
llama.cpp hatte MTP-Support zuvor bereits für andere Architekturen (z. B. DeepSeek) implementiert; Gemma-4 ist ein weiterer Rollout.
Post stammt von Reddit-Nutzer /u/pinkyellowneon im Subreddit r/LocalLLaMA.

Quelle lesenreddit.com

Open Source Inferenz Infra Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp integriert Gemma4 MTP-Unterstützung

ToolsLlama

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

MTP (Multi-Token Prediction) erlaubt die gleichzeitige Vorhersage mehrerer Token pro Schritt und steigert so den Inferenz-Durchsatz.
Der Support ist direkt im Mainline-Branch von llama.cpp gelandet – kein Fork oder manueller Patch erforderlich.
llama.cpp hatte MTP-Support zuvor bereits für andere Architekturen (z. B. DeepSeek) implementiert; Gemma-4 ist ein weiterer Rollout.
Post stammt von Reddit-Nutzer /u/pinkyellowneon im Subreddit r/LocalLLaMA.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp integriert Gemma4 MTP-Unterstützung

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp integriert Gemma4 MTP-Unterstützung

Frag die KI zum Artikel

Verwandte Beiträge