MTP bei Gemma4-26b: Nur bei Code-Generierung wirklich schneller

Warum es zählt

Wer MTP für strukturierte Outputs oder JSON-Schemas einsetzt, riskiert eine Halbierung des Durchsatzes. Praktische Faustregel laut Test: Unter 50 % Draft-Akzeptanzrate überwiegt der MTP-Overhead den Nutzen.

— Lumeric Redaktion

Ein Reddit-Nutzer (u/Hydroskeletal) hat MTP (Multi-Token Prediction) mit dem Modell Gemma4-26b-a4b auf einem Apple M4 Max Studio systematisch über drei Workloads hinweg getestet – jeweils mit und ohne MTP aktiviert, unter Verwendung von mlx-vlm. Bei Code-Generierung stieg der Durchsatz von 75 auf 114,8 tok/s (1,53×), weil 66 % der Draft-Slots akzeptiert wurden. Bei Long-form-Prosa blieb es mit 71,1 tok/s praktisch ein Unentschieden (0,95×, Akzeptanzrate 31 %). Am schlechtesten schnitt JSON-Output ab: Hier halbierte MTP den Durchsatz auf 25,6 tok/s, da nur 8 % der Draft-Token akzeptiert wurden. Als empirische Daumenregel leitet der Autor ab, dass MTP erst ab einer Draft-Akzeptanzrate von über 50 % profitabel ist. Zusätzlich erwähnt er, dass strukturierte JSON-Ausgabe (json_schema) ohne MTP bereits einen Overhead von ~20 % verursacht – er verzichtet daher darauf und bereinigt leicht fehlerhaftes JSON nachträglich im Code.

Was wir noch wissen

Test-Hardware: Apple M4 Max Studio, Modell: Gemma4-26b-a4b via mlx-vlm
MTP-Baseline ohne MTP: konstant 75 tok/s über alle Workloads
Draft-Akzeptanzrate entscheidet: 66 % → 1,53×; 31 % → wash; 8 % → 0,50×
JSON-Schema (structured output) kostet laut Autor ~20 % Durchsatz, daher im Test deaktiviert
mlx-vlm unterstützt json_schema für Speculative Decoding laut Autor ohnehin nicht

Quelle lesenreddit.com

MTP Throughput (tok/s) – Gemma4-26b-a4b auf M4 Max Studio · Spitzenwert

114.8%

Code-Generierung

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MTP bei Gemma4-26b: Nur bei Code-Generierung wirklich schneller

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Test-Hardware: Apple M4 Max Studio, Modell: Gemma4-26b-a4b via mlx-vlm
MTP-Baseline ohne MTP: konstant 75 tok/s über alle Workloads
Draft-Akzeptanzrate entscheidet: 66 % → 1,53×; 31 % → wash; 8 % → 0,50×
JSON-Schema (structured output) kostet laut Autor ~20 % Durchsatz, daher im Test deaktiviert
mlx-vlm unterstützt json_schema für Speculative Decoding laut Autor ohnehin nicht

MTP Throughput (tok/s) – Gemma4-26b-a4b auf M4 Max Studio · Spitzenwert

114.8%

Code-Generierung

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MTP bei Gemma4-26b: Nur bei Code-Generierung wirklich schneller

Frag die KI zum Artikel

Verwandte Beiträge

MTP bei Gemma4-26b: Nur bei Code-Generierung wirklich schneller

Frag die KI zum Artikel

Verwandte Beiträge