MTP bei Gemma4-26b: Nur bei Code-Generierung wirklich schneller
Ein Reddit-Nutzer (u/Hydroskeletal) hat MTP (Multi-Token Prediction) mit dem Modell Gemma4-26b-a4b auf einem Apple M4 Max Studio systematisch über drei Workloads hinweg getestet – jeweils mit und ohne MTP aktiviert, unter Verwendung von mlx-vlm. Bei Code-Generierung stieg der Durchsatz von 75 auf 114,8 tok/s (1,53×), weil 66 % der Draft-Slots akzeptiert wurden. Bei Long-form-Prosa blieb es mit 71,1 tok/s praktisch ein Unentschieden (0,95×, Akzeptanzrate 31 %). Am schlechtesten schnitt JSON-Output ab: Hier halbierte MTP den Durchsatz auf 25,6 tok/s, da nur 8 % der Draft-Token akzeptiert wurden. Als empirische Daumenregel leitet der Autor ab, dass MTP erst ab einer Draft-Akzeptanzrate von über 50 % profitabel ist. Zusätzlich erwähnt er, dass strukturierte JSON-Ausgabe (json_schema) ohne MTP bereits einen Overhead von ~20 % verursacht – er verzichtet daher darauf und bereinigt leicht fehlerhaftes JSON nachträglich im Code.
- Test-Hardware: Apple M4 Max Studio, Modell: Gemma4-26b-a4b via mlx-vlm
- MTP-Baseline ohne MTP: konstant 75 tok/s über alle Workloads
- Draft-Akzeptanzrate entscheidet: 66 % → 1,53×; 31 % → wash; 8 % → 0,50×
- JSON-Schema (structured output) kostet laut Autor ~20 % Durchsatz, daher im Test deaktiviert
- mlx-vlm unterstützt json_schema für Speculative Decoding laut Autor ohnehin nicht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
MTP bei Gemma4-26b: Nur bei Code-Generierung wirklich schneller
Ein Reddit-Nutzer (u/Hydroskeletal) hat MTP (Multi-Token Prediction) mit dem Modell Gemma4-26b-a4b auf einem Apple M4 Max Studio systematisch über drei Workloads hinweg getestet – jeweils mit und ohne MTP aktiviert, unter Verwendung von mlx-vlm. Bei Code-Generierung stieg der Durchsatz von 75 auf 114,8 tok/s (1,53×), weil 66 % der Draft-Slots akzeptiert wurden. Bei Long-form-Prosa blieb es mit 71,1 tok/s praktisch ein Unentschieden (0,95×, Akzeptanzrate 31 %). Am schlechtesten schnitt JSON-Output ab: Hier halbierte MTP den Durchsatz auf 25,6 tok/s, da nur 8 % der Draft-Token akzeptiert wurden. Als empirische Daumenregel leitet der Autor ab, dass MTP erst ab einer Draft-Akzeptanzrate von über 50 % profitabel ist. Zusätzlich erwähnt er, dass strukturierte JSON-Ausgabe (json_schema) ohne MTP bereits einen Overhead von ~20 % verursacht – er verzichtet daher darauf und bereinigt leicht fehlerhaftes JSON nachträglich im Code.
- Test-Hardware: Apple M4 Max Studio, Modell: Gemma4-26b-a4b via mlx-vlm
- MTP-Baseline ohne MTP: konstant 75 tok/s über alle Workloads
- Draft-Akzeptanzrate entscheidet: 66 % → 1,53×; 31 % → wash; 8 % → 0,50×
- JSON-Schema (structured output) kostet laut Autor ~20 % Durchsatz, daher im Test deaktiviert
- mlx-vlm unterstützt json_schema für Speculative Decoding laut Autor ohnehin nicht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.