MTP Speculative Decoding in llama.cpp: Assistentenwahl entscheidet über Speed
Warum es zählt
Wer MTP in llama.cpp einsetzt, muss Draft-Modell und Quantisierung sorgfältig wählen: Falsche Paarungen liefern kaum Gewinn oder Crashes, während unquantisierte Assistenten oft ~10 t/s schneller sind als Q4-Varianten. spec-draft-n-max=1 war stets optimal.
— Lumeric Redaktion
MTP Speculative Decoding Speed (llama.cpp) · Spitzenwert
30%
Gemma 4 26B Heretic Q8 (ohne MTP)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
MTP Speculative Decoding in llama.cpp: Assistentenwahl entscheidet über Speed
Warum es zählt
Wer MTP in llama.cpp einsetzt, muss Draft-Modell und Quantisierung sorgfältig wählen: Falsche Paarungen liefern kaum Gewinn oder Crashes, während unquantisierte Assistenten oft ~10 t/s schneller sind als Q4-Varianten. spec-draft-n-max=1 war stets optimal.
— Lumeric Redaktion
MTP Speculative Decoding Speed (llama.cpp) · Spitzenwert
30%
Gemma 4 26B Heretic Q8 (ohne MTP)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.