Llama.cpp-Update bringt 1,5–1,8× Token-Boost bei MTP
Ein Reddit-Nutzer auf r/LocalLLaMA weist darauf hin, dass ein kürzlich erschienenes Update von Llama.cpp die Multi-Token-Prediction (MTP) erheblich verbessert hat. Der Autor hatte MTP zuvor rund eine Stunde lang benchmarkt und die Funktion als weitgehend nutzlos eingestuft – erst nach dem Update stellte sich ein Token-Durchsatz-Gewinn von 1,5 bis 1,8× ein. Zusätzlich wurde ein bekanntes Problem mit der Prompt-Processing-Geschwindigkeit (PP) größtenteils behoben. MTP ist eine Technik, bei der das Modell mehrere Token gleichzeitig vorhersagt, um die Inferenzgeschwindigkeit zu steigern. Da Llama.cpp sehr aktiv entwickelt wird und Performance-relevante Fixes teils täglich einfließen, kann selbst ein kurzes Versäumen von Updates spürbare Nachteile bedeuten. Das Post richtet sich explizit an Nutzer, die MTP bereits getestet und wieder verworfen haben.
- 1,5–1,8× Token-Durchsatz-Steigerung durch das Update ohne Hardware-Änderung
- Prompt-Processing (PP)-Problem laut Nutzer größtenteils behoben
- Nutzer /u/Borkato hatte MTP nach ~1 Stunde Benchmarking als unbrauchbar eingestuft
- Post richtet sich explizit an Nutzer, die MTP bereits verworfen haben und nicht regelmäßig updaten
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Llama.cpp-Update bringt 1,5–1,8× Token-Boost bei MTP
Ein Reddit-Nutzer auf r/LocalLLaMA weist darauf hin, dass ein kürzlich erschienenes Update von Llama.cpp die Multi-Token-Prediction (MTP) erheblich verbessert hat. Der Autor hatte MTP zuvor rund eine Stunde lang benchmarkt und die Funktion als weitgehend nutzlos eingestuft – erst nach dem Update stellte sich ein Token-Durchsatz-Gewinn von 1,5 bis 1,8× ein. Zusätzlich wurde ein bekanntes Problem mit der Prompt-Processing-Geschwindigkeit (PP) größtenteils behoben. MTP ist eine Technik, bei der das Modell mehrere Token gleichzeitig vorhersagt, um die Inferenzgeschwindigkeit zu steigern. Da Llama.cpp sehr aktiv entwickelt wird und Performance-relevante Fixes teils täglich einfließen, kann selbst ein kurzes Versäumen von Updates spürbare Nachteile bedeuten. Das Post richtet sich explizit an Nutzer, die MTP bereits getestet und wieder verworfen haben.
- 1,5–1,8× Token-Durchsatz-Steigerung durch das Update ohne Hardware-Änderung
- Prompt-Processing (PP)-Problem laut Nutzer größtenteils behoben
- Nutzer /u/Borkato hatte MTP nach ~1 Stunde Benchmarking als unbrauchbar eingestuft
- Post richtet sich explizit an Nutzer, die MTP bereits verworfen haben und nicht regelmäßig updaten
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.