llama.cpp: Pre-Release MTP-Branches bringen ~20 % mehr Geschwindigkeit
Der Reddit-Nutzer Creative-Type9411 schildert seine Erfahrungen mit inoffiziellen Pre-Release-Branches von llama.cpp, die Multi-Token-Prediction (MTP) unterstützen. Auf seiner Hardware – zwei Xeon 8268, 1,5 TB RAM mit 2666 MHz und einer Tesla T4 – erzielt er mit dem schnellsten MTP-Branch rund 122 Eval-Token und ~38 t/s Ausgabe. Auf dem aktuellen stabilen Release sind es nur ~110 Eval-Token und ~30 t/s. Der Nutzer integrierte zusätzlich einen Vision-Fix aus einem anderen Branch manuell. Der Wechsel zurück auf den stabilen Release führte bei ihm zu einem Absturz von llama.cpp während einer leichten Coding-Session – ein Problem, das er auf den Pre-Release-Versionen nicht erlebt hatte. Der Post fragt die Community, ob andere ähnliche Erfahrungen machen und welche bekannten Nachteile der frühen Builds existieren. Die Diskussion spiegelt den typischen Trade-off zwischen Stabilitätsgarantie und Performance-Vorteilen bei experimentellen llama.cpp-Branches wider.
- Hardware: Dual Xeon 8268, 1,5 TB DDR4-2666, NVIDIA Tesla T4
- Pre-Release MTP-Branch: ~122 Eval-Token, ~38 t/s Ausgabe
- Stabiles Release: ~110 Eval-Token, ~30 t/s Ausgabe (~20 % langsamer)
- Nutzer kombinierte schnellsten MTP-Branch mit manuellem Vision-Fix aus separatem Branch
- Absturz (Model-Restart) trat auf dem stabilen Release auf, nicht auf den Pre-Release-Versionen
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama.cpp: Pre-Release MTP-Branches bringen ~20 % mehr Geschwindigkeit
Der Reddit-Nutzer Creative-Type9411 schildert seine Erfahrungen mit inoffiziellen Pre-Release-Branches von llama.cpp, die Multi-Token-Prediction (MTP) unterstützen. Auf seiner Hardware – zwei Xeon 8268, 1,5 TB RAM mit 2666 MHz und einer Tesla T4 – erzielt er mit dem schnellsten MTP-Branch rund 122 Eval-Token und ~38 t/s Ausgabe. Auf dem aktuellen stabilen Release sind es nur ~110 Eval-Token und ~30 t/s. Der Nutzer integrierte zusätzlich einen Vision-Fix aus einem anderen Branch manuell. Der Wechsel zurück auf den stabilen Release führte bei ihm zu einem Absturz von llama.cpp während einer leichten Coding-Session – ein Problem, das er auf den Pre-Release-Versionen nicht erlebt hatte. Der Post fragt die Community, ob andere ähnliche Erfahrungen machen und welche bekannten Nachteile der frühen Builds existieren. Die Diskussion spiegelt den typischen Trade-off zwischen Stabilitätsgarantie und Performance-Vorteilen bei experimentellen llama.cpp-Branches wider.
- Hardware: Dual Xeon 8268, 1,5 TB DDR4-2666, NVIDIA Tesla T4
- Pre-Release MTP-Branch: ~122 Eval-Token, ~38 t/s Ausgabe
- Stabiles Release: ~110 Eval-Token, ~30 t/s Ausgabe (~20 % langsamer)
- Nutzer kombinierte schnellsten MTP-Branch mit manuellem Vision-Fix aus separatem Branch
- Absturz (Model-Restart) trat auf dem stabilen Release auf, nicht auf den Pre-Release-Versionen
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.