llama.cpp: Schnelleres Prompt-Processing durch vermiedene Logit-Kopien bei MTP

Warum es zählt

Wer llama.cpp lokal betreibt, profitiert nach einem Update direkt von schnellerer Prompt-Verarbeitung – besonders relevant bei langen Kontexten und MTP-aktivierten Modellen.

— Lumeric Redaktion

Ein neuer Pull Request (#23198) von am17an im ggml-org/llama.cpp-Repository optimiert die Prompt-Verarbeitungsgeschwindigkeit, indem unnötiges Kopieren von Logits während des Prompt-Decodings bei Multi-Token-Prediction (MTP) vermieden wird.

Quelle lesenreddit.com

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

LAUNCH

reddit.com· r/LocalLLaMA1w