Ornith-1.0-35B GGUF: MTP-Speculative-Decode-Graft bringt 1,35× Token-Durchsatz
Warum es zählt
Der MTP-Graft-Ansatz ermöglicht Self-Speculative-Decoding ohne zweites Modell auf einer einzigen GPU. Die detaillierte Fidelity-Leiter (KLD vs. Quant-Stufe) und TTFT-Zahlen (94 ms @512 Tokens bis 6,3 s @32k) sind direkt für lokale Deployment-Entscheidungen nutzbar.
— Lumeric Redaktion
KLD vs. BF16 (Top-64 Next-Token, Ornith-1.0-35B) · Spitzenwert
0.017%
Q6_K
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Ornith-1.0-35B GGUF: MTP-Speculative-Decode-Graft bringt 1,35× Token-Durchsatz
Warum es zählt
Der MTP-Graft-Ansatz ermöglicht Self-Speculative-Decoding ohne zweites Modell auf einer einzigen GPU. Die detaillierte Fidelity-Leiter (KLD vs. Quant-Stufe) und TTFT-Zahlen (94 ms @512 Tokens bis 6,3 s @32k) sind direkt für lokale Deployment-Entscheidungen nutzbar.
— Lumeric Redaktion
KLD vs. BF16 (Top-64 Next-Token, Ornith-1.0-35B) · Spitzenwert
0.017%
Q6_K
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.