Ornith-1.0-35B GGUF: MTP-Speculative-Decode-Graft bringt 1,35× Token-Durchsatz

Warum es zählt

Der MTP-Graft-Ansatz ermöglicht Self-Speculative-Decoding ohne zweites Modell auf einer einzigen GPU. Die detaillierte Fidelity-Leiter (KLD vs. Quant-Stufe) und TTFT-Zahlen (94 ms @512 Tokens bis 6,3 s @32k) sind direkt für lokale Deployment-Entscheidungen nutzbar.

— Lumeric Redaktion

Quelle lesenreddit.com

KLD vs. BF16 (Top-64 Next-Token, Ornith-1.0-35B) · Spitzenwert

0.017%

Q6_K

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Ornith-1.0-35B GGUF: MTP-Speculative-Decode-Graft bringt 1,35× Token-Durchsatz

ToolsNVIDIA Hardware Llama Hugging Face

CompaniesHugging Face NVIDIA

Warum es zählt

— Lumeric Redaktion

KLD vs. BF16 (Top-64 Next-Token, Ornith-1.0-35B) · Spitzenwert

0.017%

Q6_K

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Ornith-1.0-35B GGUF: MTP-Speculative-Decode-Graft bringt 1,35× Token-Durchsatz

Frag die KI zum Artikel

Verwandte Beiträge

Ornith-1.0-35B GGUF: MTP-Speculative-Decode-Graft bringt 1,35× Token-Durchsatz

Frag die KI zum Artikel

Verwandte Beiträge