llama.cpp: Community-Benchmarks für Qwen3.6/3.5-MTP gesammelt

Warum es zählt

Mit MTP-Spekulation (Draft Acceptance Rate ~52 %) und optimierten llama-server-Flags lassen sich auf Consumer-Hardware deutlich höhere Tokens/s erzielen – die Thread-Beispielkonfiguration dient als direkt kopierbarer Startpunkt.

— Lumeric Redaktion

Der Reddit-Thread auf r/LocalLLaMA fungiert als Community-Sammelpunkt für Laufzeit-Benchmarks des Qwen3.6/3.5-MTP-Modells unter llama.cpp. Nach dem initialen Pull Request gab es laut Threadersteller zahlreiche Optimierungen und Bugfixes; der Build b9495 enthält einen weiteren MTP-bezogenen Merge und gilt als stabil genug für repräsentative Messungen. Als Referenzkonfiguration wird ein llama-server-Aufruf mit dem Quantisierungsformat Q5_K_XL (Qwen3.6-35B-A3B-MTP-UD), 150.000 Token Kontextgröße, Flash-Attention, KV-Cache q8_0, Speculative Decoding via MTP (max. 3 Draft-Tokens) und 11 CPU-Threads geteilt. Das Beispielergebnis zeigt 207,90 t/s beim Prompt-Eval und 24,07 t/s bei der eigentlichen Generierung; die MTP-Draft-Acceptance-Rate liegt bei ca. 52,6 % (161 von 306 generierten Draft-Tokens akzeptiert). Haupttreiber der Optimierungen ist laut Post u/am17an. Nutzer werden gebeten, vollständige Konsolenausgaben inklusive aller Flags zu teilen, um aussagekräftige Vergleiche zu ermöglichen.

Was wir noch wissen

Referenzmodell: Qwen3.6-35B-A3B-MTP-UD-Q5_K_XL.gguf mit 150 000 Token Kontext
MTP Speculative Decoding: max. 3 Draft-Tokens, Acceptance Rate ~52,6 % im Beispiel
Prompt-Eval-Speed: 207,90 t/s; Generierungs-Speed: 24,07 t/s (264 Tokens in ~11 s)
Build b9495 enthält den jüngsten MTP-Merge und gilt als Referenz-Stand des Threads
KV-Cache auf q8_0 gesetzt, Flash-Attention aktiv, preserve_thinking via Jinja-Template

Quelle lesenreddit.com

24.07 t/s

Eval-Geschwindigkeit Qwen3.6-35B-A3B-MTP Q5_K_XL

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

BENCHMARK

reddit.com· r/LocalLLaMA1w