llama.cpp: Community-Benchmarks für Qwen3.6/3.5-MTP gesammelt
Der Reddit-Thread auf r/LocalLLaMA fungiert als Community-Sammelpunkt für Laufzeit-Benchmarks des Qwen3.6/3.5-MTP-Modells unter llama.cpp. Nach dem initialen Pull Request gab es laut Threadersteller zahlreiche Optimierungen und Bugfixes; der Build b9495 enthält einen weiteren MTP-bezogenen Merge und gilt als stabil genug für repräsentative Messungen. Als Referenzkonfiguration wird ein llama-server-Aufruf mit dem Quantisierungsformat Q5_K_XL (Qwen3.6-35B-A3B-MTP-UD), 150.000 Token Kontextgröße, Flash-Attention, KV-Cache q8_0, Speculative Decoding via MTP (max. 3 Draft-Tokens) und 11 CPU-Threads geteilt. Das Beispielergebnis zeigt 207,90 t/s beim Prompt-Eval und 24,07 t/s bei der eigentlichen Generierung; die MTP-Draft-Acceptance-Rate liegt bei ca. 52,6 % (161 von 306 generierten Draft-Tokens akzeptiert). Haupttreiber der Optimierungen ist laut Post u/am17an. Nutzer werden gebeten, vollständige Konsolenausgaben inklusive aller Flags zu teilen, um aussagekräftige Vergleiche zu ermöglichen.
- Referenzmodell: Qwen3.6-35B-A3B-MTP-UD-Q5_K_XL.gguf mit 150 000 Token Kontext
- MTP Speculative Decoding: max. 3 Draft-Tokens, Acceptance Rate ~52,6 % im Beispiel
- Prompt-Eval-Speed: 207,90 t/s; Generierungs-Speed: 24,07 t/s (264 Tokens in ~11 s)
- Build b9495 enthält den jüngsten MTP-Merge und gilt als Referenz-Stand des Threads
- KV-Cache auf q8_0 gesetzt, Flash-Attention aktiv, preserve_thinking via Jinja-Template
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
llama.cpp: Community-Benchmarks für Qwen3.6/3.5-MTP gesammelt
Der Reddit-Thread auf r/LocalLLaMA fungiert als Community-Sammelpunkt für Laufzeit-Benchmarks des Qwen3.6/3.5-MTP-Modells unter llama.cpp. Nach dem initialen Pull Request gab es laut Threadersteller zahlreiche Optimierungen und Bugfixes; der Build b9495 enthält einen weiteren MTP-bezogenen Merge und gilt als stabil genug für repräsentative Messungen. Als Referenzkonfiguration wird ein llama-server-Aufruf mit dem Quantisierungsformat Q5_K_XL (Qwen3.6-35B-A3B-MTP-UD), 150.000 Token Kontextgröße, Flash-Attention, KV-Cache q8_0, Speculative Decoding via MTP (max. 3 Draft-Tokens) und 11 CPU-Threads geteilt. Das Beispielergebnis zeigt 207,90 t/s beim Prompt-Eval und 24,07 t/s bei der eigentlichen Generierung; die MTP-Draft-Acceptance-Rate liegt bei ca. 52,6 % (161 von 306 generierten Draft-Tokens akzeptiert). Haupttreiber der Optimierungen ist laut Post u/am17an. Nutzer werden gebeten, vollständige Konsolenausgaben inklusive aller Flags zu teilen, um aussagekräftige Vergleiche zu ermöglichen.
- Referenzmodell: Qwen3.6-35B-A3B-MTP-UD-Q5_K_XL.gguf mit 150 000 Token Kontext
- MTP Speculative Decoding: max. 3 Draft-Tokens, Acceptance Rate ~52,6 % im Beispiel
- Prompt-Eval-Speed: 207,90 t/s; Generierungs-Speed: 24,07 t/s (264 Tokens in ~11 s)
- Build b9495 enthält den jüngsten MTP-Merge und gilt als Referenz-Stand des Threads
- KV-Cache auf q8_0 gesetzt, Flash-Attention aktiv, preserve_thinking via Jinja-Template
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.