wird geladen

Experiment: MTP-Modelle bei 16 GB VRAM schneller als Standard-Varianten? · Lumeric

Beitrag

BENCHMARK

reddit.com· r/LocalLLaMA1w

Experiment: MTP-Modelle bei 16 GB VRAM schneller als Standard-Varianten?

ToolsQwen Llama Hugging Face

CompaniesHugging Face AMD

Warum es zählt

MTP liefert bei 35B-Sparse-Modellen (~15 % mehr Token/s) messbare Gewinne, skaliert aber nicht auf dichtere Architekturen: Qwen 27B MTP kommt nur auf 12,38 T/S — ein wichtiger Hinweis für die Modellauswahl bei 16-GB-GPUs.

— Lumeric Redaktion

Ein Nutzer aus r/LocalLLaMA testete, ob Multi-Token Prediction (MTP) auf Consumer-Hardware mit 16 GB VRAM tatsächlich einen Geschwindigkeitsvorteil bringt. Als Testplattform diente eine AMD RX 9070XT mit 32 GB DDR5-RAM. Alle Modelle wurden über llama-server mit identischem Prompt, 8192-Token-Kontextfenster und Q4_K_XL-Quantisierung ausgeführt. Das Ergebnis: Qwen 35B A3B MTP (unsloth-GGUF) erzielte 43,74 T/S, während die Standard-Variante desselben Modells bei 38,07 T/S lag — ein Vorteil von rund 15 %. Für MTP wurde der Parameter --spec-type draft-mtp --spec-draft-n-max 2 gesetzt. Das dichtere Qwen 27B MTP schnitt mit nur 12,38 T/S deutlich schlechter ab, was darauf hindeutet, dass MTP vor allem bei Sparse-MoE-Architekturen (A3B steht für aktive 3B Parameter) Sinn ergibt. Während des Tests traten Initialisierungswarnungen auf (common_fit_params), die die Ergebnisse möglicherweise beeinflusst haben. Die Studie ist informell und basiert auf einem einzigen Prompt, liefert aber erste Praxishinweise für lokale Inferenz mit MTP-Modellen.

Quelle lesenreddit.com

Token/s auf RX 9070XT (16 GB VRAM, Q4_K_XL) · Spitzenwert

43.74%

Qwen 35B A3B MTP

Inferenz Infra Open Source Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

BENCHMARK

reddit.com· r/LocalLLaMA1w

Experiment: MTP-Modelle bei 16 GB VRAM schneller als Standard-Varianten?

ToolsQwen Llama Hugging Face

CompaniesHugging Face AMD

Warum es zählt

MTP liefert bei 35B-Sparse-Modellen (~15 % mehr Token/s) messbare Gewinne, skaliert aber nicht auf dichtere Architekturen: Qwen 27B MTP kommt nur auf 12,38 T/S — ein wichtiger Hinweis für die Modellauswahl bei 16-GB-GPUs.

— Lumeric Redaktion

Ein Nutzer aus r/LocalLLaMA testete, ob Multi-Token Prediction (MTP) auf Consumer-Hardware mit 16 GB VRAM tatsächlich einen Geschwindigkeitsvorteil bringt. Als Testplattform diente eine AMD RX 9070XT mit 32 GB DDR5-RAM. Alle Modelle wurden über llama-server mit identischem Prompt, 8192-Token-Kontextfenster und Q4_K_XL-Quantisierung ausgeführt. Das Ergebnis: Qwen 35B A3B MTP (unsloth-GGUF) erzielte 43,74 T/S, während die Standard-Variante desselben Modells bei 38,07 T/S lag — ein Vorteil von rund 15 %. Für MTP wurde der Parameter --spec-type draft-mtp --spec-draft-n-max 2 gesetzt. Das dichtere Qwen 27B MTP schnitt mit nur 12,38 T/S deutlich schlechter ab, was darauf hindeutet, dass MTP vor allem bei Sparse-MoE-Architekturen (A3B steht für aktive 3B Parameter) Sinn ergibt. Während des Tests traten Initialisierungswarnungen auf (common_fit_params), die die Ergebnisse möglicherweise beeinflusst haben. Die Studie ist informell und basiert auf einem einzigen Prompt, liefert aber erste Praxishinweise für lokale Inferenz mit MTP-Modellen.

Token/s auf RX 9070XT (16 GB VRAM, Q4_K_XL) · Spitzenwert

43.74%

Qwen 35B A3B MTP

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.