wird geladen

80 tok/s und 128K Kontext mit Qwen3.6 35B A3B auf 12 GB VRAM via llama.cpp MTP · Lumeric

Beitrag

LAUNCH

reddit.com· r/LocalLLaMA2mo

80 tok/s und 128K Kontext mit Qwen3.6 35B A3B auf 12 GB VRAM via llama.cpp MTP

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

Mit dem Parameter -fitt 1664 und MTP-Speculative-Decoding lässt sich ein 35B-MoE-Modell auf Consumer-Hardware mit 12 GB VRAM effizient betreiben — das senkt die Einstiegshürde für leistungsstarke lokale Inferenz erheblich.

— Lumeric Redaktion

Reddit-Nutzer /u/janvitos dokumentiert eine llama.cpp-Konfiguration, die auf einem RTX 4070 Super (12 GB VRAM) über 80 Token/Sekunde bei 128K Kontext erzielt – mit dem Qwen3.6-35B-A3B-Modell im Q4_K_XL GGUF-Format. Möglich wird dies durch einen noch nicht in den Master-Branch gemergten MTP-Draft-PR für llama.cpp sowie den speziellen MTP-GGUF von havenoammo auf Hugging Face. Der Schlüsselparameter -fitt 1664 sorgt dafür, dass llama.cpp die GPU/CPU-Last optimal balanciert und ausreichend VRAM für das MTP-Drafting-Modell sowie den KV-Cache freihält. Da das Modell wegen seiner Größe teilweise auf die CPU ausgelagert wird, ist die richtige Balance entscheidend für die Performance. Die KV-Cache-Quantisierung erfolgt auf q8_0 für alle Ebenen; Flash Attention ist aktiviert. Benchmark-Ergebnisse über neun Aufgabentypen (Code, QA, Übersetzung, Mathe u. a.) zeigen MTP-Akzeptanzraten zwischen 0,69 und 0,95 und Geschwindigkeiten von 69–82 tok/s. Nutzer mit dGPU als primärem Display-Ausgang benötigen ggf. einen größeren -fitt-Wert, da dann weniger VRAM für Inferenz verfügbar ist.

Quelle lesenreddit.com

80,8 tok/s

auf RTX 4070 Super, 12 GB VRAM

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

BENCHMARKreddit.com1d
Qwen3 30B A3B mit 50 tok/s auf RTX 5060 Ti: Custom CUDA-Engine schlägt llama.cpp um 50%

LAUNCH

reddit.com· r/LocalLLaMA2mo

80 tok/s und 128K Kontext mit Qwen3.6 35B A3B auf 12 GB VRAM via llama.cpp MTP

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

Mit dem Parameter -fitt 1664 und MTP-Speculative-Decoding lässt sich ein 35B-MoE-Modell auf Consumer-Hardware mit 12 GB VRAM effizient betreiben — das senkt die Einstiegshürde für leistungsstarke lokale Inferenz erheblich.

— Lumeric Redaktion

Reddit-Nutzer /u/janvitos dokumentiert eine llama.cpp-Konfiguration, die auf einem RTX 4070 Super (12 GB VRAM) über 80 Token/Sekunde bei 128K Kontext erzielt – mit dem Qwen3.6-35B-A3B-Modell im Q4_K_XL GGUF-Format. Möglich wird dies durch einen noch nicht in den Master-Branch gemergten MTP-Draft-PR für llama.cpp sowie den speziellen MTP-GGUF von havenoammo auf Hugging Face. Der Schlüsselparameter -fitt 1664 sorgt dafür, dass llama.cpp die GPU/CPU-Last optimal balanciert und ausreichend VRAM für das MTP-Drafting-Modell sowie den KV-Cache freihält. Da das Modell wegen seiner Größe teilweise auf die CPU ausgelagert wird, ist die richtige Balance entscheidend für die Performance. Die KV-Cache-Quantisierung erfolgt auf q8_0 für alle Ebenen; Flash Attention ist aktiviert. Benchmark-Ergebnisse über neun Aufgabentypen (Code, QA, Übersetzung, Mathe u. a.) zeigen MTP-Akzeptanzraten zwischen 0,69 und 0,95 und Geschwindigkeiten von 69–82 tok/s. Nutzer mit dGPU als primärem Display-Ausgang benötigen ggf. einen größeren -fitt-Wert, da dann weniger VRAM für Inferenz verfügbar ist.

80,8 tok/s

auf RTX 4070 Super, 12 GB VRAM

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

BENCHMARKreddit.com1d
Qwen3 30B A3B mit 50 tok/s auf RTX 5060 Ti: Custom CUDA-Engine schlägt llama.cpp um 50%