80 tok/s und 128K Kontext mit Qwen3.6 35B A3B auf 12 GB VRAM via llama.cpp MTP
Reddit-Nutzer /u/janvitos dokumentiert eine llama.cpp-Konfiguration, die auf einem RTX 4070 Super (12 GB VRAM) über 80 Token/Sekunde bei 128K Kontext erzielt – mit dem Qwen3.6-35B-A3B-Modell im Q4_K_XL GGUF-Format. Möglich wird dies durch einen noch nicht in den Master-Branch gemergten MTP-Draft-PR für llama.cpp sowie den speziellen MTP-GGUF von havenoammo auf Hugging Face. Der Schlüsselparameter -fitt 1664 sorgt dafür, dass llama.cpp die GPU/CPU-Last optimal balanciert und ausreichend VRAM für das MTP-Drafting-Modell sowie den KV-Cache freihält. Da das Modell wegen seiner Größe teilweise auf die CPU ausgelagert wird, ist die richtige Balance entscheidend für die Performance. Die KV-Cache-Quantisierung erfolgt auf q8_0 für alle Ebenen; Flash Attention ist aktiviert. Benchmark-Ergebnisse über neun Aufgabentypen (Code, QA, Übersetzung, Mathe u. a.) zeigen MTP-Akzeptanzraten zwischen 0,69 und 0,95 und Geschwindigkeiten von 69–82 tok/s. Nutzer mit dGPU als primärem Display-Ausgang benötigen ggf. einen größeren -fitt-Wert, da dann weniger VRAM für Inferenz verfügbar ist.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
80 tok/s und 128K Kontext mit Qwen3.6 35B A3B auf 12 GB VRAM via llama.cpp MTP
Reddit-Nutzer /u/janvitos dokumentiert eine llama.cpp-Konfiguration, die auf einem RTX 4070 Super (12 GB VRAM) über 80 Token/Sekunde bei 128K Kontext erzielt – mit dem Qwen3.6-35B-A3B-Modell im Q4_K_XL GGUF-Format. Möglich wird dies durch einen noch nicht in den Master-Branch gemergten MTP-Draft-PR für llama.cpp sowie den speziellen MTP-GGUF von havenoammo auf Hugging Face. Der Schlüsselparameter -fitt 1664 sorgt dafür, dass llama.cpp die GPU/CPU-Last optimal balanciert und ausreichend VRAM für das MTP-Drafting-Modell sowie den KV-Cache freihält. Da das Modell wegen seiner Größe teilweise auf die CPU ausgelagert wird, ist die richtige Balance entscheidend für die Performance. Die KV-Cache-Quantisierung erfolgt auf q8_0 für alle Ebenen; Flash Attention ist aktiviert. Benchmark-Ergebnisse über neun Aufgabentypen (Code, QA, Übersetzung, Mathe u. a.) zeigen MTP-Akzeptanzraten zwischen 0,69 und 0,95 und Geschwindigkeiten von 69–82 tok/s. Nutzer mit dGPU als primärem Display-Ausgang benötigen ggf. einen größeren -fitt-Wert, da dann weniger VRAM für Inferenz verfügbar ist.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.