RTX 5070 Ti: Qwen3.6-35B-A3B mit 564 Prompt- und 41 Gen-Token/s

Warum es zählt

Das Setup zeigt, dass ein 35B-MoE-Modell auf einer Mid-Range-Consumer-GPU mit hybridem CPU/GPU-Offloading (--n-cpu-moe 29) alltagstauglich läuft – relevant für Nutzer, die lokale Inferenz ohne High-End-Hardware betreiben wollen.

— Lumeric Redaktion

Reddit-Nutzer KptEmreU zeigt ein llama.cpp-Setup, das das Qwen3.6-35B-A3B-Modell in der Quantisierung Q4_K_M auf einer RTX 5070 Ti mit 16 GB VRAM betreibt. Tatsächlich genutzt werden 10,8 GB dediziertes VRAM, da Platz für Windows und Game-Engines reserviert bleibt. Weitere 13,6 GB shared RAM und 23,5 von 32 GB normalem Systemspeicher sind belegt. Kernstück des Setups ist der Parameter --n-cpu-moe 29, der 29 MoE-Experten-Schichten auf die CPU auslagert und so das Modell trotz begrenztem VRAM lauffähig macht. Der Kontext ist mit 262.144 Tokens maximal ausgereizt; KV-Cache wird in q4_0 komprimiert. Die gemessenen Token-Raten: 564 t/s beim Prompt-Processing, 41 t/s bei der Generierung. Der Nutzer verweist auf einen YouTube-Kanal, der das Modell sogar auf einer 6-GB-GPU zum Laufen gebracht hat. TurboQuants konnte nicht genutzt werden – der Grund ist unklar, Hilfe wird erbeten.

Was wir noch wissen

llama.cpp-Parameter: --ctx-size 262144, --cache-type-k q4_0, --cache-type-v q4_0, --n-cpu-moe 29
10,8 von 16 GB dediziertes VRAM genutzt; Rest reserviert für Windows & Game-Engines
13,6 von 15,6 GB Shared RAM sowie 23,5 von 32 GB normalem RAM belegt
Referenzierter YouTube-Kanal demonstriert denselben Ansatz auf einer 6-GB-GPU
TurboQuants konnte vom Nutzer nicht eingesetzt werden – Ursache ungeklärt

Quelle lesenreddit.com

41 t/s

Generierungsgeschwindigkeit auf RTX 5070 Ti

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

RTX 5070 Ti: Qwen3.6-35B-A3B mit 564 Prompt- und 41 Gen-Token/s

ToolsQwen Llama

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

llama.cpp-Parameter: --ctx-size 262144, --cache-type-k q4_0, --cache-type-v q4_0, --n-cpu-moe 29
10,8 von 16 GB dediziertes VRAM genutzt; Rest reserviert für Windows & Game-Engines
13,6 von 15,6 GB Shared RAM sowie 23,5 von 32 GB normalem RAM belegt
Referenzierter YouTube-Kanal demonstriert denselben Ansatz auf einer 6-GB-GPU
TurboQuants konnte vom Nutzer nicht eingesetzt werden – Ursache ungeklärt

41 t/s

Generierungsgeschwindigkeit auf RTX 5070 Ti

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

RTX 5070 Ti: Qwen3.6-35B-A3B mit 564 Prompt- und 41 Gen-Token/s

Frag die KI zum Artikel

Verwandte Beiträge

RTX 5070 Ti: Qwen3.6-35B-A3B mit 564 Prompt- und 41 Gen-Token/s

Frag die KI zum Artikel

Verwandte Beiträge