RTX 5070 Ti: Qwen3.6-35B-A3B mit 564 Prompt- und 41 Gen-Token/s
Reddit-Nutzer KptEmreU zeigt ein llama.cpp-Setup, das das Qwen3.6-35B-A3B-Modell in der Quantisierung Q4_K_M auf einer RTX 5070 Ti mit 16 GB VRAM betreibt. Tatsächlich genutzt werden 10,8 GB dediziertes VRAM, da Platz für Windows und Game-Engines reserviert bleibt. Weitere 13,6 GB shared RAM und 23,5 von 32 GB normalem Systemspeicher sind belegt. Kernstück des Setups ist der Parameter --n-cpu-moe 29, der 29 MoE-Experten-Schichten auf die CPU auslagert und so das Modell trotz begrenztem VRAM lauffähig macht. Der Kontext ist mit 262.144 Tokens maximal ausgereizt; KV-Cache wird in q4_0 komprimiert. Die gemessenen Token-Raten: 564 t/s beim Prompt-Processing, 41 t/s bei der Generierung. Der Nutzer verweist auf einen YouTube-Kanal, der das Modell sogar auf einer 6-GB-GPU zum Laufen gebracht hat. TurboQuants konnte nicht genutzt werden – der Grund ist unklar, Hilfe wird erbeten.
- llama.cpp-Parameter: --ctx-size 262144, --cache-type-k q4_0, --cache-type-v q4_0, --n-cpu-moe 29
- 10,8 von 16 GB dediziertes VRAM genutzt; Rest reserviert für Windows & Game-Engines
- 13,6 von 15,6 GB Shared RAM sowie 23,5 von 32 GB normalem RAM belegt
- Referenzierter YouTube-Kanal demonstriert denselben Ansatz auf einer 6-GB-GPU
- TurboQuants konnte vom Nutzer nicht eingesetzt werden – Ursache ungeklärt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
RTX 5070 Ti: Qwen3.6-35B-A3B mit 564 Prompt- und 41 Gen-Token/s
Reddit-Nutzer KptEmreU zeigt ein llama.cpp-Setup, das das Qwen3.6-35B-A3B-Modell in der Quantisierung Q4_K_M auf einer RTX 5070 Ti mit 16 GB VRAM betreibt. Tatsächlich genutzt werden 10,8 GB dediziertes VRAM, da Platz für Windows und Game-Engines reserviert bleibt. Weitere 13,6 GB shared RAM und 23,5 von 32 GB normalem Systemspeicher sind belegt. Kernstück des Setups ist der Parameter --n-cpu-moe 29, der 29 MoE-Experten-Schichten auf die CPU auslagert und so das Modell trotz begrenztem VRAM lauffähig macht. Der Kontext ist mit 262.144 Tokens maximal ausgereizt; KV-Cache wird in q4_0 komprimiert. Die gemessenen Token-Raten: 564 t/s beim Prompt-Processing, 41 t/s bei der Generierung. Der Nutzer verweist auf einen YouTube-Kanal, der das Modell sogar auf einer 6-GB-GPU zum Laufen gebracht hat. TurboQuants konnte nicht genutzt werden – der Grund ist unklar, Hilfe wird erbeten.
- llama.cpp-Parameter: --ctx-size 262144, --cache-type-k q4_0, --cache-type-v q4_0, --n-cpu-moe 29
- 10,8 von 16 GB dediziertes VRAM genutzt; Rest reserviert für Windows & Game-Engines
- 13,6 von 15,6 GB Shared RAM sowie 23,5 von 32 GB normalem RAM belegt
- Referenzierter YouTube-Kanal demonstriert denselben Ansatz auf einer 6-GB-GPU
- TurboQuants konnte vom Nutzer nicht eingesetzt werden – Ursache ungeklärt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.