llama.cpp-Nutzer optimiert Qwen3-35B-MoE auf RTX 5070 Ti Laptop
Der Reddit-Nutzer KneelB4S8n betreibt llama-server auf einem Windows-11-Laptop mit Intel Core Ultra 9 275HX, 32 GB RAM und einer RTX 5070 Ti mit 12 GB VRAM. Als Modell kommt Qwen3.6-35B-A3B-Q6_K_P zum Einsatz – ein Mixture-of-Experts-Modell, das er bewusst in Q6 quantisiert hat, um Qualitätsverluste gegenüber Q4 zu vermeiden, ohne das langsamere Q8 zu nutzen. Die aktuelle Konfiguration umfasst einen Kontext von 60.000 Token, 20 CPU-Threads, KV-Cache-Quantisierung auf q8_0 sowie Flash Attention. Versuche, alle Layer auf die GPU oder alle Experten auf die CPU zu verlagern, haben die Performance laut eigenen Tests verschlechtert. Den großen Kontext benötigt er für Coding-Workflows mit dem Clanker-Tool und einem Pi-Agenten – ursprünglich waren 120k Token angepeilt. Die Frage an die Community lautet, ob 37 t/s für dieses Setup realistisch gut sind und welche weiteren Parameter-Kombinationen die Geschwindigkeit steigern könnten.
- Hardware: RTX 5070 Ti (12 GB VRAM), Intel Core Ultra 9 275HX, 32 GB RAM, Windows 11
- Modell: Qwen3.6-35B-A3B-Q6_K_P via llama-server (llama.cpp)
- Flags: -c 60000 -t 20 -ctk/-ctv q8_0 -fa on --no-mmap
- Kontext-Bedarf durch Coding-Workflow mit Clanker + Pi-Agent (Ziel ursprünglich 120k Token)
- Alle-Layer-auf-GPU und alle-Experten-auf-CPU-Varianten haben Performance laut Nutzer verschlechtert
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama.cpp-Nutzer optimiert Qwen3-35B-MoE auf RTX 5070 Ti Laptop
Der Reddit-Nutzer KneelB4S8n betreibt llama-server auf einem Windows-11-Laptop mit Intel Core Ultra 9 275HX, 32 GB RAM und einer RTX 5070 Ti mit 12 GB VRAM. Als Modell kommt Qwen3.6-35B-A3B-Q6_K_P zum Einsatz – ein Mixture-of-Experts-Modell, das er bewusst in Q6 quantisiert hat, um Qualitätsverluste gegenüber Q4 zu vermeiden, ohne das langsamere Q8 zu nutzen. Die aktuelle Konfiguration umfasst einen Kontext von 60.000 Token, 20 CPU-Threads, KV-Cache-Quantisierung auf q8_0 sowie Flash Attention. Versuche, alle Layer auf die GPU oder alle Experten auf die CPU zu verlagern, haben die Performance laut eigenen Tests verschlechtert. Den großen Kontext benötigt er für Coding-Workflows mit dem Clanker-Tool und einem Pi-Agenten – ursprünglich waren 120k Token angepeilt. Die Frage an die Community lautet, ob 37 t/s für dieses Setup realistisch gut sind und welche weiteren Parameter-Kombinationen die Geschwindigkeit steigern könnten.
- Hardware: RTX 5070 Ti (12 GB VRAM), Intel Core Ultra 9 275HX, 32 GB RAM, Windows 11
- Modell: Qwen3.6-35B-A3B-Q6_K_P via llama-server (llama.cpp)
- Flags: -c 60000 -t 20 -ctk/-ctv q8_0 -fa on --no-mmap
- Kontext-Bedarf durch Coding-Workflow mit Clanker + Pi-Agent (Ziel ursprünglich 120k Token)
- Alle-Layer-auf-GPU und alle-Experten-auf-CPU-Varianten haben Performance laut Nutzer verschlechtert
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.