llama.cpp-Nutzer optimiert Qwen3-35B-MoE auf RTX 5070 Ti Laptop

CompaniesAMD

Warum es zählt

Zeigt reale Inferenz-Performance eines aktuellen MoE-Modells auf Consumer-Laptop-Hardware; die diskutierten Flags (KV-Cache-Quantisierung, Flash Attention, Thread-Zahl) sind direkt auf ähnliche lokale Setups übertragbar.

— Lumeric Redaktion

Der Reddit-Nutzer KneelB4S8n betreibt llama-server auf einem Windows-11-Laptop mit Intel Core Ultra 9 275HX, 32 GB RAM und einer RTX 5070 Ti mit 12 GB VRAM. Als Modell kommt Qwen3.6-35B-A3B-Q6_K_P zum Einsatz – ein Mixture-of-Experts-Modell, das er bewusst in Q6 quantisiert hat, um Qualitätsverluste gegenüber Q4 zu vermeiden, ohne das langsamere Q8 zu nutzen. Die aktuelle Konfiguration umfasst einen Kontext von 60.000 Token, 20 CPU-Threads, KV-Cache-Quantisierung auf q8_0 sowie Flash Attention. Versuche, alle Layer auf die GPU oder alle Experten auf die CPU zu verlagern, haben die Performance laut eigenen Tests verschlechtert. Den großen Kontext benötigt er für Coding-Workflows mit dem Clanker-Tool und einem Pi-Agenten – ursprünglich waren 120k Token angepeilt. Die Frage an die Community lautet, ob 37 t/s für dieses Setup realistisch gut sind und welche weiteren Parameter-Kombinationen die Geschwindigkeit steigern könnten.

Was wir noch wissen

Hardware: RTX 5070 Ti (12 GB VRAM), Intel Core Ultra 9 275HX, 32 GB RAM, Windows 11
Modell: Qwen3.6-35B-A3B-Q6_K_P via llama-server (llama.cpp)
Flags: -c 60000 -t 20 -ctk/-ctv q8_0 -fa on --no-mmap
Kontext-Bedarf durch Coding-Workflow mit Clanker + Pi-Agent (Ziel ursprünglich 120k Token)
Alle-Layer-auf-GPU und alle-Experten-auf-CPU-Varianten haben Performance laut Nutzer verschlechtert

Quelle lesenreddit.com

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp-Nutzer optimiert Qwen3-35B-MoE auf RTX 5070 Ti Laptop

ToolsQwen Llama

CompaniesAMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Hardware: RTX 5070 Ti (12 GB VRAM), Intel Core Ultra 9 275HX, 32 GB RAM, Windows 11
Modell: Qwen3.6-35B-A3B-Q6_K_P via llama-server (llama.cpp)
Flags: -c 60000 -t 20 -ctk/-ctv q8_0 -fa on --no-mmap
Kontext-Bedarf durch Coding-Workflow mit Clanker + Pi-Agent (Ziel ursprünglich 120k Token)
Alle-Layer-auf-GPU und alle-Experten-auf-CPU-Varianten haben Performance laut Nutzer verschlechtert

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp-Nutzer optimiert Qwen3-35B-MoE auf RTX 5070 Ti Laptop

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp-Nutzer optimiert Qwen3-35B-MoE auf RTX 5070 Ti Laptop

Frag die KI zum Artikel

Verwandte Beiträge