Qwen3.6-35B-A3B mit 262k Kontext auf 8-GB-GPU – über 30 Token/s

CompaniesNVIDIA

Warum es zählt

Da Qwen3.6-35B-A3B als MoE-Modell zur Laufzeit nur ~3,5B Parameter aktiv hält, reichen 8 GB VRAM für großen Kontext – der Wechsel von Windows 11 zu Ubuntu Server bringt laut Messung rund 25 % mehr Durchsatz und senkt den RAM-Verbrauch von 28 GB auf 22 GB.

— Lumeric Redaktion

Der Reddit-Nutzer /u/Alternative-Cat-1347 dokumentiert eine praxisnahe Konfiguration für Qwen3.6-35B-A3B auf einer NVIDIA RTX 3070 Ti mit 8 GB VRAM und 32 GB DDR4-2666-RAM. Kernbeobachtung: Weil das Modell eine Mixture-of-Experts-Architektur nutzt, müssen zur Laufzeit nur etwa 3,5B Parameter aktiv im VRAM gehalten werden. Das erlaubt folgende VRAM-Aufteilung: ~3 GB aktive Modell-Layer, ~2 GB GPU-Buffer und 2,56 GB KV-Cache (q8_0) bei 262.144 Tokens Kontext. Unter Ubuntu Server (ohne Desktop-Compositor) erreicht die Konfiguration stabile 34–37 tps, während Windows 11 unter 27 tps bleibt und der RAM-Verbrauch dort bei über 28 GB liegt. Der Nutzer teilt vollständige llama-server-Kommandozeilen für 256k- und 512k-Kontext, letztere mit YaRN-Rope-Scaling. Für Kontexte jenseits von 512k empfiehlt er IQ4_NL_XL-Quants und turbo4 als KV-Cache-Typ; bis zu 1M Kontext sei technisch möglich, aber ab 150k nehme die Geschwindigkeit merklich ab. Das forcierte Laden aller Layer in den VRAM verschlechtert die Performance laut seinen Tests.

Quelle lesenreddit.com

34–37 tps

Token/s auf RTX 3070 Ti unter Ubuntu

Foundation Modelle Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-35B-A3B mit 262k Kontext auf 8-GB-GPU – über 30 Token/s

ToolsQwen NVIDIA Hardware Llama

CompaniesNVIDIA

Warum es zählt

— Lumeric Redaktion

34–37 tps

Token/s auf RTX 3070 Ti unter Ubuntu

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-35B-A3B mit 262k Kontext auf 8-GB-GPU – über 30 Token/s

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6-35B-A3B mit 262k Kontext auf 8-GB-GPU – über 30 Token/s

Frag die KI zum Artikel

Verwandte Beiträge