Qwen3.6-35B-A3B mit 262k Kontext auf 8-GB-GPU – über 30 Token/s
Der Reddit-Nutzer /u/Alternative-Cat-1347 dokumentiert eine praxisnahe Konfiguration für Qwen3.6-35B-A3B auf einer NVIDIA RTX 3070 Ti mit 8 GB VRAM und 32 GB DDR4-2666-RAM. Kernbeobachtung: Weil das Modell eine Mixture-of-Experts-Architektur nutzt, müssen zur Laufzeit nur etwa 3,5B Parameter aktiv im VRAM gehalten werden. Das erlaubt folgende VRAM-Aufteilung: ~3 GB aktive Modell-Layer, ~2 GB GPU-Buffer und 2,56 GB KV-Cache (q8_0) bei 262.144 Tokens Kontext. Unter Ubuntu Server (ohne Desktop-Compositor) erreicht die Konfiguration stabile 34–37 tps, während Windows 11 unter 27 tps bleibt und der RAM-Verbrauch dort bei über 28 GB liegt. Der Nutzer teilt vollständige llama-server-Kommandozeilen für 256k- und 512k-Kontext, letztere mit YaRN-Rope-Scaling. Für Kontexte jenseits von 512k empfiehlt er IQ4_NL_XL-Quants und turbo4 als KV-Cache-Typ; bis zu 1M Kontext sei technisch möglich, aber ab 150k nehme die Geschwindigkeit merklich ab. Das forcierte Laden aller Layer in den VRAM verschlechtert die Performance laut seinen Tests.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3.6-35B-A3B mit 262k Kontext auf 8-GB-GPU – über 30 Token/s
Der Reddit-Nutzer /u/Alternative-Cat-1347 dokumentiert eine praxisnahe Konfiguration für Qwen3.6-35B-A3B auf einer NVIDIA RTX 3070 Ti mit 8 GB VRAM und 32 GB DDR4-2666-RAM. Kernbeobachtung: Weil das Modell eine Mixture-of-Experts-Architektur nutzt, müssen zur Laufzeit nur etwa 3,5B Parameter aktiv im VRAM gehalten werden. Das erlaubt folgende VRAM-Aufteilung: ~3 GB aktive Modell-Layer, ~2 GB GPU-Buffer und 2,56 GB KV-Cache (q8_0) bei 262.144 Tokens Kontext. Unter Ubuntu Server (ohne Desktop-Compositor) erreicht die Konfiguration stabile 34–37 tps, während Windows 11 unter 27 tps bleibt und der RAM-Verbrauch dort bei über 28 GB liegt. Der Nutzer teilt vollständige llama-server-Kommandozeilen für 256k- und 512k-Kontext, letztere mit YaRN-Rope-Scaling. Für Kontexte jenseits von 512k empfiehlt er IQ4_NL_XL-Quants und turbo4 als KV-Cache-Typ; bis zu 1M Kontext sei technisch möglich, aber ab 150k nehme die Geschwindigkeit merklich ab. Das forcierte Laden aller Layer in den VRAM verschlechtert die Performance laut seinen Tests.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.