Qwen3.6-27B IQ4_KS-Quant für ik_llama.cpp: 14,1 GB, 105k Kontext auf 16-GB-VRAM

ToolsQwen NVIDIA Hardware DeepSeek Llama Vercel

CompaniesDeepSeek Perplexity NVIDIA Vercel AMD

Warum es zählt

Die KS/KSS-Quants von ikawrakow sind im Upstream llama.cpp noch nicht verfügbar; wer sie nutzen will, ist auf ik_llama.cpp beschränkt – AMD und Apple Silicon werden derzeit nicht unterstützt. Die 1,5–1,75× höhere Inferenzgeschwindigkeit gegenüber dem IQ4_XS-Vorgänger ist für lokale Produktiv-Workflows relevant.

— Lumeric Redaktion

Der Reddit-Nutzer Pablo_the_brave stellt eine neue GGUF-Quantisierung des Qwen3.6-27B-Modells vor, die speziell für NVIDIA-GPUs mit 16 GB VRAM ausgelegt ist. Herzstück sind die KS- und KSS-Quant-Formate, die vom Entwickler ikawrakow für seinen Fork ik_llama.cpp entwickelt wurden und im offiziellen upstream llama.cpp bislang nicht enthalten sind. Das resultierende Modell (cHunter789/Qwen3.6-27B-i1-IQ4_KS-GGUF) belegt 14,1 GB – gegenüber 14,7 GB des vorherigen IQ4_XS-Pendants – und erlaubt mit einem Q4_0 Hadamard KV-Cache ein Kontextfenster von 105.000 Tokens. In Perplexitätstests auf dem Gutenberg-Text pg19 wurde ein PPL-Wert von 7,4040 ± 0,02773 bei n_ctx=65.536 über 12 Chunks ermittelt. Der Autor berichtet eine 1,5- bis 1,75-fache Geschwindigkeitssteigerung gegenüber dem Vorgänger sowie die vollständige Beseitigung von „Blank Output"-Fehlern. Needle-in-a-Haystack-Tests über das volle 100k-Fenster wurden als zufriedenstellend bewertet. Ein wichtiges Limit: ik_llama.cpp unterstützt ausschließlich NVIDIA CUDA und CPU – AMD- und Apple-Silicon-Nutzer (Metal) sind derzeit ausgeschlossen.

Quelle lesenreddit.com

7.40 PPL

Perplexität über 12 Chunks, n_ctx=65536

Open Source Inferenz Infra Foundation Modelle