Qwen3.6-27B IQ4_KS-Quant für ik_llama.cpp: 14,1 GB, 105k Kontext auf 16-GB-VRAM
Der Reddit-Nutzer Pablo_the_brave stellt eine neue GGUF-Quantisierung des Qwen3.6-27B-Modells vor, die speziell für NVIDIA-GPUs mit 16 GB VRAM ausgelegt ist. Herzstück sind die KS- und KSS-Quant-Formate, die vom Entwickler ikawrakow für seinen Fork ik_llama.cpp entwickelt wurden und im offiziellen upstream llama.cpp bislang nicht enthalten sind. Das resultierende Modell (cHunter789/Qwen3.6-27B-i1-IQ4_KS-GGUF) belegt 14,1 GB – gegenüber 14,7 GB des vorherigen IQ4_XS-Pendants – und erlaubt mit einem Q4_0 Hadamard KV-Cache ein Kontextfenster von 105.000 Tokens. In Perplexitätstests auf dem Gutenberg-Text pg19 wurde ein PPL-Wert von 7,4040 ± 0,02773 bei n_ctx=65.536 über 12 Chunks ermittelt. Der Autor berichtet eine 1,5- bis 1,75-fache Geschwindigkeitssteigerung gegenüber dem Vorgänger sowie die vollständige Beseitigung von „Blank Output"-Fehlern. Needle-in-a-Haystack-Tests über das volle 100k-Fenster wurden als zufriedenstellend bewertet. Ein wichtiges Limit: ik_llama.cpp unterstützt ausschließlich NVIDIA CUDA und CPU – AMD- und Apple-Silicon-Nutzer (Metal) sind derzeit ausgeschlossen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3.6-27B IQ4_KS-Quant für ik_llama.cpp: 14,1 GB, 105k Kontext auf 16-GB-VRAM
Der Reddit-Nutzer Pablo_the_brave stellt eine neue GGUF-Quantisierung des Qwen3.6-27B-Modells vor, die speziell für NVIDIA-GPUs mit 16 GB VRAM ausgelegt ist. Herzstück sind die KS- und KSS-Quant-Formate, die vom Entwickler ikawrakow für seinen Fork ik_llama.cpp entwickelt wurden und im offiziellen upstream llama.cpp bislang nicht enthalten sind. Das resultierende Modell (cHunter789/Qwen3.6-27B-i1-IQ4_KS-GGUF) belegt 14,1 GB – gegenüber 14,7 GB des vorherigen IQ4_XS-Pendants – und erlaubt mit einem Q4_0 Hadamard KV-Cache ein Kontextfenster von 105.000 Tokens. In Perplexitätstests auf dem Gutenberg-Text pg19 wurde ein PPL-Wert von 7,4040 ± 0,02773 bei n_ctx=65.536 über 12 Chunks ermittelt. Der Autor berichtet eine 1,5- bis 1,75-fache Geschwindigkeitssteigerung gegenüber dem Vorgänger sowie die vollständige Beseitigung von „Blank Output"-Fehlern. Needle-in-a-Haystack-Tests über das volle 100k-Fenster wurden als zufriedenstellend bewertet. Ein wichtiges Limit: ik_llama.cpp unterstützt ausschließlich NVIDIA CUDA und CPU – AMD- und Apple-Silicon-Nutzer (Metal) sind derzeit ausgeschlossen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.