llama.cpp-Fork bringt experimentellen DeepSeek V3.2-Support via PR
Der Reddit-Nutzer fairydreaming hat auf r/LocalLLaMA einen experimentellen llama.cpp-Fork vorgestellt, der DeepSeek V3.2 über einen noch nicht gemergten Pull-Request unterstützt. Der Fork ist auf GitHub unter dem Branch deepseek-dsa verfügbar und kann direkt per git clone eingebunden werden. Als Chat-Template wird die Jinja-Datei models/templates/deepseek-ai-DeepSeek-V3.2.jinja verwendet. Die unterstützten GGUF-Quantisierungen umfassen Q4_K_M (ca. 404 GB) und Q8_0 (ca. 714 GB), die über drei HuggingFace-Repositories des Nutzers sszymczyk bereitgestellt werden: DeepSeek-V3.2-light-GGUF, DeepSeek-V3.2-Speciale-light-GGUF sowie DeepSeek-V3.2-Exp-light-GGUF. Als bekannter Stolperstein werden OOM-Fehler bei der CUDA-Funktion ggml_top_k() genannt, die sich durch Reduzieren der Ubatch-Größe oder Erhöhen des -fitt-Parameters beheben lassen. Der Fork ist ausdrücklich als experimentell eingestuft und richtet sich an Early Adopter aus der LocalLLaMA-Community.
- Branch: deepseek-dsa im Fork fairydreaming/llama.cpp auf GitHub
- Quantisierungen: Q4_K_M (~404 GB) und Q8_0 (~714 GB) via HuggingFace-User sszymczyk
- Drei GGUF-Repos: DeepSeek-V3.2-light, -Speciale-light und -Exp-light
- Bekanntes CUDA-Problem: OOM in ggml_top_k() — Workaround: ubatch-Größe senken oder -fitt erhöhen
- Chat-Template: models/templates/deepseek-ai-DeepSeek-V3.2.jinja
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com23h
Community sucht funktionierende DeepSeek-V4-Flash-Quant für llama.cpp und vLLM
- LAUNCHreddit.com1w
Llama.cpp-Fork behebt Tensor-Parallelismus mit quantisierten KV-Caches für Dual-GPU
- LAUNCHreddit.com2w
Gemma-4 26B A4B als NVFP4-GGUF mit Docker-Image verfügbar
- LAUNCHreddit.com3w
Qwen3.6-27B mit MTP-Grafting erreicht 2,5x Token-Durchsatz in llama.cpp
llama.cpp-Fork bringt experimentellen DeepSeek V3.2-Support via PR
Der Reddit-Nutzer fairydreaming hat auf r/LocalLLaMA einen experimentellen llama.cpp-Fork vorgestellt, der DeepSeek V3.2 über einen noch nicht gemergten Pull-Request unterstützt. Der Fork ist auf GitHub unter dem Branch deepseek-dsa verfügbar und kann direkt per git clone eingebunden werden. Als Chat-Template wird die Jinja-Datei models/templates/deepseek-ai-DeepSeek-V3.2.jinja verwendet. Die unterstützten GGUF-Quantisierungen umfassen Q4_K_M (ca. 404 GB) und Q8_0 (ca. 714 GB), die über drei HuggingFace-Repositories des Nutzers sszymczyk bereitgestellt werden: DeepSeek-V3.2-light-GGUF, DeepSeek-V3.2-Speciale-light-GGUF sowie DeepSeek-V3.2-Exp-light-GGUF. Als bekannter Stolperstein werden OOM-Fehler bei der CUDA-Funktion ggml_top_k() genannt, die sich durch Reduzieren der Ubatch-Größe oder Erhöhen des -fitt-Parameters beheben lassen. Der Fork ist ausdrücklich als experimentell eingestuft und richtet sich an Early Adopter aus der LocalLLaMA-Community.
- Branch: deepseek-dsa im Fork fairydreaming/llama.cpp auf GitHub
- Quantisierungen: Q4_K_M (~404 GB) und Q8_0 (~714 GB) via HuggingFace-User sszymczyk
- Drei GGUF-Repos: DeepSeek-V3.2-light, -Speciale-light und -Exp-light
- Bekanntes CUDA-Problem: OOM in ggml_top_k() — Workaround: ubatch-Größe senken oder -fitt erhöhen
- Chat-Template: models/templates/deepseek-ai-DeepSeek-V3.2.jinja
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com23h
Community sucht funktionierende DeepSeek-V4-Flash-Quant für llama.cpp und vLLM
- LAUNCHreddit.com1w
Llama.cpp-Fork behebt Tensor-Parallelismus mit quantisierten KV-Caches für Dual-GPU
- LAUNCHreddit.com2w
Gemma-4 26B A4B als NVFP4-GGUF mit Docker-Image verfügbar
- LAUNCHreddit.com3w
Qwen3.6-27B mit MTP-Grafting erreicht 2,5x Token-Durchsatz in llama.cpp