llama.cpp-Fork bringt experimentellen DeepSeek V3.2-Support via PR

Warum es zählt

Wer DeepSeek V3.2 lokal über llama.cpp betreiben will, kann diesen experimentellen Fork testen, bevor der offizielle Merge erfolgt. Bei CUDA-OOM-Fehlern in ggml_top_k() hilft das Reduzieren der Ubatch-Größe oder Erhöhen des -fitt-Werts.

— Lumeric Redaktion

Der Reddit-Nutzer fairydreaming hat auf r/LocalLLaMA einen experimentellen llama.cpp-Fork vorgestellt, der DeepSeek V3.2 über einen noch nicht gemergten Pull-Request unterstützt. Der Fork ist auf GitHub unter dem Branch deepseek-dsa verfügbar und kann direkt per git clone eingebunden werden. Als Chat-Template wird die Jinja-Datei models/templates/deepseek-ai-DeepSeek-V3.2.jinja verwendet. Die unterstützten GGUF-Quantisierungen umfassen Q4_K_M (ca. 404 GB) und Q8_0 (ca. 714 GB), die über drei HuggingFace-Repositories des Nutzers sszymczyk bereitgestellt werden: DeepSeek-V3.2-light-GGUF, DeepSeek-V3.2-Speciale-light-GGUF sowie DeepSeek-V3.2-Exp-light-GGUF. Als bekannter Stolperstein werden OOM-Fehler bei der CUDA-Funktion ggml_top_k() genannt, die sich durch Reduzieren der Ubatch-Größe oder Erhöhen des -fitt-Parameters beheben lassen. Der Fork ist ausdrücklich als experimentell eingestuft und richtet sich an Early Adopter aus der LocalLLaMA-Community.

Was wir noch wissen

Branch: deepseek-dsa im Fork fairydreaming/llama.cpp auf GitHub
Quantisierungen: Q4_K_M (~404 GB) und Q8_0 (~714 GB) via HuggingFace-User sszymczyk
Drei GGUF-Repos: DeepSeek-V3.2-light, -Speciale-light und -Exp-light
Bekanntes CUDA-Problem: OOM in ggml_top_k() — Workaround: ubatch-Größe senken oder -fitt erhöhen
Chat-Template: models/templates/deepseek-ai-DeepSeek-V3.2.jinja

Quelle lesenreddit.com

Open Source Inferenz Infra Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp-Fork bringt experimentellen DeepSeek V3.2-Support via PR

ToolsDeepSeek Llama Hugging Face

CompaniesDeepSeek Hugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Branch: deepseek-dsa im Fork fairydreaming/llama.cpp auf GitHub
Quantisierungen: Q4_K_M (~404 GB) und Q8_0 (~714 GB) via HuggingFace-User sszymczyk
Drei GGUF-Repos: DeepSeek-V3.2-light, -Speciale-light und -Exp-light
Bekanntes CUDA-Problem: OOM in ggml_top_k() — Workaround: ubatch-Größe senken oder -fitt erhöhen
Chat-Template: models/templates/deepseek-ai-DeepSeek-V3.2.jinja

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp-Fork bringt experimentellen DeepSeek V3.2-Support via PR

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp-Fork bringt experimentellen DeepSeek V3.2-Support via PR

Frag die KI zum Artikel

Verwandte Beiträge