CUDA-Fehler bei Tensor-Split-Modus in llama.cpp mit Qwen3-27B auf Dual-3090

CompaniesNVIDIA

Warum es zählt

Der Fehler „llama_params_fit is not implemented for SPLIT_MODE_TENSOR" zeigt, dass llama.cpp Tensor-Split-Modus noch nicht vollständig unterstützt — wer Modelle auf mehrere GPUs verteilen will, muss auf Row-Split ausweichen oder auf einen Fix warten.

— Lumeric Redaktion

Nutzer Blues520 schildert auf r/LocalLLaMA ein Reproduzierbares Problem beim Betrieb von Qwen3-27B (Unsloth UD-Q8_K_XL-Quantisierung) über llama.cpp im Docker-Container auf zwei RTX 3090 unter Ubuntu Server 24.04. Der Einsatz von `--split-mode tensor` sowie `--tensor-split 1,1` führt zu zwei Fehlern: Erstens warnt llama.cpp, dass `llama_params_fit` für `SPLIT_MODE_TENSOR` nicht implementiert ist. Zweitens bricht der Prozess mit einem CUDA-Fehler in `ggml_backend_cuda_comm_allreduce_nccl` ab – offenbar beim NCCL-basierten All-Reduce zwischen den beiden GPUs. Verwendet wird NVIDIA-Treiber 580.159.03 mit CUDA 13.0. Die Konfiguration umfasst 32.768 Token Kontext, Flash-Attention, MTP-Spekulation mit bis zu 2 Draft-Tokens sowie Jinja-Templates. Obwohl laut Nutzer Tensor-Split-Fixes in llama.cpp gemergt wurden, scheint die Implementierung noch lückenhaft. Unklar ist, ob ein Treiber-Update oder ein spezifischer llama.cpp-Build das Problem löst.

Was wir noch wissen

Fehler tritt bei `--split-mode tensor` auf; Row-Split und Layer-Split sind nicht betroffen
NCCL-Fehler in `ggml_backend_cuda_comm_allreduce_nccl` bei `ncclGroupEnd()` auf Device 0
Warnung: n_ctx_seq (32.768) kleiner als n_ctx_train (262.144) — Modellkapazität wird nicht voll genutzt
Setup: Dual RTX 3090, Ubuntu Server 24.04, NVIDIA-Treiber 580.159.03, CUDA 13.0, Docker
Quantisierung: Unsloth UD-Q8_K_XL von Qwen3-27B mit MTP-Draft-Spekulation (--spec-draft-n-max 2)

Quelle lesenreddit.com

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

CUDA-Fehler bei Tensor-Split-Modus in llama.cpp mit Qwen3-27B auf Dual-3090

ToolsQwen NVIDIA Hardware Llama

CompaniesNVIDIA

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Fehler tritt bei `--split-mode tensor` auf; Row-Split und Layer-Split sind nicht betroffen
NCCL-Fehler in `ggml_backend_cuda_comm_allreduce_nccl` bei `ncclGroupEnd()` auf Device 0
Warnung: n_ctx_seq (32.768) kleiner als n_ctx_train (262.144) — Modellkapazität wird nicht voll genutzt
Setup: Dual RTX 3090, Ubuntu Server 24.04, NVIDIA-Treiber 580.159.03, CUDA 13.0, Docker
Quantisierung: Unsloth UD-Q8_K_XL von Qwen3-27B mit MTP-Draft-Spekulation (--spec-draft-n-max 2)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

CUDA-Fehler bei Tensor-Split-Modus in llama.cpp mit Qwen3-27B auf Dual-3090

Frag die KI zum Artikel

Verwandte Beiträge

CUDA-Fehler bei Tensor-Split-Modus in llama.cpp mit Qwen3-27B auf Dual-3090

Frag die KI zum Artikel

Verwandte Beiträge