CUDA-Fehler bei Tensor-Split-Modus in llama.cpp mit Qwen3-27B auf Dual-3090
Nutzer Blues520 schildert auf r/LocalLLaMA ein Reproduzierbares Problem beim Betrieb von Qwen3-27B (Unsloth UD-Q8_K_XL-Quantisierung) über llama.cpp im Docker-Container auf zwei RTX 3090 unter Ubuntu Server 24.04. Der Einsatz von `--split-mode tensor` sowie `--tensor-split 1,1` führt zu zwei Fehlern: Erstens warnt llama.cpp, dass `llama_params_fit` für `SPLIT_MODE_TENSOR` nicht implementiert ist. Zweitens bricht der Prozess mit einem CUDA-Fehler in `ggml_backend_cuda_comm_allreduce_nccl` ab – offenbar beim NCCL-basierten All-Reduce zwischen den beiden GPUs. Verwendet wird NVIDIA-Treiber 580.159.03 mit CUDA 13.0. Die Konfiguration umfasst 32.768 Token Kontext, Flash-Attention, MTP-Spekulation mit bis zu 2 Draft-Tokens sowie Jinja-Templates. Obwohl laut Nutzer Tensor-Split-Fixes in llama.cpp gemergt wurden, scheint die Implementierung noch lückenhaft. Unklar ist, ob ein Treiber-Update oder ein spezifischer llama.cpp-Build das Problem löst.
- Fehler tritt bei `--split-mode tensor` auf; Row-Split und Layer-Split sind nicht betroffen
- NCCL-Fehler in `ggml_backend_cuda_comm_allreduce_nccl` bei `ncclGroupEnd()` auf Device 0
- Warnung: n_ctx_seq (32.768) kleiner als n_ctx_train (262.144) — Modellkapazität wird nicht voll genutzt
- Setup: Dual RTX 3090, Ubuntu Server 24.04, NVIDIA-Treiber 580.159.03, CUDA 13.0, Docker
- Quantisierung: Unsloth UD-Q8_K_XL von Qwen3-27B mit MTP-Draft-Spekulation (--spec-draft-n-max 2)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- BENCHMARKreddit.com3h
Dual-GPU-Vergleich: llama.cpp row/tensor split vs. ik_llama graph split für Qwen3.6-27B
- LAUNCHreddit.com3w
Llama.cpp-Fork behebt Tensor-Parallelismus mit quantisierten KV-Caches für Dual-GPU
- GERÜCHTreddit.com2w
Llama.cpp: Fix für Split-Mode-Tensor-Abstürze im Multi-GPU-Betrieb in Sicht
CUDA-Fehler bei Tensor-Split-Modus in llama.cpp mit Qwen3-27B auf Dual-3090
Nutzer Blues520 schildert auf r/LocalLLaMA ein Reproduzierbares Problem beim Betrieb von Qwen3-27B (Unsloth UD-Q8_K_XL-Quantisierung) über llama.cpp im Docker-Container auf zwei RTX 3090 unter Ubuntu Server 24.04. Der Einsatz von `--split-mode tensor` sowie `--tensor-split 1,1` führt zu zwei Fehlern: Erstens warnt llama.cpp, dass `llama_params_fit` für `SPLIT_MODE_TENSOR` nicht implementiert ist. Zweitens bricht der Prozess mit einem CUDA-Fehler in `ggml_backend_cuda_comm_allreduce_nccl` ab – offenbar beim NCCL-basierten All-Reduce zwischen den beiden GPUs. Verwendet wird NVIDIA-Treiber 580.159.03 mit CUDA 13.0. Die Konfiguration umfasst 32.768 Token Kontext, Flash-Attention, MTP-Spekulation mit bis zu 2 Draft-Tokens sowie Jinja-Templates. Obwohl laut Nutzer Tensor-Split-Fixes in llama.cpp gemergt wurden, scheint die Implementierung noch lückenhaft. Unklar ist, ob ein Treiber-Update oder ein spezifischer llama.cpp-Build das Problem löst.
- Fehler tritt bei `--split-mode tensor` auf; Row-Split und Layer-Split sind nicht betroffen
- NCCL-Fehler in `ggml_backend_cuda_comm_allreduce_nccl` bei `ncclGroupEnd()` auf Device 0
- Warnung: n_ctx_seq (32.768) kleiner als n_ctx_train (262.144) — Modellkapazität wird nicht voll genutzt
- Setup: Dual RTX 3090, Ubuntu Server 24.04, NVIDIA-Treiber 580.159.03, CUDA 13.0, Docker
- Quantisierung: Unsloth UD-Q8_K_XL von Qwen3-27B mit MTP-Draft-Spekulation (--spec-draft-n-max 2)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- BENCHMARKreddit.com3h
Dual-GPU-Vergleich: llama.cpp row/tensor split vs. ik_llama graph split für Qwen3.6-27B
- LAUNCHreddit.com3w
Llama.cpp-Fork behebt Tensor-Parallelismus mit quantisierten KV-Caches für Dual-GPU
- GERÜCHTreddit.com2w
Llama.cpp: Fix für Split-Mode-Tensor-Abstürze im Multi-GPU-Betrieb in Sicht