wird geladen

Qwen3.6-27B Q8_0 auf zwei Tesla V100-SXM2: llama-bench-Ergebnisse bei langen Kontexten · Lumeric

Beitrag

BENCHMARK

reddit.com· r/LocalLLaMA2w

Qwen3.6-27B Q8_0 auf zwei Tesla V100-SXM2: llama-bench-Ergebnisse bei langen Kontexten

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

Das Setup zeigt, dass zwei V100-SXM2 (64 GB VRAM, ~1200 $) Qwen3.6-27B Q8_0 auch bei 128K–200K Kontext noch nutzerbar halten – Token-Generierung fällt aber auf 18–23 t/s ab, was für interaktive Codegen-Nutzung knapp werden kann.

— Lumeric Redaktion

Der Reddit-Nutzer starkruzr testet, ob zwei gebrauchte Tesla V100-SXM2-32GB-GPUs (zusammen 64 GB VRAM, Marktpreis ~1.200 $) eine sinnvolle Plattform für lokale Inferenz mit Qwen3.6-27B in INT8 (Q8_0, 26,62 GiB) darstellen – insbesondere für Codegenerierung mit langen Kontexten. Betrieben wird llama.cpp (Build 2496f9c14, #9049) mit Tensor-Split über beide Karten, Flash-Attention aktiviert und 64 CPU-Threads. Die Benchmark-Ergebnisse zeigen beim Prompt-Processing (pp2048) einen deutlichen Abfall mit wachsendem KV-Cache: von 797 t/s bei 4K Kontext auf 473 t/s bei 64K, 352 t/s bei 128K und 267 t/s bei 200K. Token-Generierung (tg128) sinkt von 31 t/s auf 18 t/s. Als Vergleichspunkt nennt der Autor eine RTX 3090 (24 GB VRAM) für ~1.100 $, die den langen Kontext nicht fassen kann. Offen bleibt, warum der pp-Durchsatz bereits ab 64K überproportional einbricht – mögliche Ursachen wie unquantisierter KV-Cache, PCIe-Bandbreite oder fehlende Optimierungen werden diskutiert. Die V100s nutzen Compute Capability 7.0 und unterstützen VMM.

Quelle lesenreddit.com

llama-bench pp2048 (t/s nach Kontextlänge) · Spitzenwert

797.25%

d4096

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

BENCHMARK

reddit.com· r/LocalLLaMA2w

Qwen3.6-27B Q8_0 auf zwei Tesla V100-SXM2: llama-bench-Ergebnisse bei langen Kontexten

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

Das Setup zeigt, dass zwei V100-SXM2 (64 GB VRAM, ~1200 $) Qwen3.6-27B Q8_0 auch bei 128K–200K Kontext noch nutzerbar halten – Token-Generierung fällt aber auf 18–23 t/s ab, was für interaktive Codegen-Nutzung knapp werden kann.

— Lumeric Redaktion

Der Reddit-Nutzer starkruzr testet, ob zwei gebrauchte Tesla V100-SXM2-32GB-GPUs (zusammen 64 GB VRAM, Marktpreis ~1.200 $) eine sinnvolle Plattform für lokale Inferenz mit Qwen3.6-27B in INT8 (Q8_0, 26,62 GiB) darstellen – insbesondere für Codegenerierung mit langen Kontexten. Betrieben wird llama.cpp (Build 2496f9c14, #9049) mit Tensor-Split über beide Karten, Flash-Attention aktiviert und 64 CPU-Threads. Die Benchmark-Ergebnisse zeigen beim Prompt-Processing (pp2048) einen deutlichen Abfall mit wachsendem KV-Cache: von 797 t/s bei 4K Kontext auf 473 t/s bei 64K, 352 t/s bei 128K und 267 t/s bei 200K. Token-Generierung (tg128) sinkt von 31 t/s auf 18 t/s. Als Vergleichspunkt nennt der Autor eine RTX 3090 (24 GB VRAM) für ~1.100 $, die den langen Kontext nicht fassen kann. Offen bleibt, warum der pp-Durchsatz bereits ab 64K überproportional einbricht – mögliche Ursachen wie unquantisierter KV-Cache, PCIe-Bandbreite oder fehlende Optimierungen werden diskutiert. Die V100s nutzen Compute Capability 7.0 und unterstützen VMM.

llama-bench pp2048 (t/s nach Kontextlänge) · Spitzenwert

797.25%

d4096

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.