Qwen3.6-27B Q8_0 auf zwei Tesla V100-SXM2: llama-bench-Ergebnisse bei langen Kontexten
Der Reddit-Nutzer starkruzr testet, ob zwei gebrauchte Tesla V100-SXM2-32GB-GPUs (zusammen 64 GB VRAM, Marktpreis ~1.200 $) eine sinnvolle Plattform für lokale Inferenz mit Qwen3.6-27B in INT8 (Q8_0, 26,62 GiB) darstellen – insbesondere für Codegenerierung mit langen Kontexten. Betrieben wird llama.cpp (Build 2496f9c14, #9049) mit Tensor-Split über beide Karten, Flash-Attention aktiviert und 64 CPU-Threads. Die Benchmark-Ergebnisse zeigen beim Prompt-Processing (pp2048) einen deutlichen Abfall mit wachsendem KV-Cache: von 797 t/s bei 4K Kontext auf 473 t/s bei 64K, 352 t/s bei 128K und 267 t/s bei 200K. Token-Generierung (tg128) sinkt von 31 t/s auf 18 t/s. Als Vergleichspunkt nennt der Autor eine RTX 3090 (24 GB VRAM) für ~1.100 $, die den langen Kontext nicht fassen kann. Offen bleibt, warum der pp-Durchsatz bereits ab 64K überproportional einbricht – mögliche Ursachen wie unquantisierter KV-Cache, PCIe-Bandbreite oder fehlende Optimierungen werden diskutiert. Die V100s nutzen Compute Capability 7.0 und unterstützen VMM.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Qwen3.6-27B Q8_0 auf zwei Tesla V100-SXM2: llama-bench-Ergebnisse bei langen Kontexten
Der Reddit-Nutzer starkruzr testet, ob zwei gebrauchte Tesla V100-SXM2-32GB-GPUs (zusammen 64 GB VRAM, Marktpreis ~1.200 $) eine sinnvolle Plattform für lokale Inferenz mit Qwen3.6-27B in INT8 (Q8_0, 26,62 GiB) darstellen – insbesondere für Codegenerierung mit langen Kontexten. Betrieben wird llama.cpp (Build 2496f9c14, #9049) mit Tensor-Split über beide Karten, Flash-Attention aktiviert und 64 CPU-Threads. Die Benchmark-Ergebnisse zeigen beim Prompt-Processing (pp2048) einen deutlichen Abfall mit wachsendem KV-Cache: von 797 t/s bei 4K Kontext auf 473 t/s bei 64K, 352 t/s bei 128K und 267 t/s bei 200K. Token-Generierung (tg128) sinkt von 31 t/s auf 18 t/s. Als Vergleichspunkt nennt der Autor eine RTX 3090 (24 GB VRAM) für ~1.100 $, die den langen Kontext nicht fassen kann. Offen bleibt, warum der pp-Durchsatz bereits ab 64K überproportional einbricht – mögliche Ursachen wie unquantisierter KV-Cache, PCIe-Bandbreite oder fehlende Optimierungen werden diskutiert. Die V100s nutzen Compute Capability 7.0 und unterstützen VMM.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.