Mistral Medium 3.5 128B vs. Qwen 3.5 122B: Benchmarks auf 4× RTX 3080

ToolsQwen NVIDIA Hardware Llama Mistral Hugging Face

Warum es zählt

Praktischer Referenzwert für lokale Inferenz auf Consumer-Hardware: Mistral erreicht ~10 t/s (tg128), Qwen MoE über 1000 t/s bei Prompt-Verarbeitung. Tensor Parallel in llama.cpp ermöglicht signifikante Geschwindigkeitsgewinne bei größeren Modellen auf Multi-GPU-Setups.

— Lumeric Redaktion

Der Reddit-Post aus r/LocalLLaMA dokumentiert detaillierte llama.cpp-Benchmarks zweier Großmodelle auf einem 4×RTX-3080-20-GB-System (insgesamt 80 GB VRAM). Mistral Medium 3.5 wird als vollparametrisches Dense-Modell (125B Parameter, IQ4_XS-Quantisierung, 62,51 GiB) getestet, Qwen 3.5 122B A10B als MoE-Modell (122B Gesamtparameter, davon ~10B aktiv, 56,08 GiB). Der zentrale Befund: Tensor Parallel (TP), eingeführt durch einen neueren llama.cpp-Pull-Request, verdoppelt bei Mistral Medium 3.5 die Textgenerations-Geschwindigkeit (tg128) von rund 10,4 t/s auf rund 21,6 t/s, während die Prompt-Verarbeitungsrate (pp512) leicht von 330 auf 234 t/s fällt. Beim Qwen-3.5-MoE zeigt Tensor Parallel hingegen keinen nennenswerten Gewinn bei der Generierung, was typisch für MoE-Architekturen ist, bei denen nur ein Bruchteil der Gewichte pro Token aktiv ist. Trotz des TP-Speedups hält der Autor Mistral Medium 3.5 qualitativ für enttäuschend und argumentiert, dass kleinere Modelle wie Gemma 4 31B oder Qwen 3.6 27B ein besseres Parameter-Effizienz-Verhältnis bieten. Die Benchmarks wurden mit Flash Attention (‑fa 1) und bis zu 16 384 Token Kontext durchgeführt; bei vollem Kontext (d16384) sinkt die tg-Rate bei Mistral-TP auf ~20,3 t/s.

Was wir noch wissen

Mistral Medium 3.5 (IQ4_XS, 4,25 bpw): Layer Split ergibt pp512 = 330,87 t/s und tg128 = 10,37 t/s; Tensor Parallel dagegen tg128 = 21,59 t/s (+108 %).
Qwen 3.5 122B A10B (IQ4_XS, 56,08 GiB): pp512 mit Layer Split = 1087,44 t/s — mehr als 3× schneller als Mistral bei der Prompt-Verarbeitung, dank sparsamem MoE-Aktivierungsmuster.
Tensor Parallel bringt bei Qwen-MoE keinen Generierungs-Speedup, da nur ~10B Parameter pro Token aktiv sind und die GPU-Kommunikation den Gewinn aufzehrt.
Alle Tests liefen auf llama.cpp Build d05fe1d (275) mit CUDA+BLAS-Backend, Compute Capability 8.6, und 64 CPU-Threads.
Der Autor empfiehlt stattdessen Gemma-4-31B oder Qwen3.6-27B als qualitativ bessere Alternativen für das jeweilige Größensegment.

Quelle lesenreddit.com

Textgenerierung (tg128) – Tensor Parallel vs. Layer Split · Spitzenwert

10.37%

Mistral-3.5-128B (Layer Split)

Inferenz Infra Open Source Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Mistral Medium 3.5 128B vs. Qwen 3.5 122B: Benchmarks auf 4× RTX 3080

ToolsQwen NVIDIA Hardware Llama Mistral Hugging Face

CompaniesHugging Face NVIDIA Mistral AI

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Mistral Medium 3.5 (IQ4_XS, 4,25 bpw): Layer Split ergibt pp512 = 330,87 t/s und tg128 = 10,37 t/s; Tensor Parallel dagegen tg128 = 21,59 t/s (+108 %).
Qwen 3.5 122B A10B (IQ4_XS, 56,08 GiB): pp512 mit Layer Split = 1087,44 t/s — mehr als 3× schneller als Mistral bei der Prompt-Verarbeitung, dank sparsamem MoE-Aktivierungsmuster.
Tensor Parallel bringt bei Qwen-MoE keinen Generierungs-Speedup, da nur ~10B Parameter pro Token aktiv sind und die GPU-Kommunikation den Gewinn aufzehrt.
Alle Tests liefen auf llama.cpp Build d05fe1d (275) mit CUDA+BLAS-Backend, Compute Capability 8.6, und 64 CPU-Threads.
Der Autor empfiehlt stattdessen Gemma-4-31B oder Qwen3.6-27B als qualitativ bessere Alternativen für das jeweilige Größensegment.

Textgenerierung (tg128) – Tensor Parallel vs. Layer Split · Spitzenwert

10.37%

Mistral-3.5-128B (Layer Split)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Mistral Medium 3.5 128B vs. Qwen 3.5 122B: Benchmarks auf 4× RTX 3080

Frag die KI zum Artikel

Verwandte Beiträge

Mistral Medium 3.5 128B vs. Qwen 3.5 122B: Benchmarks auf 4× RTX 3080

Frag die KI zum Artikel

Verwandte Beiträge