Mistral Medium 3.5 128B vs. Qwen 3.5 122B: Benchmarks auf 4× RTX 3080
Warum es zählt
Praktischer Referenzwert für lokale Inferenz auf Consumer-Hardware: Mistral erreicht ~10 t/s (tg128), Qwen MoE über 1000 t/s bei Prompt-Verarbeitung. Tensor Parallel in llama.cpp ermöglicht signifikante Geschwindigkeitsgewinne bei größeren Modellen auf Multi-GPU-Setups.
— Lumeric Redaktion
Community-Benchmark zeigt Performance von Mistral Medium 3.5 (128B) und Qwen 3.5 (122B MoE) auf 4× RTX 3080 20GB mit llama.cpp. Tensor Parallel bringt bei Mistral ~2× Speedup in der Textgenerierung gegenüber Layer Split.
Was wir noch wissen
- Mistral Medium 3.5 128B mit IQ4_XS-Quantisierung: 62,51 GiB Modellgröße, 125,03B Parameter
- Tensor Parallel bringt ~2,1× Speedup bei Textgenerierung (von 10,37 auf 21,59 t/s)
- Qwen 3.5 122B MoE mit A10B-Router: 56,08 GiB Größe, erreicht 1087 t/s bei Prompt-Verarbeitung (pp512)
- Setup: llama.cpp mit CUDA Multi-GPU, 80 GiB VRAM gesamt, alle 4 RTX 3080 mit VMM-Support
- Autor bewertet Mistral-Modell als nicht ideal für seine Größe im Vergleich zu kleineren Modellen (Gemma-4-31B, Qwen3.6-27B)
Textgenerierung (tg128) – Tensor Parallel vs. Layer Split · Spitzenwert
10.37%
Mistral-3.5-128B (Layer Split)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Mistral Medium 3.5 128B vs. Qwen 3.5 122B: Benchmarks auf 4× RTX 3080
Warum es zählt
Praktischer Referenzwert für lokale Inferenz auf Consumer-Hardware: Mistral erreicht ~10 t/s (tg128), Qwen MoE über 1000 t/s bei Prompt-Verarbeitung. Tensor Parallel in llama.cpp ermöglicht signifikante Geschwindigkeitsgewinne bei größeren Modellen auf Multi-GPU-Setups.
— Lumeric Redaktion
Community-Benchmark zeigt Performance von Mistral Medium 3.5 (128B) und Qwen 3.5 (122B MoE) auf 4× RTX 3080 20GB mit llama.cpp. Tensor Parallel bringt bei Mistral ~2× Speedup in der Textgenerierung gegenüber Layer Split.
Was wir noch wissen
- Mistral Medium 3.5 128B mit IQ4_XS-Quantisierung: 62,51 GiB Modellgröße, 125,03B Parameter
- Tensor Parallel bringt ~2,1× Speedup bei Textgenerierung (von 10,37 auf 21,59 t/s)
- Qwen 3.5 122B MoE mit A10B-Router: 56,08 GiB Größe, erreicht 1087 t/s bei Prompt-Verarbeitung (pp512)
- Setup: llama.cpp mit CUDA Multi-GPU, 80 GiB VRAM gesamt, alle 4 RTX 3080 mit VMM-Support
- Autor bewertet Mistral-Modell als nicht ideal für seine Größe im Vergleich zu kleineren Modellen (Gemma-4-31B, Qwen3.6-27B)
Textgenerierung (tg128) – Tensor Parallel vs. Layer Split · Spitzenwert
10.37%
Mistral-3.5-128B (Layer Split)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.