Qwen3.6 35b-a3b schlägt Gemma4 26b-a4b in Praxistest via llama.cpp

Warum es zählt

Die Inference-Engine macht einen erheblichen Unterschied: Ollama bremste Qwen3.6 aus, während llama.cpp seine Stärken – besonders bei langen Kontexten – voll ausspielt. Wer MoE-Modelle lokal betreibt, sollte den Backend-Wechsel in Betracht ziehen.

— Lumeric Redaktion

Ein Reddit-Nutzer aus r/LocalLLaMA schildert einen direkten Praxisvergleich zwischen Qwen3.6 35b-a3b und Gemma4 26b-a4b. Zunächst via Ollama getestet, hinterließ Qwen3.6 keinen überzeugenden Eindruck – Gemma4 blieb bevorzugt. Nach dem Wechsel auf llama.cpp kehrte sich das Bild: Qwen3.6 ist demnach deutlich schneller als Gemma4 26b-a4b, in allgemeiner Intelligenz etwa gleichwertig, bei strikter Prompt-Adherence überlegen und zeigt keinen merklichen Geschwindigkeitsabfall bei langen Kontexten. Der Bericht ist eine Einzelperspektive ohne systematische Benchmarks, liefert aber einen konkreten Hinweis darauf, dass die Wahl des Inference-Backends bei MoE-Modellen (Active Parameter: 3b von 35b) die wahrgenommene Qualität erheblich beeinflussen kann.

Was wir noch wissen

Qwen3.6 35b-a3b ist ein Mixture-of-Experts-Modell mit 3b aktiven von 35b Gesamtparametern
Via Ollama empfand der Tester das Modell als langsamer und weniger beeindruckend als Gemma4
Mit llama.cpp war Qwen3.6 laut Bericht schneller als Gemma4 26b-a4b
Besonders hervorgehoben: keine Verlangsamung bei langem Kontext – ein typisches MoE-Problem entfällt hier
Kein systematischer Benchmark — reiner Erfahrungsbericht eines Einzelnutzers

Quelle lesenreddit.com

Foundation Modelle Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6 35b-a3b schlägt Gemma4 26b-a4b in Praxistest via llama.cpp

ToolsOllama Qwen Llama

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Qwen3.6 35b-a3b ist ein Mixture-of-Experts-Modell mit 3b aktiven von 35b Gesamtparametern
Via Ollama empfand der Tester das Modell als langsamer und weniger beeindruckend als Gemma4
Mit llama.cpp war Qwen3.6 laut Bericht schneller als Gemma4 26b-a4b
Besonders hervorgehoben: keine Verlangsamung bei langem Kontext – ein typisches MoE-Problem entfällt hier
Kein systematischer Benchmark — reiner Erfahrungsbericht eines Einzelnutzers

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6 35b-a3b schlägt Gemma4 26b-a4b in Praxistest via llama.cpp

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6 35b-a3b schlägt Gemma4 26b-a4b in Praxistest via llama.cpp

Frag die KI zum Artikel

Verwandte Beiträge