Qwen3.6-35B vs. Gemma4-26B auf Radeon 7900 XTX: Gemma gewinnt trotz langsamerem Decoder

Warum es zählt

Wer Reasoning-Modelle lokal betreibt, sollte Token-Anzahl stärker gewichten als reine Decoder-Geschwindigkeit: Qwen generierte 2× so viele Tokens wie Gemma, was den MTP-Speedup vollständig aufzehrte. Für latenzempfindliche Einzelanfragen empfiehlt sich Gemma, für sequenziellen Batch-Betrieb Qwen.

— Lumeric Redaktion

Nutzer IvGranite hat auf Reddit (r/LocalLLaMA) einen praxisnahen Vergleich zwischen Qwen3.6-35B-A3B und Gemma4-26B-A4B auf einer Sapphire NITRO+ Radeon 7900 XTX (24 GB) veröffentlicht. Beide Modelle liefen mit aktiviertem Reasoning und identischem 32K-Budget über sechs realistische Aufgaben: Meeting-Protokoll, Incident-Postmortem, Log-Triage zu JSON, Code-Review, Build-vs-Buy-Entscheidung und kreative Aufgabe. Qwen erzielte mit MTP (Multi-Token Prediction) einen Decoder-Durchsatz von 130 tok/s gegenüber 78 tok/s bei Gemma – ein Vorteil von 1,65×. Dennoch gewann Gemma die Gesamtzeit (95,6 s vs. 118,8 s), da Qwen insgesamt 14.811 Tokens generierte, Gemma hingegen nur 7.386. Qwen verwendete zudem 74 % seiner Tokens für interne Denkschritte, Gemma 57 %. Qualitativ lagen beide Modelle nah beieinander: Gemma erkannte bei der Code-Review einen fehlenden Parameter-TypeError, den Qwen übersah; beim strengen JSON-Format hielt sich Qwen präziser an die Vorgabe. Die Infrastruktur umfasste einen Ryzen 9600X, 96 GB DDR5-6800, ROCm 7.2.3 und llama.cpp Build 9425. Das Fazit des Autors: Für Batch-Workloads eignet sich Qwen, für latenzempfindliche Einzelanfragen Gemma.

Quelle lesenreddit.com

Real-Workload Wall Clock (6 Prompts, 7900 XTX) · Spitzenwert

95.6%

Gemma4-26B-A4B

Evals Benchmarks Inferenz Infra Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-35B vs. Gemma4-26B auf Radeon 7900 XTX: Gemma gewinnt trotz langsamerem Decoder

ToolsQwen Llama

CompaniesMeta AI

Warum es zählt

— Lumeric Redaktion

Real-Workload Wall Clock (6 Prompts, 7900 XTX) · Spitzenwert

95.6%

Gemma4-26B-A4B

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-35B vs. Gemma4-26B auf Radeon 7900 XTX: Gemma gewinnt trotz langsamerem Decoder

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6-35B vs. Gemma4-26B auf Radeon 7900 XTX: Gemma gewinnt trotz langsamerem Decoder

Frag die KI zum Artikel

Verwandte Beiträge