Qwen3.6-35B vs. Gemma4-26B auf Radeon 7900 XTX: Gemma gewinnt trotz langsamerem Decoder
Nutzer IvGranite hat auf Reddit (r/LocalLLaMA) einen praxisnahen Vergleich zwischen Qwen3.6-35B-A3B und Gemma4-26B-A4B auf einer Sapphire NITRO+ Radeon 7900 XTX (24 GB) veröffentlicht. Beide Modelle liefen mit aktiviertem Reasoning und identischem 32K-Budget über sechs realistische Aufgaben: Meeting-Protokoll, Incident-Postmortem, Log-Triage zu JSON, Code-Review, Build-vs-Buy-Entscheidung und kreative Aufgabe. Qwen erzielte mit MTP (Multi-Token Prediction) einen Decoder-Durchsatz von 130 tok/s gegenüber 78 tok/s bei Gemma – ein Vorteil von 1,65×. Dennoch gewann Gemma die Gesamtzeit (95,6 s vs. 118,8 s), da Qwen insgesamt 14.811 Tokens generierte, Gemma hingegen nur 7.386. Qwen verwendete zudem 74 % seiner Tokens für interne Denkschritte, Gemma 57 %. Qualitativ lagen beide Modelle nah beieinander: Gemma erkannte bei der Code-Review einen fehlenden Parameter-TypeError, den Qwen übersah; beim strengen JSON-Format hielt sich Qwen präziser an die Vorgabe. Die Infrastruktur umfasste einen Ryzen 9600X, 96 GB DDR5-6800, ROCm 7.2.3 und llama.cpp Build 9425. Das Fazit des Autors: Für Batch-Workloads eignet sich Qwen, für latenzempfindliche Einzelanfragen Gemma.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3.6-35B vs. Gemma4-26B auf Radeon 7900 XTX: Gemma gewinnt trotz langsamerem Decoder
Nutzer IvGranite hat auf Reddit (r/LocalLLaMA) einen praxisnahen Vergleich zwischen Qwen3.6-35B-A3B und Gemma4-26B-A4B auf einer Sapphire NITRO+ Radeon 7900 XTX (24 GB) veröffentlicht. Beide Modelle liefen mit aktiviertem Reasoning und identischem 32K-Budget über sechs realistische Aufgaben: Meeting-Protokoll, Incident-Postmortem, Log-Triage zu JSON, Code-Review, Build-vs-Buy-Entscheidung und kreative Aufgabe. Qwen erzielte mit MTP (Multi-Token Prediction) einen Decoder-Durchsatz von 130 tok/s gegenüber 78 tok/s bei Gemma – ein Vorteil von 1,65×. Dennoch gewann Gemma die Gesamtzeit (95,6 s vs. 118,8 s), da Qwen insgesamt 14.811 Tokens generierte, Gemma hingegen nur 7.386. Qwen verwendete zudem 74 % seiner Tokens für interne Denkschritte, Gemma 57 %. Qualitativ lagen beide Modelle nah beieinander: Gemma erkannte bei der Code-Review einen fehlenden Parameter-TypeError, den Qwen übersah; beim strengen JSON-Format hielt sich Qwen präziser an die Vorgabe. Die Infrastruktur umfasste einen Ryzen 9600X, 96 GB DDR5-6800, ROCm 7.2.3 und llama.cpp Build 9425. Das Fazit des Autors: Für Batch-Workloads eignet sich Qwen, für latenzempfindliche Einzelanfragen Gemma.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.