Qwen 3.6 27B lokal überzeugt bei Recherche-Aufgaben gegenüber Gemini

Warum es zählt

Qwen 3.6 27B läuft seit MTP-Support in llama.cpp (vor etwa zwei Wochen) mit akzeptabler Geschwindigkeit in Open WebUI und ist damit für Daily-Driver-Nutzung auf Consumer-Hardware realistisch geworden. Die geschilderten Gemini-Qualitätsprobleme bei langen Konversationen sind ein konkretes Signal für Praktiker, lokale Modelle ernsthaft zu evaluieren.

— Lumeric Redaktion

Der Reddit-Nutzer /u/Character_Split4906 schildert praktische Erfahrungen mit Qwen 3.6 27B, das er lokal in einer 8-Bit Unsloth-Quantisierung auf einem Apple M5 Max mit 128 GB RAM betreibt. Das Modell wird parallel zu einem 35B-Modell in OpenCode für Planungs- und Coding-Aufgaben sowie als Chat-Assistent in Open WebUI eingesetzt. Entscheidender Wendepunkt war die Einführung von MTP-Support (Multi-Token Prediction) in llama.cpp vor etwa zwei Wochen, die die Token-pro-Sekunde-Rate deutlich verbesserte und das Modell erst alltagstauglich machte. Im direkten Vergleich mit Gemini Pro versagte Letzteres bei komplexeren Recherchen zu Karrierethemen, Unternehmensportfolios und Immigrationsfragen: Es halluzinierte und verknüpfte Informationen aus früheren Konversationen fehlerhaft. Qwen 3.6 27B lieferte dagegen laut Nutzer substanziell bessere Ergebnisse, insbesondere beim Verarbeiten offizieller Dokumente. Als Alternative wurde Gemma 4 31B kurz getestet, jedoch wegen zu geringer Inferenzgeschwindigkeit auf der gleichen Hardware verworfen – auch hier wird auf künftigen MTP-Support gehofft.

Was wir noch wissen

Betrieb als 8-Bit Unsloth-Quant lokal auf Apple M5 Max mit 128 GB RAM
MTP-Support in llama.cpp (seit ca. zwei Wochen) als Voraussetzung für nutzbare TPS in Open WebUI
Einsatz in OpenCode zusammen mit einem 35B-Modell für Planung und Coding
Gemini Pro zeigte Kontextfehler und Halluzinationen bei längeren, themenübergreifenden Chats
Gemma 4 31B als Alternative getestet, aber wegen Geschwindigkeit auf gleicher Hardware vorerst verworfen

Quelle lesenreddit.com

Foundation Modelle Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen 3.6 27B lokal überzeugt bei Recherche-Aufgaben gegenüber Gemini

ToolsGemini Qwen Llama

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Betrieb als 8-Bit Unsloth-Quant lokal auf Apple M5 Max mit 128 GB RAM
MTP-Support in llama.cpp (seit ca. zwei Wochen) als Voraussetzung für nutzbare TPS in Open WebUI
Einsatz in OpenCode zusammen mit einem 35B-Modell für Planung und Coding
Gemini Pro zeigte Kontextfehler und Halluzinationen bei längeren, themenübergreifenden Chats
Gemma 4 31B als Alternative getestet, aber wegen Geschwindigkeit auf gleicher Hardware vorerst verworfen

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen 3.6 27B lokal überzeugt bei Recherche-Aufgaben gegenüber Gemini

Frag die KI zum Artikel

Verwandte Beiträge

Qwen 3.6 27B lokal überzeugt bei Recherche-Aufgaben gegenüber Gemini

Frag die KI zum Artikel

Verwandte Beiträge