Qwen 3.6 27B lokal überzeugt bei Recherche-Aufgaben gegenüber Gemini
Der Reddit-Nutzer /u/Character_Split4906 schildert praktische Erfahrungen mit Qwen 3.6 27B, das er lokal in einer 8-Bit Unsloth-Quantisierung auf einem Apple M5 Max mit 128 GB RAM betreibt. Das Modell wird parallel zu einem 35B-Modell in OpenCode für Planungs- und Coding-Aufgaben sowie als Chat-Assistent in Open WebUI eingesetzt. Entscheidender Wendepunkt war die Einführung von MTP-Support (Multi-Token Prediction) in llama.cpp vor etwa zwei Wochen, die die Token-pro-Sekunde-Rate deutlich verbesserte und das Modell erst alltagstauglich machte. Im direkten Vergleich mit Gemini Pro versagte Letzteres bei komplexeren Recherchen zu Karrierethemen, Unternehmensportfolios und Immigrationsfragen: Es halluzinierte und verknüpfte Informationen aus früheren Konversationen fehlerhaft. Qwen 3.6 27B lieferte dagegen laut Nutzer substanziell bessere Ergebnisse, insbesondere beim Verarbeiten offizieller Dokumente. Als Alternative wurde Gemma 4 31B kurz getestet, jedoch wegen zu geringer Inferenzgeschwindigkeit auf der gleichen Hardware verworfen – auch hier wird auf künftigen MTP-Support gehofft.
- Betrieb als 8-Bit Unsloth-Quant lokal auf Apple M5 Max mit 128 GB RAM
- MTP-Support in llama.cpp (seit ca. zwei Wochen) als Voraussetzung für nutzbare TPS in Open WebUI
- Einsatz in OpenCode zusammen mit einem 35B-Modell für Planung und Coding
- Gemini Pro zeigte Kontextfehler und Halluzinationen bei längeren, themenübergreifenden Chats
- Gemma 4 31B als Alternative getestet, aber wegen Geschwindigkeit auf gleicher Hardware vorerst verworfen
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen 3.6 27B lokal überzeugt bei Recherche-Aufgaben gegenüber Gemini
Der Reddit-Nutzer /u/Character_Split4906 schildert praktische Erfahrungen mit Qwen 3.6 27B, das er lokal in einer 8-Bit Unsloth-Quantisierung auf einem Apple M5 Max mit 128 GB RAM betreibt. Das Modell wird parallel zu einem 35B-Modell in OpenCode für Planungs- und Coding-Aufgaben sowie als Chat-Assistent in Open WebUI eingesetzt. Entscheidender Wendepunkt war die Einführung von MTP-Support (Multi-Token Prediction) in llama.cpp vor etwa zwei Wochen, die die Token-pro-Sekunde-Rate deutlich verbesserte und das Modell erst alltagstauglich machte. Im direkten Vergleich mit Gemini Pro versagte Letzteres bei komplexeren Recherchen zu Karrierethemen, Unternehmensportfolios und Immigrationsfragen: Es halluzinierte und verknüpfte Informationen aus früheren Konversationen fehlerhaft. Qwen 3.6 27B lieferte dagegen laut Nutzer substanziell bessere Ergebnisse, insbesondere beim Verarbeiten offizieller Dokumente. Als Alternative wurde Gemma 4 31B kurz getestet, jedoch wegen zu geringer Inferenzgeschwindigkeit auf der gleichen Hardware verworfen – auch hier wird auf künftigen MTP-Support gehofft.
- Betrieb als 8-Bit Unsloth-Quant lokal auf Apple M5 Max mit 128 GB RAM
- MTP-Support in llama.cpp (seit ca. zwei Wochen) als Voraussetzung für nutzbare TPS in Open WebUI
- Einsatz in OpenCode zusammen mit einem 35B-Modell für Planung und Coding
- Gemini Pro zeigte Kontextfehler und Halluzinationen bei längeren, themenübergreifenden Chats
- Gemma 4 31B als Alternative getestet, aber wegen Geschwindigkeit auf gleicher Hardware vorerst verworfen
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.