Qwen3.6-35B-A3B-Uncensored mit MTP-Support und APEX-Quantisierung veröffentlicht

Warum es zählt

Das Modell läuft stabil mit 200k-Kontext auf Consumer-Hardware ohne Loops oder Tool-Call-Fehler – relevant für Local-LLM-Nutzer, die ein leistungsfähiges, zensurfreies MoE-Modell lokal betreiben wollen.

— Lumeric Redaktion

LuffyTheFox stellt auf Hugging Face ein uncensored Fine-Tune von Qwen3.6-35B-A3B bereit – sowohl als GGUF (APEX/APEX-MTP-Quantisierung) als auch als FP8-Safetensors. Das Modell basiert auf Alibabas Qwen3-MoE-Architektur mit 35B Gesamtparametern bei 3B aktivierten Parametern pro Schritt. Besonderheit ist die integrierte Multi-Token-Prediction (MTP), die schnellere Inferenz ermöglichen soll. Praxistests auf einem Beelink GTR9 Pro mit AMD Strix Halo (durchgeführt von einem Freund des Erstellers) zeigen: 5 Sitzungen mit jeweils 200k Kontext verliefen ohne Glitches, Loops oder fehlerhafte Tool-Calls. Nach 120k verarbeiteten Tokens konnte das Modell einen vollständig neuen, unzusammenhängenden Task korrekt aufgreifen und lösen. Empfohlen wird die Verwendung in LM Studio mit spezifischen Einstellungen: Temperature 0.7, Top-K 20, Presence Penalty 1.5, Top-P 0.8 und ein fester System-Prompt mit Qwen-Identitätssatz.

Was wir noch wissen

Modell verfügbar als GGUF (APEX, APEX-MTP) und FP8-Safetensors auf Hugging Face unter LuffyTheFox
Getestet auf Beelink GTR9 Pro + Strix Halo mit Q8_K_P-MTP-Quantisierung
5 Sessions à 200k Kontext ohne Loops, Glitches oder fehlerhafte Tool-Calls
Empfohlene LM-Studio-Einstellungen: Temperature 0.7, Top-K 20, Presence Penalty 1.5, Seed 42
System-Prompt muss mit 'You are Qwen, created by Alibaba Cloud.' beginnen, sonst Leistungseinbußen

Quelle lesenreddit.com

Foundation Modelle Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-35B-A3B-Uncensored mit MTP-Support und APEX-Quantisierung veröffentlicht

ToolsLM Studio Qwen Hugging Face

CompaniesAlibaba (Qwen)Hugging Face AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Modell verfügbar als GGUF (APEX, APEX-MTP) und FP8-Safetensors auf Hugging Face unter LuffyTheFox
Getestet auf Beelink GTR9 Pro + Strix Halo mit Q8_K_P-MTP-Quantisierung
5 Sessions à 200k Kontext ohne Loops, Glitches oder fehlerhafte Tool-Calls
Empfohlene LM-Studio-Einstellungen: Temperature 0.7, Top-K 20, Presence Penalty 1.5, Seed 42
System-Prompt muss mit 'You are Qwen, created by Alibaba Cloud.' beginnen, sonst Leistungseinbußen

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-35B-A3B-Uncensored mit MTP-Support und APEX-Quantisierung veröffentlicht

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6-35B-A3B-Uncensored mit MTP-Support und APEX-Quantisierung veröffentlicht

Frag die KI zum Artikel

Verwandte Beiträge