Qwen3.6-35B-A3B-Uncensored mit MTP-Support und APEX-Quantisierung veröffentlicht
LuffyTheFox stellt auf Hugging Face ein uncensored Fine-Tune von Qwen3.6-35B-A3B bereit – sowohl als GGUF (APEX/APEX-MTP-Quantisierung) als auch als FP8-Safetensors. Das Modell basiert auf Alibabas Qwen3-MoE-Architektur mit 35B Gesamtparametern bei 3B aktivierten Parametern pro Schritt. Besonderheit ist die integrierte Multi-Token-Prediction (MTP), die schnellere Inferenz ermöglichen soll. Praxistests auf einem Beelink GTR9 Pro mit AMD Strix Halo (durchgeführt von einem Freund des Erstellers) zeigen: 5 Sitzungen mit jeweils 200k Kontext verliefen ohne Glitches, Loops oder fehlerhafte Tool-Calls. Nach 120k verarbeiteten Tokens konnte das Modell einen vollständig neuen, unzusammenhängenden Task korrekt aufgreifen und lösen. Empfohlen wird die Verwendung in LM Studio mit spezifischen Einstellungen: Temperature 0.7, Top-K 20, Presence Penalty 1.5, Top-P 0.8 und ein fester System-Prompt mit Qwen-Identitätssatz.
- Modell verfügbar als GGUF (APEX, APEX-MTP) und FP8-Safetensors auf Hugging Face unter LuffyTheFox
- Getestet auf Beelink GTR9 Pro + Strix Halo mit Q8_K_P-MTP-Quantisierung
- 5 Sessions à 200k Kontext ohne Loops, Glitches oder fehlerhafte Tool-Calls
- Empfohlene LM-Studio-Einstellungen: Temperature 0.7, Top-K 20, Presence Penalty 1.5, Seed 42
- System-Prompt muss mit 'You are Qwen, created by Alibaba Cloud.' beginnen, sonst Leistungseinbußen
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3.6-35B-A3B-Uncensored mit MTP-Support und APEX-Quantisierung veröffentlicht
LuffyTheFox stellt auf Hugging Face ein uncensored Fine-Tune von Qwen3.6-35B-A3B bereit – sowohl als GGUF (APEX/APEX-MTP-Quantisierung) als auch als FP8-Safetensors. Das Modell basiert auf Alibabas Qwen3-MoE-Architektur mit 35B Gesamtparametern bei 3B aktivierten Parametern pro Schritt. Besonderheit ist die integrierte Multi-Token-Prediction (MTP), die schnellere Inferenz ermöglichen soll. Praxistests auf einem Beelink GTR9 Pro mit AMD Strix Halo (durchgeführt von einem Freund des Erstellers) zeigen: 5 Sitzungen mit jeweils 200k Kontext verliefen ohne Glitches, Loops oder fehlerhafte Tool-Calls. Nach 120k verarbeiteten Tokens konnte das Modell einen vollständig neuen, unzusammenhängenden Task korrekt aufgreifen und lösen. Empfohlen wird die Verwendung in LM Studio mit spezifischen Einstellungen: Temperature 0.7, Top-K 20, Presence Penalty 1.5, Top-P 0.8 und ein fester System-Prompt mit Qwen-Identitätssatz.
- Modell verfügbar als GGUF (APEX, APEX-MTP) und FP8-Safetensors auf Hugging Face unter LuffyTheFox
- Getestet auf Beelink GTR9 Pro + Strix Halo mit Q8_K_P-MTP-Quantisierung
- 5 Sessions à 200k Kontext ohne Loops, Glitches oder fehlerhafte Tool-Calls
- Empfohlene LM-Studio-Einstellungen: Temperature 0.7, Top-K 20, Presence Penalty 1.5, Seed 42
- System-Prompt muss mit 'You are Qwen, created by Alibaba Cloud.' beginnen, sonst Leistungseinbußen
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.