Qwen3 35B-A3B GGUF: Uncensored-Merge mit Claude-4.6-Opus-Distillation

Warum es zählt

Für lokale Deployments interessant: Das Q4_K_M-Quant (APEX Compact) soll auch mit komplexen Roleplay-System-Prompts stabil bleiben. Die Integration von Claude-4.6-Opus-Reasoning via Distillation verspricht verbesserte Thinking-Mode-Qualität ohne API-Abhängigkeit.

— Lumeric Redaktion

Das Modell wurde vom Reddit-Nutzer /u/EvilEnginer als Community-Release veröffentlicht und baut auf einem vorherigen Release aus der LocalLLaMA-Community auf (Qwen3.6-35B-A3B-Uncensored-Genesis-APEX-MTP), das ebenfalls via Delta-Merge entstanden ist. Die Distillation basiert auf Datensätzen, die mit Claude 4.6 Opus erzeugt wurden – dem zu diesem Zeitpunkt aktuellen Anthropic-Flaggschiff-Modell – und soll den Thinking-Mode qualitativ verbessern, ohne dass eine API-Anbindung an Anthropic nötig ist. Ein technisches Detail aus der Veröffentlichung: Der Distillations-Datensatz verwendet als erste System-Prompt-Zeile zwingend „You are a helpful AI assistant.", weshalb der Autor empfiehlt, das Modell stets mit dieser Einleitung zu starten – ohne sie soll die Leistung spürbar nachlassen. Das GGUF-Modell wird in mindestens zwei Quantisierungsstufen angeboten: APEX (Empfehlung) und APEX Compact (Q4_K_M), das auch auf schwächerer Hardware lauffähig bleibt. Für LM Studio werden spezifische Chat-Templates (chat_template.jinja, chat_template_thinking.jinja) sowie zwei vorkonfigurierte System-Prompt-Dateien mitgeliefert, darunter ein kreatives Profil namens „Arakali". Die empfohlenen Inferenz-Parameter sind detailliert dokumentiert: Temperature 0,7 für Coding und 1,0 für Roleplay, Top-K 20, Top-P 0,8, Repeat Penalty 1,0 und ein fester Seed von 42.

Quelle lesenreddit.com

Open Source Foundation Modelle Inferenz Infra