Qwen3.6 35B A3B stabil auf MacBook M2 Max: Setup-Guide aus der Praxis

ToolsOllama LM Studio Claude Claude Code Qwen Model Context Protocol Llama

Warum es zählt

Wer Qwen3.6 35B A3B lokal auf Apple Silicon betreibt, kann mit GGUF statt MLX, angepasstem iogpu.wired_limit_m und OpenCode statt Claude Code Abstürze vermeiden und produktionsnahe Agentenworkflows auf Consumer-Hardware realisieren.

— Lumeric Redaktion

Ein Entwickler beschreibt auf r/LocalLLaMA, wie er nach wochenlanger Fehlersuche ein stabiles Setup für Qwen3.6 35B A3B auf einem 14" MacBook Pro M2 Max mit 64 GB RAM aufgebaut hat. Kernempfehlung: GGUF-Modelle statt MLX verwenden, da MLX auf thermisch drosselnden 14"-Modellen instabil sei. Als Inference-Backend empfiehlt er llama.cpp oder LM Studio, während Ollama als langsam und unzuverlässig eingestuft wird. Das Speicher-Wired-Limit wird via iogpu.wired_limit_m auf 61.440 MB angehoben. Zusätzlich sollte der Display-Refresh von ProMotion auf 60 Hz reduziert werden, um Ressourcen zu schonen. Für Coding-Workflows setzt der Autor auf OpenCode statt Claude Code, wobei er explizit darauf hinweist, die Output-Token-Limits korrekt zu konfigurieren, um Tool-Call-Fehler zu vermeiden. Der Parameter preserve_thinking muss für Qwen3.6 aktiviert sein – ohne ihn kommt es zu Loops und fehlgeschlagenen Tool Calls. Mit 131k Kontext und einem Systemprompt von fast 50k Token erzielt er 490 tok/s beim Prompt Processing und 49–65 tok/s bei der Generierung. Als MCP-Lösung für RAG und persistente Memories nutzte er zwischenzeitlich Serena MCP.

Was wir noch wissen

GGUF-Modelle (q4 oder q6 Quant) stabil, MLX auf 14" MBP wegen Thermal Throttling problematisch
iogpu.wired_limit_m auf 61.440 MB erhöhen (bei 64 GB RAM), Display-Refresh auf 60 Hz reduzieren
preserve_thinking in Qwen3.6 zwingend aktivieren – ohne es: Loops, fehlgeschlagene Tool Calls
MTP-Version von Qwen3.6 vermeiden: verlangsamt Token-Generierung statt sie zu beschleunigen
Serena MCP für RAG und persistente Memories; OpenCode SKILLS ermöglichen komplexe Refactors bei 52k-Zeilen-Codebase mit nur 64k Kontext

Quelle lesenreddit.com

Agents Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6 35B A3B stabil auf MacBook M2 Max: Setup-Guide aus der Praxis

ToolsOllama LM Studio Claude Claude Code Qwen Model Context Protocol Llama

CompaniesGoogle DeepMind

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

GGUF-Modelle (q4 oder q6 Quant) stabil, MLX auf 14" MBP wegen Thermal Throttling problematisch
iogpu.wired_limit_m auf 61.440 MB erhöhen (bei 64 GB RAM), Display-Refresh auf 60 Hz reduzieren
preserve_thinking in Qwen3.6 zwingend aktivieren – ohne es: Loops, fehlgeschlagene Tool Calls
MTP-Version von Qwen3.6 vermeiden: verlangsamt Token-Generierung statt sie zu beschleunigen
Serena MCP für RAG und persistente Memories; OpenCode SKILLS ermöglichen komplexe Refactors bei 52k-Zeilen-Codebase mit nur 64k Kontext

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6 35B A3B stabil auf MacBook M2 Max: Setup-Guide aus der Praxis

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6 35B A3B stabil auf MacBook M2 Max: Setup-Guide aus der Praxis

Frag die KI zum Artikel

Verwandte Beiträge