Qwen3.6 35B A3B stabil auf MacBook M2 Max: Setup-Guide aus der Praxis
Ein Entwickler beschreibt auf r/LocalLLaMA, wie er nach wochenlanger Fehlersuche ein stabiles Setup für Qwen3.6 35B A3B auf einem 14" MacBook Pro M2 Max mit 64 GB RAM aufgebaut hat. Kernempfehlung: GGUF-Modelle statt MLX verwenden, da MLX auf thermisch drosselnden 14"-Modellen instabil sei. Als Inference-Backend empfiehlt er llama.cpp oder LM Studio, während Ollama als langsam und unzuverlässig eingestuft wird. Das Speicher-Wired-Limit wird via iogpu.wired_limit_m auf 61.440 MB angehoben. Zusätzlich sollte der Display-Refresh von ProMotion auf 60 Hz reduziert werden, um Ressourcen zu schonen. Für Coding-Workflows setzt der Autor auf OpenCode statt Claude Code, wobei er explizit darauf hinweist, die Output-Token-Limits korrekt zu konfigurieren, um Tool-Call-Fehler zu vermeiden. Der Parameter preserve_thinking muss für Qwen3.6 aktiviert sein – ohne ihn kommt es zu Loops und fehlgeschlagenen Tool Calls. Mit 131k Kontext und einem Systemprompt von fast 50k Token erzielt er 490 tok/s beim Prompt Processing und 49–65 tok/s bei der Generierung. Als MCP-Lösung für RAG und persistente Memories nutzte er zwischenzeitlich Serena MCP.
- GGUF-Modelle (q4 oder q6 Quant) stabil, MLX auf 14" MBP wegen Thermal Throttling problematisch
- iogpu.wired_limit_m auf 61.440 MB erhöhen (bei 64 GB RAM), Display-Refresh auf 60 Hz reduzieren
- preserve_thinking in Qwen3.6 zwingend aktivieren – ohne es: Loops, fehlgeschlagene Tool Calls
- MTP-Version von Qwen3.6 vermeiden: verlangsamt Token-Generierung statt sie zu beschleunigen
- Serena MCP für RAG und persistente Memories; OpenCode SKILLS ermöglichen komplexe Refactors bei 52k-Zeilen-Codebase mit nur 64k Kontext
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3.6 35B A3B stabil auf MacBook M2 Max: Setup-Guide aus der Praxis
Ein Entwickler beschreibt auf r/LocalLLaMA, wie er nach wochenlanger Fehlersuche ein stabiles Setup für Qwen3.6 35B A3B auf einem 14" MacBook Pro M2 Max mit 64 GB RAM aufgebaut hat. Kernempfehlung: GGUF-Modelle statt MLX verwenden, da MLX auf thermisch drosselnden 14"-Modellen instabil sei. Als Inference-Backend empfiehlt er llama.cpp oder LM Studio, während Ollama als langsam und unzuverlässig eingestuft wird. Das Speicher-Wired-Limit wird via iogpu.wired_limit_m auf 61.440 MB angehoben. Zusätzlich sollte der Display-Refresh von ProMotion auf 60 Hz reduziert werden, um Ressourcen zu schonen. Für Coding-Workflows setzt der Autor auf OpenCode statt Claude Code, wobei er explizit darauf hinweist, die Output-Token-Limits korrekt zu konfigurieren, um Tool-Call-Fehler zu vermeiden. Der Parameter preserve_thinking muss für Qwen3.6 aktiviert sein – ohne ihn kommt es zu Loops und fehlgeschlagenen Tool Calls. Mit 131k Kontext und einem Systemprompt von fast 50k Token erzielt er 490 tok/s beim Prompt Processing und 49–65 tok/s bei der Generierung. Als MCP-Lösung für RAG und persistente Memories nutzte er zwischenzeitlich Serena MCP.
- GGUF-Modelle (q4 oder q6 Quant) stabil, MLX auf 14" MBP wegen Thermal Throttling problematisch
- iogpu.wired_limit_m auf 61.440 MB erhöhen (bei 64 GB RAM), Display-Refresh auf 60 Hz reduzieren
- preserve_thinking in Qwen3.6 zwingend aktivieren – ohne es: Loops, fehlgeschlagene Tool Calls
- MTP-Version von Qwen3.6 vermeiden: verlangsamt Token-Generierung statt sie zu beschleunigen
- Serena MCP für RAG und persistente Memories; OpenCode SKILLS ermöglichen komplexe Refactors bei 52k-Zeilen-Codebase mit nur 64k Kontext
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.