Mac Studio: GLM 5.1 und Kimi K2.6 dominieren lokale LLM-Nutzung 2026
Ein routinierter Mac Studio-Nutzer mit M3 Ultra dokumentiert seinen praktischen Werkzeugkasten lokaler Sprachmodelle für Mai 2026. GLM 5.1 erweist sich als Favorit für Coding-Tasks bis zur Schwelle 6/10 Komplexität (wobei 10 = komplexe Legacy-Codebase mit vagen Spezifikationen), benötigt nur ~380 GB Speicher und erzeugt 190 tps Prefill, 17 tps Decode. Kimi K2.6 liegt in der gleichen Leistungsklasse, ist aber mit 460 GB deutlich speicherintensiver und schneller (220/21 tps). Überraschend ersetzt der Nutzer das größere Qwen 3.6 35B durch Qwen 3.5 9B: Das kleinere Modell reicht für Multimodal-Aufgaben wie Screenshot-Übersetzung aus und spart 14 GB RAM. Minimax 2.7 wirkt vielversprechend bei der Größe, eignet sich aber nur für einfache Use-Cases (Score 3–4); Gemma 4 31B scheitert in der Praxis an mlx-Support-Problemen und Template-Bugs. Der Nutzer wartet auf Official Support für DeepSeek R1 Flash und Mimo 2.5 sowie auf verbesserte Quantisierungsformate und Prefill-Disaggregation (Exo, tinygrad).
- GLM 5.1: ~380 GB Speicher, 190 tps Prefill, 17 tps Decode; zuverlässig für Coding bis Komplexität 6/10
- Kimi K2.6: 460 GB Speicher, 220 tps Prefill, 21 tps Decode — schneller aber speicherhungrig
- Qwen 3.5 9B ersetzt das größere 3.6 35B: Ausreichend für Multimodal-Screenshot-Translation, 14 GB RAM-Einsparung
- DeepSeek R1 Flash und Mimo 2.5 noch ohne Official llama.cpp/mlx-lm Support; M3 Ultra als Größenlimit etwa 40B aktive Parameter
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Mac Studio: GLM 5.1 und Kimi K2.6 dominieren lokale LLM-Nutzung 2026
Ein routinierter Mac Studio-Nutzer mit M3 Ultra dokumentiert seinen praktischen Werkzeugkasten lokaler Sprachmodelle für Mai 2026. GLM 5.1 erweist sich als Favorit für Coding-Tasks bis zur Schwelle 6/10 Komplexität (wobei 10 = komplexe Legacy-Codebase mit vagen Spezifikationen), benötigt nur ~380 GB Speicher und erzeugt 190 tps Prefill, 17 tps Decode. Kimi K2.6 liegt in der gleichen Leistungsklasse, ist aber mit 460 GB deutlich speicherintensiver und schneller (220/21 tps). Überraschend ersetzt der Nutzer das größere Qwen 3.6 35B durch Qwen 3.5 9B: Das kleinere Modell reicht für Multimodal-Aufgaben wie Screenshot-Übersetzung aus und spart 14 GB RAM. Minimax 2.7 wirkt vielversprechend bei der Größe, eignet sich aber nur für einfache Use-Cases (Score 3–4); Gemma 4 31B scheitert in der Praxis an mlx-Support-Problemen und Template-Bugs. Der Nutzer wartet auf Official Support für DeepSeek R1 Flash und Mimo 2.5 sowie auf verbesserte Quantisierungsformate und Prefill-Disaggregation (Exo, tinygrad).
- GLM 5.1: ~380 GB Speicher, 190 tps Prefill, 17 tps Decode; zuverlässig für Coding bis Komplexität 6/10
- Kimi K2.6: 460 GB Speicher, 220 tps Prefill, 21 tps Decode — schneller aber speicherhungrig
- Qwen 3.5 9B ersetzt das größere 3.6 35B: Ausreichend für Multimodal-Screenshot-Translation, 14 GB RAM-Einsparung
- DeepSeek R1 Flash und Mimo 2.5 noch ohne Official llama.cpp/mlx-lm Support; M3 Ultra als Größenlimit etwa 40B aktive Parameter
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.