Lightning-MLX: Schnellste lokale AI-Engine für Apple Silicon mit Agenten-Fokus
Der Reddit-Nutzer /u/TomatilloPutrid3939 hat nach eigenen Angaben wochenlanger Entwicklungsarbeit Lightning-MLX auf GitHub veröffentlicht – eine lokale Inferenz-Engine, die speziell für Apple Silicon ausgelegt ist. Der Fokus liegt auf agentischen Anwendungsfällen: Coding-Agents, Tool-Calling und Short-Turn-Workflows. Gemessen auf einem MacBook Max M5 mit 128 GB Unified Memory erzielt die Engine mit Qwen3.6-35B-A3B bemerkenswerte 220,86 tok/s, während das deutlich größere Qwen3.6-27B auf 40,67 tok/s kommt. Das Projekt nutzt das MTPLX-Preset als Standardkonfiguration. Der Entwickler sucht aktiv nach Community-Feedback zu Benchmark-Designs für lokale Coding-Agents, zu den MTPLX-Standardwerten sowie zu Ergebnissen auf anderen Apple-Silicon-Setups. Das Repository ist öffentlich auf GitHub verfügbar.
- Gemessen auf MacBook Max M5 mit 128 GB Unified Memory
- Qwen3.6-35B-A3B erreicht 220,86 tok/s, Qwen3.6-27B nur 40,67 tok/s
- Engine basiert auf MTPLX-Presets als Standardkonfiguration
- Optimiert für Tool-Calling und kurze Gesprächsrunden (Short-Turn-Workflows)
- Quellcode öffentlich: github.com/samuelfaj/lightning-mlx
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Lightning-MLX: Schnellste lokale AI-Engine für Apple Silicon mit Agenten-Fokus
Der Reddit-Nutzer /u/TomatilloPutrid3939 hat nach eigenen Angaben wochenlanger Entwicklungsarbeit Lightning-MLX auf GitHub veröffentlicht – eine lokale Inferenz-Engine, die speziell für Apple Silicon ausgelegt ist. Der Fokus liegt auf agentischen Anwendungsfällen: Coding-Agents, Tool-Calling und Short-Turn-Workflows. Gemessen auf einem MacBook Max M5 mit 128 GB Unified Memory erzielt die Engine mit Qwen3.6-35B-A3B bemerkenswerte 220,86 tok/s, während das deutlich größere Qwen3.6-27B auf 40,67 tok/s kommt. Das Projekt nutzt das MTPLX-Preset als Standardkonfiguration. Der Entwickler sucht aktiv nach Community-Feedback zu Benchmark-Designs für lokale Coding-Agents, zu den MTPLX-Standardwerten sowie zu Ergebnissen auf anderen Apple-Silicon-Setups. Das Repository ist öffentlich auf GitHub verfügbar.
- Gemessen auf MacBook Max M5 mit 128 GB Unified Memory
- Qwen3.6-35B-A3B erreicht 220,86 tok/s, Qwen3.6-27B nur 40,67 tok/s
- Engine basiert auf MTPLX-Presets als Standardkonfiguration
- Optimiert für Tool-Calling und kurze Gesprächsrunden (Short-Turn-Workflows)
- Quellcode öffentlich: github.com/samuelfaj/lightning-mlx
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.