Lightning-MLX: Schnellste lokale AI-Engine für Apple Silicon mit Agenten-Fokus

Warum es zählt

Auf einem MacBook Max M5 (128 GB) erreicht die Engine 220,86 tok/s mit Qwen3.6-35B-A3B – das ist relevant für Entwickler, die leistungsstarke Coding-Agents lokal ohne Cloud-Abhängigkeit betreiben wollen.

— Lumeric Redaktion

Der Reddit-Nutzer /u/TomatilloPutrid3939 hat nach eigenen Angaben wochenlanger Entwicklungsarbeit Lightning-MLX auf GitHub veröffentlicht – eine lokale Inferenz-Engine, die speziell für Apple Silicon ausgelegt ist. Der Fokus liegt auf agentischen Anwendungsfällen: Coding-Agents, Tool-Calling und Short-Turn-Workflows. Gemessen auf einem MacBook Max M5 mit 128 GB Unified Memory erzielt die Engine mit Qwen3.6-35B-A3B bemerkenswerte 220,86 tok/s, während das deutlich größere Qwen3.6-27B auf 40,67 tok/s kommt. Das Projekt nutzt das MTPLX-Preset als Standardkonfiguration. Der Entwickler sucht aktiv nach Community-Feedback zu Benchmark-Designs für lokale Coding-Agents, zu den MTPLX-Standardwerten sowie zu Ergebnissen auf anderen Apple-Silicon-Setups. Das Repository ist öffentlich auf GitHub verfügbar.

Was wir noch wissen

Gemessen auf MacBook Max M5 mit 128 GB Unified Memory
Qwen3.6-35B-A3B erreicht 220,86 tok/s, Qwen3.6-27B nur 40,67 tok/s
Engine basiert auf MTPLX-Presets als Standardkonfiguration
Optimiert für Tool-Calling und kurze Gesprächsrunden (Short-Turn-Workflows)
Quellcode öffentlich: github.com/samuelfaj/lightning-mlx

Quelle lesenreddit.com

220,86 tok/s

Qwen3.6-35B-A3B auf M5 Max (128 GB)

Inferenz Infra Agents Coding Assistenten

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Lightning-MLX: Schnellste lokale AI-Engine für Apple Silicon mit Agenten-Fokus

ToolsQwen

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Gemessen auf MacBook Max M5 mit 128 GB Unified Memory
Qwen3.6-35B-A3B erreicht 220,86 tok/s, Qwen3.6-27B nur 40,67 tok/s
Engine basiert auf MTPLX-Presets als Standardkonfiguration
Optimiert für Tool-Calling und kurze Gesprächsrunden (Short-Turn-Workflows)
Quellcode öffentlich: github.com/samuelfaj/lightning-mlx

220,86 tok/s

Qwen3.6-35B-A3B auf M5 Max (128 GB)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Lightning-MLX: Schnellste lokale AI-Engine für Apple Silicon mit Agenten-Fokus

Frag die KI zum Artikel

Verwandte Beiträge

Lightning-MLX: Schnellste lokale AI-Engine für Apple Silicon mit Agenten-Fokus

Frag die KI zum Artikel

Verwandte Beiträge