Hobbyist vergleicht Inference-Engines auf M1 Max 64 GB – rapid-mlx vorn

Warum es zählt

Für lokale Inferenz auf Apple-Silicon-Hardware liefert der Community-Benchmark konkrete Anhaltspunkte: rapid-mlx zeigt die beste Performance und Speichereffizienz – relevant für Nutzer, die größere Modelle wie Qwen 35B-A3B auf M1/M2-Geräten betreiben wollen.

— Lumeric Redaktion

Der Reddit-Nutzer u/jarec707 führte systematische Benchmarks von vier Inference-Engines für Apple Silicon durch: rapid-mlx, omlx, mlx-lm und ollama. Als Testmodell diente Qwen3.5-4B, ausgeführt auf einem M1 Max MacBook Pro mit 64 GB Unified Memory. Grundlage war das Community-Benchmark-Tool mlx-chronos (github.com/igurss/mlx-chronos) von u/igor__004, das eigens für MLX-basierte Inference-Vergleiche auf Apple-Hardware entwickelt wurde. Die Ergebnisse wurden im mlx-chronos Community-Leaderboard eingereicht. Laut dem Beitrag führt rapid-mlx sowohl bei der Inferenzgeschwindigkeit als auch bei der Speichereffizienz. Der Autor setzt rapid-mlx inzwischen produktiv ein, um das deutlich größere Modell Qwen 35B-A3B zu betreiben. Für die Aufbereitung der Ergebnisse als Webseite mit Charts nutzte er Claude Code. Der Benchmark richtet sich explizit an Hobbyisten ohne Serverinfrastruktur, die mit Consumer-Hardware lokal inferieren.

Was wir noch wissen

mlx-chronos ist ein Open-Source-Community-Benchmark-Tool speziell für MLX-Inference auf Apple Silicon (github.com/igurss/mlx-chronos)
Testmodell war Qwen3.5-4B; der Autor betreibt inzwischen Qwen 35B-A3B via rapid-mlx auf demselben Gerät
Ergebnisse wurden im mlx-chronos Community-Leaderboard eingereicht
Webseite mit Charts und Analyse wurde mit Claude Code erstellt
Benchmark entstand im Hobbyisten-Kontext ohne dedizierte Server-Hardware

Quelle lesenreddit.com

mlx-chronos (Qwen3.5-4B, M1 Max 64 GB) · Spitzenwert

rapid-mlx

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Hobbyist vergleicht Inference-Engines auf M1 Max 64 GB – rapid-mlx vorn

ToolsOllama Claude Claude Code Qwen

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

mlx-chronos ist ein Open-Source-Community-Benchmark-Tool speziell für MLX-Inference auf Apple Silicon (github.com/igurss/mlx-chronos)
Testmodell war Qwen3.5-4B; der Autor betreibt inzwischen Qwen 35B-A3B via rapid-mlx auf demselben Gerät
Ergebnisse wurden im mlx-chronos Community-Leaderboard eingereicht
Webseite mit Charts und Analyse wurde mit Claude Code erstellt
Benchmark entstand im Hobbyisten-Kontext ohne dedizierte Server-Hardware

mlx-chronos (Qwen3.5-4B, M1 Max 64 GB) · Spitzenwert

rapid-mlx

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Hobbyist vergleicht Inference-Engines auf M1 Max 64 GB – rapid-mlx vorn

Frag die KI zum Artikel

Verwandte Beiträge

Hobbyist vergleicht Inference-Engines auf M1 Max 64 GB – rapid-mlx vorn

Frag die KI zum Artikel

Verwandte Beiträge