Hobbyist vergleicht Inference-Engines auf M1 Max 64 GB – rapid-mlx vorn
Der Reddit-Nutzer u/jarec707 führte systematische Benchmarks von vier Inference-Engines für Apple Silicon durch: rapid-mlx, omlx, mlx-lm und ollama. Als Testmodell diente Qwen3.5-4B, ausgeführt auf einem M1 Max MacBook Pro mit 64 GB Unified Memory. Grundlage war das Community-Benchmark-Tool mlx-chronos (github.com/igurss/mlx-chronos) von u/igor__004, das eigens für MLX-basierte Inference-Vergleiche auf Apple-Hardware entwickelt wurde. Die Ergebnisse wurden im mlx-chronos Community-Leaderboard eingereicht. Laut dem Beitrag führt rapid-mlx sowohl bei der Inferenzgeschwindigkeit als auch bei der Speichereffizienz. Der Autor setzt rapid-mlx inzwischen produktiv ein, um das deutlich größere Modell Qwen 35B-A3B zu betreiben. Für die Aufbereitung der Ergebnisse als Webseite mit Charts nutzte er Claude Code. Der Benchmark richtet sich explizit an Hobbyisten ohne Serverinfrastruktur, die mit Consumer-Hardware lokal inferieren.
- mlx-chronos ist ein Open-Source-Community-Benchmark-Tool speziell für MLX-Inference auf Apple Silicon (github.com/igurss/mlx-chronos)
- Testmodell war Qwen3.5-4B; der Autor betreibt inzwischen Qwen 35B-A3B via rapid-mlx auf demselben Gerät
- Ergebnisse wurden im mlx-chronos Community-Leaderboard eingereicht
- Webseite mit Charts und Analyse wurde mit Claude Code erstellt
- Benchmark entstand im Hobbyisten-Kontext ohne dedizierte Server-Hardware
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- BENCHMARKreddit.com3w
MLX-Engine-Vergleich: oMLX führt bei Apple-Silicon-Inferenz
- BENCHMARKreddit.com5d
Llama-bench: Qwen3-Modelle auf AMD Radeon RX 9700 32GB verglichen
- GERÜCHTreddit.com2w
RunAnywhere.ai behauptet 3× Speed-Up gegenüber MLX
- LAUNCHreddit.com1w
mlx-Chronos: Community-Benchmark-Leaderboard für lokale LLM-Engines auf Apple Silicon
Hobbyist vergleicht Inference-Engines auf M1 Max 64 GB – rapid-mlx vorn
Der Reddit-Nutzer u/jarec707 führte systematische Benchmarks von vier Inference-Engines für Apple Silicon durch: rapid-mlx, omlx, mlx-lm und ollama. Als Testmodell diente Qwen3.5-4B, ausgeführt auf einem M1 Max MacBook Pro mit 64 GB Unified Memory. Grundlage war das Community-Benchmark-Tool mlx-chronos (github.com/igurss/mlx-chronos) von u/igor__004, das eigens für MLX-basierte Inference-Vergleiche auf Apple-Hardware entwickelt wurde. Die Ergebnisse wurden im mlx-chronos Community-Leaderboard eingereicht. Laut dem Beitrag führt rapid-mlx sowohl bei der Inferenzgeschwindigkeit als auch bei der Speichereffizienz. Der Autor setzt rapid-mlx inzwischen produktiv ein, um das deutlich größere Modell Qwen 35B-A3B zu betreiben. Für die Aufbereitung der Ergebnisse als Webseite mit Charts nutzte er Claude Code. Der Benchmark richtet sich explizit an Hobbyisten ohne Serverinfrastruktur, die mit Consumer-Hardware lokal inferieren.
- mlx-chronos ist ein Open-Source-Community-Benchmark-Tool speziell für MLX-Inference auf Apple Silicon (github.com/igurss/mlx-chronos)
- Testmodell war Qwen3.5-4B; der Autor betreibt inzwischen Qwen 35B-A3B via rapid-mlx auf demselben Gerät
- Ergebnisse wurden im mlx-chronos Community-Leaderboard eingereicht
- Webseite mit Charts und Analyse wurde mit Claude Code erstellt
- Benchmark entstand im Hobbyisten-Kontext ohne dedizierte Server-Hardware
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- BENCHMARKreddit.com3w
MLX-Engine-Vergleich: oMLX führt bei Apple-Silicon-Inferenz
- BENCHMARKreddit.com5d
Llama-bench: Qwen3-Modelle auf AMD Radeon RX 9700 32GB verglichen
- GERÜCHTreddit.com2w
RunAnywhere.ai behauptet 3× Speed-Up gegenüber MLX
- LAUNCHreddit.com1w
mlx-Chronos: Community-Benchmark-Leaderboard für lokale LLM-Engines auf Apple Silicon