Gemma 4 12B: Experimenteller MLX-Kernel für Apple Silicon vorgestellt

CompaniesNVIDIA

Warum es zählt

Zeigt, wie Gemma 4 12B auf 16 GB Apple-RAM mit MLX betrieben werden kann. Die genannte Grenze von 20–30 tok/s auf M5-Hardware gibt Entwicklern einen realistischen Erwartungswert für lokale Inferenz ohne Cloud-Cluster.

— Lumeric Redaktion

Quelle lesenreddit.com

20–30 tok/s

Theoret. Max auf M5 16 GB (MTP-Workload)

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma 4 12B: Experimenteller MLX-Kernel für Apple Silicon vorgestellt

ToolsNVIDIA Hardware

CompaniesNVIDIA

Warum es zählt

— Lumeric Redaktion

20–30 tok/s

Theoret. Max auf M5 16 GB (MTP-Workload)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma 4 12B: Experimenteller MLX-Kernel für Apple Silicon vorgestellt

Frag die KI zum Artikel

Verwandte Beiträge

Gemma 4 12B: Experimenteller MLX-Kernel für Apple Silicon vorgestellt

Frag die KI zum Artikel

Verwandte Beiträge