lmm: CLI-Tool gegen doppelte Modell-Downloads per HF-Cache und Symlinks

ToolsOllama LM Studio Llama Hugging Face

Warum es zählt

Wer mehrere lokale Inferenz-Tools parallel betreibt, spart mit lmm erheblich Speicherplatz – ein 8-GB-Modell wird nur einmal gespeichert statt dreimal. Das Tool ist jedoch aktuell auf Apple Silicon beschränkt.

— Lumeric Redaktion

Der Reddit-Nutzer /u/holotherapper hat „lmm" veröffentlicht, ein in Rust geschriebenes CLI-Tool exklusiv für Apple-Silicon-Macs. Das Problem: Tools wie LM Studio, Ollama und llama.cpp legen heruntergeladene Modelle jeweils in eigenen Verzeichnissen ab. Ein 8-GB-Modell, das in drei Tools genutzt wird, belegt so 24 GB Speicher. lmm löst das, indem es den Hugging-Face-Cache als einzigen Speicherort verwendet und Modelle per Symlink in die jeweiligen Tool-Verzeichnisse einbindet. So wird jedes Modell nur einmal heruntergeladen, aber von allen kompatiblen Tools genutzt. Das Tool unterstützt MLX-, GGUF- und Safetensors-Formate und ist kompatibel mit LM Studio, llama.cpp, Jan und ComfyUI. Eine interaktive Suche und Installation direkt von Hugging Face ist eingebaut. Bestehende HF-Cache-Modelle können ohne erneuten Download übernommen werden. Die Installation erfolgt über Homebrew. Der Quellcode ist auf GitHub unter holotherapper/lmm verfügbar.

Was wir noch wissen