whichllm: CLI-Tool findet bestes lokales LLM für eigene Hardware
whichllm ist ein von Andyyyy64 entwickeltes Python-CLI-Tool, das die Frage beantwortet, welches lokale LLM auf der eigenen Hardware tatsächlich am besten läuft. Es erkennt automatisch NVIDIA-, AMD- und Apple-Silicon-GPUs sowie CPU-only-Setups und lädt Modelldaten live von der HuggingFace-API. Das Ranking basiert nicht auf der schieren Modellgröße, sondern auf zusammengeführten echten Benchmark-Scores aus LiveBench, Artificial Analysis, Aider, Chatbot Arena ELO und dem Open LLM Leaderboard. Jeder Score wird nach Evidenzgrad (direct / variant / base / interpolated / self-reported) gewichtet und ältere Leaderboard-Einträge entlang der Modell-Linie abgewertet. Für eine RTX 4090 (24 GB VRAM) wird beispielsweise Qwen3.6-27B in Q5_K_M mit Score 92.8 und ~27 t/s als Top-Pick ausgewiesen — obwohl Qwen3-32B ebenfalls ins VRAM passen würde. Das Tool unterstützt auch GPU-Simulation für Kaufplanung (`--gpu "RTX 5090"`), startet per `whichllm run` direkt eine Chat-Session via llama-cpp-python, AWQ oder FP16, und gibt per `whichllm snippet` fertigen Python-Code aus. Installation erfolgt über pipx, Homebrew oder pip.
- Für RTX 5090 (32 GB): Qwen3.6-27B · Q6_K · Score 94.7 · ~40 t/s als Top-Pick
- Für CPU-only: gpt-oss-20b (MoE) · Q4_K_M · Score 45.2 · ~6 t/s
- VRAM-Schätzung berücksichtigt Weights, GQA-KV-Cache, Aktivierungen, Overhead und MoE Active/Total-Split
- Task-Filter für general, coding, vision und math; JSON-Output für Pipeline-Integration via --json | jq
- Reverse-Lookup möglich: whichllm plan 'llama 3 70b' zeigt benötigte GPU-Klasse
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
whichllm: CLI-Tool findet bestes lokales LLM für eigene Hardware
whichllm ist ein von Andyyyy64 entwickeltes Python-CLI-Tool, das die Frage beantwortet, welches lokale LLM auf der eigenen Hardware tatsächlich am besten läuft. Es erkennt automatisch NVIDIA-, AMD- und Apple-Silicon-GPUs sowie CPU-only-Setups und lädt Modelldaten live von der HuggingFace-API. Das Ranking basiert nicht auf der schieren Modellgröße, sondern auf zusammengeführten echten Benchmark-Scores aus LiveBench, Artificial Analysis, Aider, Chatbot Arena ELO und dem Open LLM Leaderboard. Jeder Score wird nach Evidenzgrad (direct / variant / base / interpolated / self-reported) gewichtet und ältere Leaderboard-Einträge entlang der Modell-Linie abgewertet. Für eine RTX 4090 (24 GB VRAM) wird beispielsweise Qwen3.6-27B in Q5_K_M mit Score 92.8 und ~27 t/s als Top-Pick ausgewiesen — obwohl Qwen3-32B ebenfalls ins VRAM passen würde. Das Tool unterstützt auch GPU-Simulation für Kaufplanung (`--gpu "RTX 5090"`), startet per `whichllm run` direkt eine Chat-Session via llama-cpp-python, AWQ oder FP16, und gibt per `whichllm snippet` fertigen Python-Code aus. Installation erfolgt über pipx, Homebrew oder pip.
- Für RTX 5090 (32 GB): Qwen3.6-27B · Q6_K · Score 94.7 · ~40 t/s als Top-Pick
- Für CPU-only: gpt-oss-20b (MoE) · Q4_K_M · Score 45.2 · ~6 t/s
- VRAM-Schätzung berücksichtigt Weights, GQA-KV-Cache, Aktivierungen, Overhead und MoE Active/Total-Split
- Task-Filter für general, coding, vision und math; JSON-Output für Pipeline-Integration via --json | jq
- Reverse-Lookup möglich: whichllm plan 'llama 3 70b' zeigt benötigte GPU-Klasse
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.