whichllm: CLI-Tool findet bestes lokales LLM für eigene Hardware

ToolsGPT Qwen NVIDIA Hardware Aider Llama Hugging Face

Warum es zählt

Wer lokale Modelle betreiben will, bekommt mit whichllm evidence-basierte Empfehlungen aus zusammengeführten Benchmarks (LiveBench, Chatbot Arena, Aider u. a.) statt bloßer VRAM-Heuristiken — inklusive GPU-Simulation vor dem Hardwarekauf und Einzel-Befehl-Chat-Start.

— Lumeric Redaktion

whichllm ist ein von Andyyyy64 entwickeltes Python-CLI-Tool, das die Frage beantwortet, welches lokale LLM auf der eigenen Hardware tatsächlich am besten läuft. Es erkennt automatisch NVIDIA-, AMD- und Apple-Silicon-GPUs sowie CPU-only-Setups und lädt Modelldaten live von der HuggingFace-API. Das Ranking basiert nicht auf der schieren Modellgröße, sondern auf zusammengeführten echten Benchmark-Scores aus LiveBench, Artificial Analysis, Aider, Chatbot Arena ELO und dem Open LLM Leaderboard. Jeder Score wird nach Evidenzgrad (direct / variant / base / interpolated / self-reported) gewichtet und ältere Leaderboard-Einträge entlang der Modell-Linie abgewertet. Für eine RTX 4090 (24 GB VRAM) wird beispielsweise Qwen3.6-27B in Q5_K_M mit Score 92.8 und ~27 t/s als Top-Pick ausgewiesen — obwohl Qwen3-32B ebenfalls ins VRAM passen würde. Das Tool unterstützt auch GPU-Simulation für Kaufplanung (`--gpu "RTX 5090"`), startet per `whichllm run` direkt eine Chat-Session via llama-cpp-python, AWQ oder FP16, und gibt per `whichllm snippet` fertigen Python-Code aus. Installation erfolgt über pipx, Homebrew oder pip.

Was wir noch wissen

Für RTX 5090 (32 GB): Qwen3.6-27B · Q6_K · Score 94.7 · ~40 t/s als Top-Pick
Für CPU-only: gpt-oss-20b (MoE) · Q4_K_M · Score 45.2 · ~6 t/s
VRAM-Schätzung berücksichtigt Weights, GQA-KV-Cache, Aktivierungen, Overhead und MoE Active/Total-Split
Task-Filter für general, coding, vision und math; JSON-Output für Pipeline-Integration via --json | jq
Reverse-Lookup möglich: whichllm plan 'llama 3 70b' zeigt benötigte GPU-Klasse

Quelle lesengithub.com

Foundation Modelle Open Source Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

whichllm: CLI-Tool findet bestes lokales LLM für eigene Hardware

ToolsGPT Qwen NVIDIA Hardware Aider Llama Hugging Face

CompaniesHugging Face NVIDIA AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Für RTX 5090 (32 GB): Qwen3.6-27B · Q6_K · Score 94.7 · ~40 t/s als Top-Pick
Für CPU-only: gpt-oss-20b (MoE) · Q4_K_M · Score 45.2 · ~6 t/s
VRAM-Schätzung berücksichtigt Weights, GQA-KV-Cache, Aktivierungen, Overhead und MoE Active/Total-Split
Task-Filter für general, coding, vision und math; JSON-Output für Pipeline-Integration via --json | jq
Reverse-Lookup möglich: whichllm plan 'llama 3 70b' zeigt benötigte GPU-Klasse

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

whichllm: CLI-Tool findet bestes lokales LLM für eigene Hardware

Frag die KI zum Artikel

Verwandte Beiträge

whichllm: CLI-Tool findet bestes lokales LLM für eigene Hardware

Frag die KI zum Artikel

Verwandte Beiträge