LlamaStation v0.9: llama.cpp-GUI für Windows mit Multi-Backend und TurboQuant

Toolsv0 Ollama LM Studio Whisper Qwen Llama Vercel

Warum es zählt

Wer llama.cpp lokal ohne Overhead von Ollama oder LM Studio betreiben will, bekommt mit LlamaStation eine GUI, die jeden Parameter direkt an llama-server übergibt – inklusive asymmetrischer KV-Cache-Quantisierung via TurboQuant für sehr lange Kontextfenster auf Consumer-Hardware.

— Lumeric Redaktion

LlamaStation v0.9 ist ein von einem Hobby-Entwickler mit KI-Unterstützung gebautes Windows-Frontend für llama.cpp. Im Kern startet die App llama-server.exe direkt als Subprocess – ohne zusätzliche Abstraktionsschicht oder Daemon, wie sie etwa Ollama einsetzt. Dadurch werden alle konfigurierten Parameter 1:1 an das Binary übergeben. Besonderes Merkmal ist die Unterstützung mehrerer llama.cpp-Forks, die direkt aus der UI heraus gewechselt werden können: neben dem offiziellen Build (mit MTP-Support seit PR #22673) stehen der TurboQuant-Fork mit asymmetrischer KV-Cache-Quantisierung, AtomicChat (TurboQuant + MTP kombiniert) und BeeLlama (DFlash + TurboQuant, experimentell) zur Verfügung. Der Entwickler betreibt das Tool auf Dual-RTX-3060-Hardware (24 GB VRAM gesamt) und erreicht damit mit Qwen3 27B Q4_K_M und aktiviertem TurboQuant-KV-Cache 177k Kontext. MTP steigert den Durchsatz von ~17 tok/s auf ~29 tok/s beim Start und hält den Wert auch bei langen Antworten auf ~22 tok/s stabil. Weitere Features: Echtzeit-VRAM-Anzeige je GPU, modellspezifische Profile, Offline-Voice-Modus via XTTS v2 und faster-whisper sowie ein Headless-Modus für Server-Automatisierungen. Das Projekt steht unter MIT-Lizenz, ist ohne Telemetrie und sucht Beiträge für einen Linux/Mac-Port.

Quelle lesenreddit.com

Open Source Inferenz Infra Developer Tooling