Sigilant-Sweep: CLI-Tool für Config-Benchmarks unter llama.cpp und vLLM
Sigilant-Sweep ist ein quelloffenes CLI-Tool, das systematische Konfigurations-Sweeps für lokale LLM-Backends (llama.cpp und vLLM) durchführt. Pro Lauf werden 16 Konfigurationen – bestehend aus Kombinationen von Quantisierungsstufen, KV-Cache-Präzision und Kontextgröße – über eine wählbare Anzahl Trials gemessen. Ermittelt werden TPS und TTFT als p50/p95-Werte sowie Perplexität auf einem festen 3.300-Token-Corpus aus gemischten Domänen. Die Ergebnisse werden zu einem Gesamtscore aggregiert, gewichtet nach einem der drei Profile „balanced", „latency" oder „quality". Ein zentrales technisches Problem war Nicht-Determinismus: Erst deterministisches Shuffling via zyklischem Offset stabilisierte die Ergebnisse auf 9 von 10 Runs. Auf einem Modal-L4-GPU mit Qwen2.5-7B (bartowski) erzielte Q4_K_M·ctx:8192·kv:k16v16 einen Score von 99 gegenüber 92 für Q8_0 – bei 74,5 vs. 63,8 TPS p95 und 1.856 ms vs. 2.130 ms TTFT p95. Der PPL-Unterschied beträgt lediglich 0,20 zugunsten von Q8_0. Ein Depth-Profile-Modus testet zusätzlich bei 8k-, 14k- und 28k-Promptlängen. Das Tool kennzeichnet explizit geringe Konfidenz, wenn der Abstand zwischen den Top-2-Configs innerhalb des Rauschbands liegt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Sigilant-Sweep: CLI-Tool für Config-Benchmarks unter llama.cpp und vLLM
Sigilant-Sweep ist ein quelloffenes CLI-Tool, das systematische Konfigurations-Sweeps für lokale LLM-Backends (llama.cpp und vLLM) durchführt. Pro Lauf werden 16 Konfigurationen – bestehend aus Kombinationen von Quantisierungsstufen, KV-Cache-Präzision und Kontextgröße – über eine wählbare Anzahl Trials gemessen. Ermittelt werden TPS und TTFT als p50/p95-Werte sowie Perplexität auf einem festen 3.300-Token-Corpus aus gemischten Domänen. Die Ergebnisse werden zu einem Gesamtscore aggregiert, gewichtet nach einem der drei Profile „balanced", „latency" oder „quality". Ein zentrales technisches Problem war Nicht-Determinismus: Erst deterministisches Shuffling via zyklischem Offset stabilisierte die Ergebnisse auf 9 von 10 Runs. Auf einem Modal-L4-GPU mit Qwen2.5-7B (bartowski) erzielte Q4_K_M·ctx:8192·kv:k16v16 einen Score von 99 gegenüber 92 für Q8_0 – bei 74,5 vs. 63,8 TPS p95 und 1.856 ms vs. 2.130 ms TTFT p95. Der PPL-Unterschied beträgt lediglich 0,20 zugunsten von Q8_0. Ein Depth-Profile-Modus testet zusätzlich bei 8k-, 14k- und 28k-Promptlängen. Das Tool kennzeichnet explizit geringe Konfidenz, wenn der Abstand zwischen den Top-2-Configs innerhalb des Rauschbands liegt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.