wird geladen

Sigilant-Sweep: CLI-Tool für Config-Benchmarks unter llama.cpp und vLLM · Lumeric

Beitrag

LAUNCH

reddit.com· r/LocalLLaMA1mo

Sigilant-Sweep: CLI-Tool für Config-Benchmarks unter llama.cpp und vLLM

ToolsQwen Modal Llama

CompaniesPerplexity

Warum es zählt

Wer Modelle lokal oder auf Cloud-GPUs betreibt, bekommt mit Sigilant-Sweep hardware-spezifische p50/p95-Werte für TPS, TTFT und Perplexität statt generischer Benchmarks – und spart so Inferenz-Latenz ohne Qualitätsverlust.

— Lumeric Redaktion

Sigilant-Sweep ist ein quelloffenes CLI-Tool, das systematische Konfigurations-Sweeps für lokale LLM-Backends (llama.cpp und vLLM) durchführt. Pro Lauf werden 16 Konfigurationen – bestehend aus Kombinationen von Quantisierungsstufen, KV-Cache-Präzision und Kontextgröße – über eine wählbare Anzahl Trials gemessen. Ermittelt werden TPS und TTFT als p50/p95-Werte sowie Perplexität auf einem festen 3.300-Token-Corpus aus gemischten Domänen. Die Ergebnisse werden zu einem Gesamtscore aggregiert, gewichtet nach einem der drei Profile „balanced", „latency" oder „quality". Ein zentrales technisches Problem war Nicht-Determinismus: Erst deterministisches Shuffling via zyklischem Offset stabilisierte die Ergebnisse auf 9 von 10 Runs. Auf einem Modal-L4-GPU mit Qwen2.5-7B (bartowski) erzielte Q4_K_M·ctx:8192·kv:k16v16 einen Score von 99 gegenüber 92 für Q8_0 – bei 74,5 vs. 63,8 TPS p95 und 1.856 ms vs. 2.130 ms TTFT p95. Der PPL-Unterschied beträgt lediglich 0,20 zugunsten von Q8_0. Ein Depth-Profile-Modus testet zusätzlich bei 8k-, 14k- und 28k-Promptlängen. Das Tool kennzeichnet explizit geringe Konfidenz, wenn der Abstand zwischen den Top-2-Configs innerhalb des Rauschbands liegt.

Quelle lesenreddit.com

Inferenz Infra Open Source Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

LAUNCH

reddit.com· r/LocalLLaMA1mo

Sigilant-Sweep: CLI-Tool für Config-Benchmarks unter llama.cpp und vLLM

ToolsQwen Modal Llama

CompaniesPerplexity

Warum es zählt

Wer Modelle lokal oder auf Cloud-GPUs betreibt, bekommt mit Sigilant-Sweep hardware-spezifische p50/p95-Werte für TPS, TTFT und Perplexität statt generischer Benchmarks – und spart so Inferenz-Latenz ohne Qualitätsverlust.

— Lumeric Redaktion

Sigilant-Sweep ist ein quelloffenes CLI-Tool, das systematische Konfigurations-Sweeps für lokale LLM-Backends (llama.cpp und vLLM) durchführt. Pro Lauf werden 16 Konfigurationen – bestehend aus Kombinationen von Quantisierungsstufen, KV-Cache-Präzision und Kontextgröße – über eine wählbare Anzahl Trials gemessen. Ermittelt werden TPS und TTFT als p50/p95-Werte sowie Perplexität auf einem festen 3.300-Token-Corpus aus gemischten Domänen. Die Ergebnisse werden zu einem Gesamtscore aggregiert, gewichtet nach einem der drei Profile „balanced", „latency" oder „quality". Ein zentrales technisches Problem war Nicht-Determinismus: Erst deterministisches Shuffling via zyklischem Offset stabilisierte die Ergebnisse auf 9 von 10 Runs. Auf einem Modal-L4-GPU mit Qwen2.5-7B (bartowski) erzielte Q4_K_M·ctx:8192·kv:k16v16 einen Score von 99 gegenüber 92 für Q8_0 – bei 74,5 vs. 63,8 TPS p95 und 1.856 ms vs. 2.130 ms TTFT p95. Der PPL-Unterschied beträgt lediglich 0,20 zugunsten von Q8_0. Ein Depth-Profile-Modus testet zusätzlich bei 8k-, 14k- und 28k-Promptlängen. Das Tool kennzeichnet explizit geringe Konfidenz, wenn der Abstand zwischen den Top-2-Configs innerhalb des Rauschbands liegt.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge