KVANTA: Neuer Open-Source-KV-Cache-Rechner für Hugging-Face-Modelle

Warum es zählt

Wer lokale Modelle betreibt, kann mit KVANTA schnell den KV-Cache-Speicherbedarf abschätzen, ohne eigene Berechnungen anstellen zu müssen – direkt im Browser, für jedes Hugging-Face-Modell.

— Lumeric Redaktion

KVANTA ist ein webbasierter KV-Cache-Kalkulator, der vom Reddit-Nutzer /u/Fun-Purple-7737 als Reaktion auf die als unzureichend empfundenen bestehenden Tools entwickelt wurde. Die Anwendung ist unter kvanta.vcerny.cz erreichbar und soll prinzipiell jedes LLM oder VLM aus dem Hugging-Face-Hub unterstützen. Der Quellcode steht unter der Apache-2.0-Lizenz zur freien Nutzung und Weiterentwicklung bereit. KV-Cache-Berechnungen sind für alle relevant, die Inferenz-Hardware planen oder den VRAM-Bedarf für große Kontextfenster abschätzen wollen – gerade bei lokalen Deployments ein häufiger Schmerzpunkt. Der Autor lädt die Community ein, fehlende Modell-Unterstützung zu melden.

Was wir noch wissen

Erreichbar unter kvanta.vcerny.cz, kostenlos und webbasiert ohne lokale Installation.
Unterstützt nach Angaben des Autors beliebige LLMs und VLMs aus dem Hugging-Face-Hub.
Quellcode unter Apache-2.0-Lizenz veröffentlicht — kommerzielle Nutzung und Forks erlaubt.
Community kann fehlende Modell-Unterstützung direkt beim Autor melden.

Quelle lesenreddit.com

Inferenz Infra Developer Tooling Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

KVANTA: Neuer Open-Source-KV-Cache-Rechner für Hugging-Face-Modelle

ToolsHugging Face

CompaniesHugging Face

Warum es zählt

Wer lokale Modelle betreibt, kann mit KVANTA schnell den KV-Cache-Speicherbedarf abschätzen, ohne eigene Berechnungen anstellen zu müssen – direkt im Browser, für jedes Hugging-Face-Modell.

— Lumeric Redaktion

Was wir noch wissen

Erreichbar unter kvanta.vcerny.cz, kostenlos und webbasiert ohne lokale Installation.
Unterstützt nach Angaben des Autors beliebige LLMs und VLMs aus dem Hugging-Face-Hub.
Quellcode unter Apache-2.0-Lizenz veröffentlicht — kommerzielle Nutzung und Forks erlaubt.
Community kann fehlende Modell-Unterstützung direkt beim Autor melden.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

KVANTA: Neuer Open-Source-KV-Cache-Rechner für Hugging-Face-Modelle

Frag die KI zum Artikel

Verwandte Beiträge

KVANTA: Neuer Open-Source-KV-Cache-Rechner für Hugging-Face-Modelle

Frag die KI zum Artikel

Verwandte Beiträge