wird geladen

Krasis v1.0: MoE-Modelle mit 35B–122B Parametern auf Consumer-GPUs ab 8 GB VRAM · Lumeric

Beitrag

LAUNCH

reddit.com· r/LocalLLaMA1mo

Krasis v1.0: MoE-Modelle mit 35B–122B Parametern auf Consumer-GPUs ab 8 GB VRAM

ToolsQwen Llama

CompaniesPerplexity

Warum es zählt

Lokale Inferenz großer MoE-Modelle wird damit auf Consumer-Hardware mit wenig VRAM realistisch – auch ohne teure Workstation-GPUs. Die vollständige Rust-Ausführung im Hot-Path, neuer 4/6-Bit-KV-Cache und Ampere-Support machen Krasis zu einer ernstzunehmenden Alternative zu llama.cpp für VRAM-beschränkte Setups.

— Lumeric Redaktion

Krasis ist eine in Rust geschriebene LLM-Runtime, die Modelle effizienter aus dem System-RAM durch den VRAM streamt, als dies mit gängigen Runtimes möglich ist. Prefill und Decode werden als separate Architekturen behandelt und individuell optimiert. Mit dem v1.0-Release entfällt Python vollständig aus dem Hot-Path – der Python-GIL hatte bisher messbare Verzögerungen verursacht. Die Ergebnisse sind beeindruckend: Auf einem Laptop-GPU mit nur 8 GB VRAM (RTX 3070 Mobile) läuft Qwen3.6-35B-A3B (Q4) mit 12,48 tg und 222 pp/s – auf einem RTX 5090 mit 32 GB VRAM steigt die Decode-Rate auf 124,9 tg. Weitere Neuerungen umfassen einen neuen 4-Bit- und 6-Bit-KV-Cache (ohne FP8-Anforderungen, Ampere-kompatibel), Sensitivity-Aware HQQ-Attention (4/6/8 Bit, mischbar), deutlich reduzierten RAM-Bedarf (1× Modellgröße statt 2×) sowie dynamisches VRAM-Eviction bei externen Speicherveränderungen. AWQ-Attention wurde durch HQQ ersetzt, da kein vorgefertigtes Template mehr benötigt wird.

Quelle lesenreddit.com

Krasis v1.0 – Qwen3.6-35B-A3B Q4 Decode-Throughput · Spitzenwert

12.48%

RTX 3070 Mobile 8GB

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

MEINUNGreddit.com1w
Qwen3.5 122B auf RTX 5090: 6–20 t/s mit llama.cpp und RAM-Offloading

LAUNCH

reddit.com· r/LocalLLaMA1mo

Krasis v1.0: MoE-Modelle mit 35B–122B Parametern auf Consumer-GPUs ab 8 GB VRAM

ToolsQwen Llama

CompaniesPerplexity

Warum es zählt

Lokale Inferenz großer MoE-Modelle wird damit auf Consumer-Hardware mit wenig VRAM realistisch – auch ohne teure Workstation-GPUs. Die vollständige Rust-Ausführung im Hot-Path, neuer 4/6-Bit-KV-Cache und Ampere-Support machen Krasis zu einer ernstzunehmenden Alternative zu llama.cpp für VRAM-beschränkte Setups.

— Lumeric Redaktion

Krasis ist eine in Rust geschriebene LLM-Runtime, die Modelle effizienter aus dem System-RAM durch den VRAM streamt, als dies mit gängigen Runtimes möglich ist. Prefill und Decode werden als separate Architekturen behandelt und individuell optimiert. Mit dem v1.0-Release entfällt Python vollständig aus dem Hot-Path – der Python-GIL hatte bisher messbare Verzögerungen verursacht. Die Ergebnisse sind beeindruckend: Auf einem Laptop-GPU mit nur 8 GB VRAM (RTX 3070 Mobile) läuft Qwen3.6-35B-A3B (Q4) mit 12,48 tg und 222 pp/s – auf einem RTX 5090 mit 32 GB VRAM steigt die Decode-Rate auf 124,9 tg. Weitere Neuerungen umfassen einen neuen 4-Bit- und 6-Bit-KV-Cache (ohne FP8-Anforderungen, Ampere-kompatibel), Sensitivity-Aware HQQ-Attention (4/6/8 Bit, mischbar), deutlich reduzierten RAM-Bedarf (1× Modellgröße statt 2×) sowie dynamisches VRAM-Eviction bei externen Speicherveränderungen. AWQ-Attention wurde durch HQQ ersetzt, da kein vorgefertigtes Template mehr benötigt wird.

Krasis v1.0 – Qwen3.6-35B-A3B Q4 Decode-Throughput · Spitzenwert

12.48%

RTX 3070 Mobile 8GB

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

MEINUNGreddit.com1w
Qwen3.5 122B auf RTX 5090: 6–20 t/s mit llama.cpp und RAM-Offloading