Krasis v1.0: MoE-Modelle mit 35B–122B Parametern auf Consumer-GPUs ab 8 GB VRAM
Krasis ist eine in Rust geschriebene LLM-Runtime, die Modelle effizienter aus dem System-RAM durch den VRAM streamt, als dies mit gängigen Runtimes möglich ist. Prefill und Decode werden als separate Architekturen behandelt und individuell optimiert. Mit dem v1.0-Release entfällt Python vollständig aus dem Hot-Path – der Python-GIL hatte bisher messbare Verzögerungen verursacht. Die Ergebnisse sind beeindruckend: Auf einem Laptop-GPU mit nur 8 GB VRAM (RTX 3070 Mobile) läuft Qwen3.6-35B-A3B (Q4) mit 12,48 tg und 222 pp/s – auf einem RTX 5090 mit 32 GB VRAM steigt die Decode-Rate auf 124,9 tg. Weitere Neuerungen umfassen einen neuen 4-Bit- und 6-Bit-KV-Cache (ohne FP8-Anforderungen, Ampere-kompatibel), Sensitivity-Aware HQQ-Attention (4/6/8 Bit, mischbar), deutlich reduzierten RAM-Bedarf (1× Modellgröße statt 2×) sowie dynamisches VRAM-Eviction bei externen Speicherveränderungen. AWQ-Attention wurde durch HQQ ersetzt, da kein vorgefertigtes Template mehr benötigt wird.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Krasis v1.0: MoE-Modelle mit 35B–122B Parametern auf Consumer-GPUs ab 8 GB VRAM
Krasis ist eine in Rust geschriebene LLM-Runtime, die Modelle effizienter aus dem System-RAM durch den VRAM streamt, als dies mit gängigen Runtimes möglich ist. Prefill und Decode werden als separate Architekturen behandelt und individuell optimiert. Mit dem v1.0-Release entfällt Python vollständig aus dem Hot-Path – der Python-GIL hatte bisher messbare Verzögerungen verursacht. Die Ergebnisse sind beeindruckend: Auf einem Laptop-GPU mit nur 8 GB VRAM (RTX 3070 Mobile) läuft Qwen3.6-35B-A3B (Q4) mit 12,48 tg und 222 pp/s – auf einem RTX 5090 mit 32 GB VRAM steigt die Decode-Rate auf 124,9 tg. Weitere Neuerungen umfassen einen neuen 4-Bit- und 6-Bit-KV-Cache (ohne FP8-Anforderungen, Ampere-kompatibel), Sensitivity-Aware HQQ-Attention (4/6/8 Bit, mischbar), deutlich reduzierten RAM-Bedarf (1× Modellgröße statt 2×) sowie dynamisches VRAM-Eviction bei externen Speicherveränderungen. AWQ-Attention wurde durch HQQ ersetzt, da kein vorgefertigtes Template mehr benötigt wird.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.