Step-3.7-Flash 198B-MoE: IQ3_XXS resident schlägt IQ4 mit Spill um 2,4×

CompaniesNVIDIA

Warum es zählt

Für lokale MoE-Deployments gilt: VRAM-Residenz schlägt Quantisierungsqualität. Wer MTP-Spekulativdecodierung nutzt, muss zwischen Text-Speed und Vision-Fähigkeit wählen – beide gleichzeitig sind engine-seitig nicht möglich. KV-Cache auf q4_0 kann den nötigen VRAM-Puffer schaffen.

— Lumeric Redaktion

Quelle lesenreddit.com

Inference Throughput (t/s) auf 4×3090 · Spitzenwert

33%

IQ4_XS (spill ~20%)

Inferenz Infra Open Source Multimodal

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Step-3.7-Flash 198B-MoE: IQ3_XXS resident schlägt IQ4 mit Spill um 2,4×

ToolsNVIDIA Hardware Llama

CompaniesNVIDIA

Warum es zählt

— Lumeric Redaktion

Inference Throughput (t/s) auf 4×3090 · Spitzenwert

33%

IQ4_XS (spill ~20%)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Step-3.7-Flash 198B-MoE: IQ3_XXS resident schlägt IQ4 mit Spill um 2,4×

Frag die KI zum Artikel

Verwandte Beiträge

Step-3.7-Flash 198B-MoE: IQ3_XXS resident schlägt IQ4 mit Spill um 2,4×

Frag die KI zum Artikel

Verwandte Beiträge