Step-3.7-Flash 198B-MoE: IQ3_XXS resident schlägt IQ4 mit Spill um 2,4×
CompaniesNVIDIA
Warum es zählt
Für lokale MoE-Deployments gilt: VRAM-Residenz schlägt Quantisierungsqualität. Wer MTP-Spekulativdecodierung nutzt, muss zwischen Text-Speed und Vision-Fähigkeit wählen – beide gleichzeitig sind engine-seitig nicht möglich. KV-Cache auf q4_0 kann den nötigen VRAM-Puffer schaffen.
— Lumeric Redaktion
Inference Throughput (t/s) auf 4×3090 · Spitzenwert
33%
IQ4_XS (spill ~20%)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Step-3.7-Flash 198B-MoE: IQ3_XXS resident schlägt IQ4 mit Spill um 2,4×
CompaniesNVIDIA
Warum es zählt
Für lokale MoE-Deployments gilt: VRAM-Residenz schlägt Quantisierungsqualität. Wer MTP-Spekulativdecodierung nutzt, muss zwischen Text-Speed und Vision-Fähigkeit wählen – beide gleichzeitig sind engine-seitig nicht möglich. KV-Cache auf q4_0 kann den nötigen VRAM-Puffer schaffen.
— Lumeric Redaktion
Inference Throughput (t/s) auf 4×3090 · Spitzenwert
33%
IQ4_XS (spill ~20%)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.