NVIDIA veröffentlicht NVFP4-Quantisierungen von Kimi-K2.6 und Kimi-K2.5
NVIDIA hat über HuggingFace zwei neue NVFP4-quantisierte Modelle veröffentlicht: Kimi-K2.6-NVFP4 und Kimi-K2.5-NVFP4, basierend auf den Originalmodellen von Moonshot AI. Die Quantisierung erfolgte mit NVIDIAs eigenem Model Optimizer. Kimi-K2.6 ist ein autoreggressives Sprachmodell mit optimierter Transformer-Architektur im nativen INT4-Format; die NVFP4-Variante dient als deployment-optimierte Alternative. Laut den veröffentlichten Benchmark-Tabellen bleibt die Genauigkeit über mehrere Evals hinweg sehr nah am INT4-Baseline: GPQA Diamond 90,4 (Baseline 90,9), SciCode 54,4 (Baseline 52,6), τ²-Bench Telecom 98,0 (Baseline 98,2), MMMU Pro 76,5 (Baseline 75,6), AA-LCR 71,8 (Baseline 71,0) und IFBench 73,9 (identisch). Beide Modelle sind für kommerzielle und nicht-kommerzielle Nutzung freigegeben. Die Quantisierung mit NVFP4 zielt darauf ab, Speicherbedarf und Inferenzlatenz auf NVIDIA-GPUs zu reduzieren, ohne merkliche Qualitätsverluste zu erzeugen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
NVIDIA veröffentlicht NVFP4-Quantisierungen von Kimi-K2.6 und Kimi-K2.5
NVIDIA hat über HuggingFace zwei neue NVFP4-quantisierte Modelle veröffentlicht: Kimi-K2.6-NVFP4 und Kimi-K2.5-NVFP4, basierend auf den Originalmodellen von Moonshot AI. Die Quantisierung erfolgte mit NVIDIAs eigenem Model Optimizer. Kimi-K2.6 ist ein autoreggressives Sprachmodell mit optimierter Transformer-Architektur im nativen INT4-Format; die NVFP4-Variante dient als deployment-optimierte Alternative. Laut den veröffentlichten Benchmark-Tabellen bleibt die Genauigkeit über mehrere Evals hinweg sehr nah am INT4-Baseline: GPQA Diamond 90,4 (Baseline 90,9), SciCode 54,4 (Baseline 52,6), τ²-Bench Telecom 98,0 (Baseline 98,2), MMMU Pro 76,5 (Baseline 75,6), AA-LCR 71,8 (Baseline 71,0) und IFBench 73,9 (identisch). Beide Modelle sind für kommerzielle und nicht-kommerzielle Nutzung freigegeben. Die Quantisierung mit NVFP4 zielt darauf ab, Speicherbedarf und Inferenzlatenz auf NVIDIA-GPUs zu reduzieren, ohne merkliche Qualitätsverluste zu erzeugen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.