wird geladen

NVIDIA veröffentlicht NVFP4-Quantisierungen von Kimi-K2.6 und Kimi-K2.5 · Lumeric

Beitrag

LAUNCH

reddit.com· r/LocalLLaMA2w

NVIDIA veröffentlicht NVFP4-Quantisierungen von Kimi-K2.6 und Kimi-K2.5

ToolsNVIDIA Hardware Hugging Face

CompaniesHugging Face NVIDIA Moonshot AI

Warum es zählt

NVFP4-Quantisierung hält die Benchmark-Werte von Kimi-K2.6 nahezu auf INT4-Baseline-Niveau (z. B. GPQA Diamond: 90,4 vs. 90,9), ermöglicht aber effizienteres Deployment auf NVIDIA-Hardware — relevant für alle, die große MoE-Modelle lokal oder im Rechenzentrum betreiben wollen.

— Lumeric Redaktion

NVIDIA hat über HuggingFace zwei neue NVFP4-quantisierte Modelle veröffentlicht: Kimi-K2.6-NVFP4 und Kimi-K2.5-NVFP4, basierend auf den Originalmodellen von Moonshot AI. Die Quantisierung erfolgte mit NVIDIAs eigenem Model Optimizer. Kimi-K2.6 ist ein autoreggressives Sprachmodell mit optimierter Transformer-Architektur im nativen INT4-Format; die NVFP4-Variante dient als deployment-optimierte Alternative. Laut den veröffentlichten Benchmark-Tabellen bleibt die Genauigkeit über mehrere Evals hinweg sehr nah am INT4-Baseline: GPQA Diamond 90,4 (Baseline 90,9), SciCode 54,4 (Baseline 52,6), τ²-Bench Telecom 98,0 (Baseline 98,2), MMMU Pro 76,5 (Baseline 75,6), AA-LCR 71,8 (Baseline 71,0) und IFBench 73,9 (identisch). Beide Modelle sind für kommerzielle und nicht-kommerzielle Nutzung freigegeben. Die Quantisierung mit NVFP4 zielt darauf ab, Speicherbedarf und Inferenzlatenz auf NVIDIA-GPUs zu reduzieren, ohne merkliche Qualitätsverluste zu erzeugen.

Quelle lesenreddit.com

GPQA Diamond · Spitzenwert

90.9%

Kimi-K2.6 Baseline (INT4)

Foundation Modelle Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

LAUNCH

reddit.com· r/LocalLLaMA2w

NVIDIA veröffentlicht NVFP4-Quantisierungen von Kimi-K2.6 und Kimi-K2.5

ToolsNVIDIA Hardware Hugging Face

CompaniesHugging Face NVIDIA Moonshot AI

Warum es zählt

NVFP4-Quantisierung hält die Benchmark-Werte von Kimi-K2.6 nahezu auf INT4-Baseline-Niveau (z. B. GPQA Diamond: 90,4 vs. 90,9), ermöglicht aber effizienteres Deployment auf NVIDIA-Hardware — relevant für alle, die große MoE-Modelle lokal oder im Rechenzentrum betreiben wollen.

— Lumeric Redaktion

NVIDIA hat über HuggingFace zwei neue NVFP4-quantisierte Modelle veröffentlicht: Kimi-K2.6-NVFP4 und Kimi-K2.5-NVFP4, basierend auf den Originalmodellen von Moonshot AI. Die Quantisierung erfolgte mit NVIDIAs eigenem Model Optimizer. Kimi-K2.6 ist ein autoreggressives Sprachmodell mit optimierter Transformer-Architektur im nativen INT4-Format; die NVFP4-Variante dient als deployment-optimierte Alternative. Laut den veröffentlichten Benchmark-Tabellen bleibt die Genauigkeit über mehrere Evals hinweg sehr nah am INT4-Baseline: GPQA Diamond 90,4 (Baseline 90,9), SciCode 54,4 (Baseline 52,6), τ²-Bench Telecom 98,0 (Baseline 98,2), MMMU Pro 76,5 (Baseline 75,6), AA-LCR 71,8 (Baseline 71,0) und IFBench 73,9 (identisch). Beide Modelle sind für kommerzielle und nicht-kommerzielle Nutzung freigegeben. Die Quantisierung mit NVFP4 zielt darauf ab, Speicherbedarf und Inferenzlatenz auf NVIDIA-GPUs zu reduzieren, ohne merkliche Qualitätsverluste zu erzeugen.

GPQA Diamond · Spitzenwert

90.9%

Kimi-K2.6 Baseline (INT4)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge