NVIDIA veröffentlicht DiffusionGemma 26B A4B als NVFP4-Quantisierung auf Hugging Face

ToolsGemini NVIDIA Hardware Hugging Face

CompaniesHugging Face NVIDIA Google DeepMind

Warum es zählt

Die NVFP4-Quantisierung ermöglicht den Einsatz des 25,2B-Parameter-MoE-Modells mit nur 3,8B aktiven Parametern auf Consumer-naher Hardware. Entwickler erhalten damit ein kommerzielle nutzbare, schnelle Inferenz-Option für multimodale Pipelines mit 256K Kontextfenster und nativer Funktionsaufruf-Unterstützung.

— Lumeric Redaktion

Quelle lesenreddit.com

>1.100 Token/Sek.

auf NVIDIA H100 (FP8) bei niedrigem Batch

Foundation Modelle Multimodal Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

NVIDIA veröffentlicht DiffusionGemma 26B A4B als NVFP4-Quantisierung auf Hugging Face

ToolsGemini NVIDIA Hardware Hugging Face

CompaniesHugging Face NVIDIA Google DeepMind

Warum es zählt

— Lumeric Redaktion

>1.100 Token/Sek.

auf NVIDIA H100 (FP8) bei niedrigem Batch

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

NVIDIA veröffentlicht DiffusionGemma 26B A4B als NVFP4-Quantisierung auf Hugging Face

Frag die KI zum Artikel

Verwandte Beiträge

NVIDIA veröffentlicht DiffusionGemma 26B A4B als NVFP4-Quantisierung auf Hugging Face

Frag die KI zum Artikel

Verwandte Beiträge