
NVIDIA führt 4-Bit-Pretraining mit NVFP4 ein, validiert auf 12B Hybrid-Mamba-Transformer
NVIDIA stellt eine vollständige 4-Bit-Pretraining-Pipeline vor, die auf dem eigenen NVFP4-Mikroskaliierungsformat basiert. Kernbestandteile der Methodik sind: selektive Beibehaltung von BF16 in bestimmten Schichten, 16×16 Random Hadamard Transforms auf Wgrad-Eingaben, 2D-Gewichtsskalierung sowie stochastisches Runden bei Gradienten. Validiert wurde das Verfahren an einem 12-Milliarden-Parameter-Modell in einer hybriden Mamba-Transformer-Architektur, das über 10 Billionen Token trainiert wurde. Damit ist dies der längste öffentlich dokumentierte 4-Bit-Pretraining-Lauf überhaupt. Auf dem MMLU-Pro-Benchmark erzielt das NVFP4-Modell 62,58 % gegenüber 62,62 % des FP8-Baselines – eine Differenz von lediglich 0,04 Prozentpunkten. Die Ergebnisse legen nahe, dass 4-Bit-Pretraining mit geeigneten Stabilisierungstechniken qualitativ mit FP8-Training gleichzuziehen vermag, bei gleichzeitig niedrigerem Speicherbedarf und potenziell höherem Durchsatz auf kompatibler Hardware.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

NVIDIA führt 4-Bit-Pretraining mit NVFP4 ein, validiert auf 12B Hybrid-Mamba-Transformer
NVIDIA stellt eine vollständige 4-Bit-Pretraining-Pipeline vor, die auf dem eigenen NVFP4-Mikroskaliierungsformat basiert. Kernbestandteile der Methodik sind: selektive Beibehaltung von BF16 in bestimmten Schichten, 16×16 Random Hadamard Transforms auf Wgrad-Eingaben, 2D-Gewichtsskalierung sowie stochastisches Runden bei Gradienten. Validiert wurde das Verfahren an einem 12-Milliarden-Parameter-Modell in einer hybriden Mamba-Transformer-Architektur, das über 10 Billionen Token trainiert wurde. Damit ist dies der längste öffentlich dokumentierte 4-Bit-Pretraining-Lauf überhaupt. Auf dem MMLU-Pro-Benchmark erzielt das NVFP4-Modell 62,58 % gegenüber 62,62 % des FP8-Baselines – eine Differenz von lediglich 0,04 Prozentpunkten. Die Ergebnisse legen nahe, dass 4-Bit-Pretraining mit geeigneten Stabilisierungstechniken qualitativ mit FP8-Training gleichzuziehen vermag, bei gleichzeitig niedrigerem Speicherbedarf und potenziell höherem Durchsatz auf kompatibler Hardware.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.