BitCPM-CANN: 1,58-Bit-LLM-Training nativ auf Huawei Ascend NPU
BitCPM-CANN ist eine systematische Studie von OpenBMB zur 1,58-Bit-Quantisierung-bewusstem Training (QAT) auf der Huawei Ascend NPU-Plattform. Das Team portierte eine bestehende GPU-Pipeline auf CANN, MindSpeed und Megatron-LM und trainierte vier Modellgrößen (0,5B, 1B, 3B, 8B), die in Architektur und Trainingsdaten exakt den Full-Precision-Pendants MiniCPM4 entsprechen. Die 1B-, 3B- und 8B-Varianten erreichen 95,7–97,2 % der vollen Präzisionsleistung über 11 Benchmarks in den Bereichen Commonsense Reasoning, Domänenwissen sowie Mathematik. Die 3B-Variante erzielt Parität auf dem BBH-Benchmark, und die 3B/8B-Modelle erholen sich fast vollständig auf GSM8K. Das 0,5B-Modell kommt auf 90,1 %, wobei der Rückstand hauptsächlich bei Mathematik liegt – ein Hinweis, dass bei sub-milliardenskaligen Modellen die Modellkapazität, nicht der Quantisierer, der Flaschenhals ist. Der QAT-Overhead beträgt lediglich 4,5 % Trainingsdurchsatz (148 vs. 155 TFLOP/s pro NPU). Zur Inferenz ermöglicht das Format bis zu 8× Gewichts-Speicherreduktion (ca. 6× End-to-End inklusive Skalierungsfaktoren). Nach Angaben der Autoren ist dies das erste End-to-End-1,58-Bit-Trainingssystem auf einem domestischen NPU skaliert bis 8B Parameter.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com6d
OpenBMB testet BitCPM-CANN 1,58-Bit-Modell auf Huawei Ascend 910B
- LAUNCHreddit.com1w
OpenBMB veröffentlicht BitCPM4-CANN in drei Größen: 1B, 3B und 8B
- FORSCHUNGreddit.com3d
Custom C++ Engine verdoppelt MiniCPM-V 4.6 auf Orange Pi AIPro auf 5,90 Token/s
- FORSCHUNGmarktechpost.com1w
NVIDIA führt 4-Bit-Pretraining mit NVFP4 ein, validiert auf 12B Hybrid-Mamba-Transformer
BitCPM-CANN: 1,58-Bit-LLM-Training nativ auf Huawei Ascend NPU
BitCPM-CANN ist eine systematische Studie von OpenBMB zur 1,58-Bit-Quantisierung-bewusstem Training (QAT) auf der Huawei Ascend NPU-Plattform. Das Team portierte eine bestehende GPU-Pipeline auf CANN, MindSpeed und Megatron-LM und trainierte vier Modellgrößen (0,5B, 1B, 3B, 8B), die in Architektur und Trainingsdaten exakt den Full-Precision-Pendants MiniCPM4 entsprechen. Die 1B-, 3B- und 8B-Varianten erreichen 95,7–97,2 % der vollen Präzisionsleistung über 11 Benchmarks in den Bereichen Commonsense Reasoning, Domänenwissen sowie Mathematik. Die 3B-Variante erzielt Parität auf dem BBH-Benchmark, und die 3B/8B-Modelle erholen sich fast vollständig auf GSM8K. Das 0,5B-Modell kommt auf 90,1 %, wobei der Rückstand hauptsächlich bei Mathematik liegt – ein Hinweis, dass bei sub-milliardenskaligen Modellen die Modellkapazität, nicht der Quantisierer, der Flaschenhals ist. Der QAT-Overhead beträgt lediglich 4,5 % Trainingsdurchsatz (148 vs. 155 TFLOP/s pro NPU). Zur Inferenz ermöglicht das Format bis zu 8× Gewichts-Speicherreduktion (ca. 6× End-to-End inklusive Skalierungsfaktoren). Nach Angaben der Autoren ist dies das erste End-to-End-1,58-Bit-Trainingssystem auf einem domestischen NPU skaliert bis 8B Parameter.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com6d
OpenBMB testet BitCPM-CANN 1,58-Bit-Modell auf Huawei Ascend 910B
- LAUNCHreddit.com1w
OpenBMB veröffentlicht BitCPM4-CANN in drei Größen: 1B, 3B und 8B
- FORSCHUNGreddit.com3d
Custom C++ Engine verdoppelt MiniCPM-V 4.6 auf Orange Pi AIPro auf 5,90 Token/s
- FORSCHUNGmarktechpost.com1w
NVIDIA führt 4-Bit-Pretraining mit NVFP4 ein, validiert auf 12B Hybrid-Mamba-Transformer