wird geladen

BitCPM-CANN: 1,58-Bit-LLM-Training nativ auf Huawei Ascend NPU · Lumeric

Beitrag

FORSCHUNG

reddit.com· r/LocalLLaMA1mo

BitCPM-CANN: 1,58-Bit-LLM-Training nativ auf Huawei Ascend NPU

ToolsQwen Hugging Face

CompaniesHugging Face

Warum es zählt

Ternäres Training außerhalb des CUDA-Ökosystems wird erstmals bis 8B Parametern demonstriert, mit nur 4,5 % Durchsatz-Overhead und bis zu 8× Gewichts-Speicherersparnis – das macht Ascend-NPUs zu einer ernsthaften Alternative für Low-Bit-Training.

— Lumeric Redaktion

BitCPM-CANN ist eine systematische Studie von OpenBMB zur 1,58-Bit-Quantisierung-bewusstem Training (QAT) auf der Huawei Ascend NPU-Plattform. Das Team portierte eine bestehende GPU-Pipeline auf CANN, MindSpeed und Megatron-LM und trainierte vier Modellgrößen (0,5B, 1B, 3B, 8B), die in Architektur und Trainingsdaten exakt den Full-Precision-Pendants MiniCPM4 entsprechen. Die 1B-, 3B- und 8B-Varianten erreichen 95,7–97,2 % der vollen Präzisionsleistung über 11 Benchmarks in den Bereichen Commonsense Reasoning, Domänenwissen sowie Mathematik. Die 3B-Variante erzielt Parität auf dem BBH-Benchmark, und die 3B/8B-Modelle erholen sich fast vollständig auf GSM8K. Das 0,5B-Modell kommt auf 90,1 %, wobei der Rückstand hauptsächlich bei Mathematik liegt – ein Hinweis, dass bei sub-milliardenskaligen Modellen die Modellkapazität, nicht der Quantisierer, der Flaschenhals ist. Der QAT-Overhead beträgt lediglich 4,5 % Trainingsdurchsatz (148 vs. 155 TFLOP/s pro NPU). Zur Inferenz ermöglicht das Format bis zu 8× Gewichts-Speicherreduktion (ca. 6× End-to-End inklusive Skalierungsfaktoren). Nach Angaben der Autoren ist dies das erste End-to-End-1,58-Bit-Trainingssystem auf einem domestischen NPU skaliert bis 8B Parameter.

Quelle lesenreddit.com

95,7–97,2 %

Full-Precision-Leistung (1B/3B/8B, 11 Benchmarks)

Foundation Modelle Inferenz Infra Chips Silizium

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

FORSCHUNG

reddit.com· r/LocalLLaMA1mo

BitCPM-CANN: 1,58-Bit-LLM-Training nativ auf Huawei Ascend NPU

ToolsQwen Hugging Face

CompaniesHugging Face

Warum es zählt

Ternäres Training außerhalb des CUDA-Ökosystems wird erstmals bis 8B Parametern demonstriert, mit nur 4,5 % Durchsatz-Overhead und bis zu 8× Gewichts-Speicherersparnis – das macht Ascend-NPUs zu einer ernsthaften Alternative für Low-Bit-Training.

— Lumeric Redaktion

BitCPM-CANN ist eine systematische Studie von OpenBMB zur 1,58-Bit-Quantisierung-bewusstem Training (QAT) auf der Huawei Ascend NPU-Plattform. Das Team portierte eine bestehende GPU-Pipeline auf CANN, MindSpeed und Megatron-LM und trainierte vier Modellgrößen (0,5B, 1B, 3B, 8B), die in Architektur und Trainingsdaten exakt den Full-Precision-Pendants MiniCPM4 entsprechen. Die 1B-, 3B- und 8B-Varianten erreichen 95,7–97,2 % der vollen Präzisionsleistung über 11 Benchmarks in den Bereichen Commonsense Reasoning, Domänenwissen sowie Mathematik. Die 3B-Variante erzielt Parität auf dem BBH-Benchmark, und die 3B/8B-Modelle erholen sich fast vollständig auf GSM8K. Das 0,5B-Modell kommt auf 90,1 %, wobei der Rückstand hauptsächlich bei Mathematik liegt – ein Hinweis, dass bei sub-milliardenskaligen Modellen die Modellkapazität, nicht der Quantisierer, der Flaschenhals ist. Der QAT-Overhead beträgt lediglich 4,5 % Trainingsdurchsatz (148 vs. 155 TFLOP/s pro NPU). Zur Inferenz ermöglicht das Format bis zu 8× Gewichts-Speicherreduktion (ca. 6× End-to-End inklusive Skalierungsfaktoren). Nach Angaben der Autoren ist dies das erste End-to-End-1,58-Bit-Trainingssystem auf einem domestischen NPU skaliert bis 8B Parameter.

95,7–97,2 %

Full-Precision-Leistung (1B/3B/8B, 11 Benchmarks)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge