面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN

一句话看懂：面壁智能联合清华大学、OpenBMB 社区于 5 月 25 日正式开源 BitCPM-CANN 系列模型，这是中国首个完全基于华为昇腾算力平台、从训练到推理全链路国产化的 1.58-bit（三值）大模型。它可以在主流旗舰手机上流畅运行 8B 参数的模型，同时大幅降低对显存的占用。

事件核心：发生了什么

面壁智能、清华大学与开源社区 OpenBMB 今日联合发布了 BitCPM-CANN 系列模型，包含 0.5B、1B、3B 和 8B 四个参数规模。与传统的 BF16 精度模型相比，BitCPM-CANN 在推理阶段能够释放约 6 倍的显存红利，模型能力保留率维持在 90%–97.2% 之间。官方强调，从量化算子、训练算法到全链路框架均基于华为昇腾平台原生完成，是中国首个完全基于国产算力实现“端到端训练并开源”的三值（1.58-bit）大模型。团队还基于 MindSpeed × Megatron-LM 主干搭建了完整的低比特训练底座，包含环境适配、32K 长序列支持、并行策略与融合算子等工程体系。

为什么重要

这一开源意味着中国大模型在低比特训练和国产算力结合上取得了工程化突破。一方面，1.58-bit 三值模型能在不明显损失性能的前提下，极大降低推理时的显存与计算开销，让 8B 规模的模型具备在手机等端侧设备上部署的可能性；另一方面，它完全基于华为昇腾完成训练和优化，为国内开发者提供了一套绕过英伟达 CUDA 生态的完整技术栈。同时，开源的低比特训练公共基础设施，将降低后续其他团队在昇腾上开展类似工作的门槛。

对用户/开发者/创作者的影响

对终端用户而言，BitCPM-CANN 8B 模型可运行在主流旗舰手机上，这意味着更流畅的本地 AI 助手、实时翻译或图像理解等能力，不再完全依赖云端推理，隐私和延迟均能得到改善。对开发者来说，开源模型和底座工具链降低了在国产硬件上进行大模型部署和二次开发的门槛，特别是需要端侧推理或对算力成本敏感的场景。对创作者，这类模型虽然精度略有折损（能力保留率约 90%–97%），但适用于内容摘要、文案生成等对实时性要求高、对精度容忍度较大的任务，且推理成本显著更低。

值得关注的后续

第一，BitCPM-CANN 是否会发布针对手机厂商的定制版本，或者直接预装到主流品牌旗舰机型中，这决定其端侧落地的真实规模。第二，其他国产算力平台（如寒武纪、壁仞科技）是否会跟进类似的三值训练方案，进一步丰富国产硬件的大模型生态。第三，由于模型能力保留率存在 90%–97% 的波动区间，在实际业务场景中是否会产生明显的效果差异，需要后续更多第三方评测来验证。

来源：Readhub · AI

面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN