
打破手机跑大模型壁垒,面壁智能联合清华开源端侧新品BitCPM-CANN
一句话看懂:面壁智能(MBLab)联合清华大学与OpenBMB社区,在华为昇腾平台上开源了低比特大模型训练成果BitCPM-CANN,能将推理时的内存需求压缩至传统精度的约六分之一,让8B参数级别的端侧大模型在主流旗舰手机上成为可能。
事件核心:发生了什么
5月26日,面壁智能、清华大学与开源社区OpenBMB共同发布了BitCPM-CANN,并已开源。该成果完全在华为昇腾平台原生训练完成,覆盖0.5B、1B、3B和8B四个模型规模。与传统的BF16精度模型相比,BitCPM-CANN在推理时可释放约六倍的内存空间。这意味着,此前需要极高硬件配置才能运行的8B参数级别模型,现在有望在主流旗舰手机上流畅运行。此外,模型能力的保留率被成功维持在90%至97.2%之间,其中3B和8B等主力规模的保留率高达95.7%至97.2%,即使在最小的0.5B模型上保留率也超过90%。面壁智能围绕相关核心技术构建了完整的低比特训练工程化系统,涵盖环境适配、32K长序列支持以及融合算子等,为后续昇腾上的低比特训练工作奠定了公共基础设施。
为什么重要
AI大模型向移动端迁移的最大瓶颈一直是硬件算力与内存的限制。BitCPM-CANN通过低比特训练技术,在不显著损失模型能力的前提下,大幅降低推理时的内存占用。六倍的内存释放意味着端侧AI的商业化落地门槛被实质性拉低。对于整个行业而言,这项成果证明低比特训练策略在工程上具有优秀的可复制性,且因其原生基于华为昇腾平台,也为国产AI硬件生态在端侧大模型领域增加了重要的竞争筹码。开源社区和第三方开发者可以直接获取从环境搭建到模型推理的一整套技术栈,加速创新。
对用户/开发者/创作者的影响
对普通用户:未来购买搭载端侧大模型的旗舰手机时,性能和功能体验将更贴近云端水平,且无需实时联网,隐私保护更强。目前消息显示,基于BitCPM-CANN的端侧模型已能直接运行在主流旗舰手机上。
对开发者与硬件厂商:开源意味着技术门槛降低,厂商可以直接集成或二次开发,缩短产品上市周期。尤其对华为昇腾及其合作伙伴而言,这一成果提供了从训练到部署的全链路低比特方案。开发者在将大模型移植到移动设备时,可参考这套已验证的工程实践。
对AI创作者:端侧推理能力的提升使得本地生成文本、图像摘要、语音交互等场景更加实用,为离线创作工具和个性化助手类应用打开了新空间。
值得关注的后续
1. 落地验证:目前成果基于公开评估数据,实际在消费者手机上的功耗、发热和实时性能表现,需要等待更多测试和产品发布来检验。
2. 竞品跟进:端侧模型赛道中的高通、联发科、苹果等生态是否会出现类似方向的低比特量化或训练方案,以及能否在同等保留率下获得相似的压缩效果。
3. 生态扩展:该成果基于昇腾平台,后续能否平滑迁移至其他国产AI芯片或国际主流训练框架,将直接影响其作为公共基础设施的适用广度。
来源:AIbase


