将 600 亿参数大模型装进手机的瓶颈，终于被中国 AI 公司突破了

一句话看懂：面壁智能联合清华大学发布了 BitCPM-CANN 系列模型，它首次在华为昇腾芯片上实现了端到端的“三值量化”训练，能将 8B 参数模型的显存占用压缩至不到 3GB，并保留了 97% 的能力。这意味着未来一部普通的 8GB 手机，可能直接运行 600 亿参数级别的大模型。

事件核心：发生了什么

2026 年 5 月 25 日，在华为昇腾开发者大会（KADC 2026）上，面壁智能联合清华大学、OpenBMB 开源社区正式发布了 BitCPM-CANN 系列三值大模型。该系列包括 0.5B、1B、3B、8B 四个尺寸，均已在昇腾芯片上完成从训练到推理的全流程。
技术核心是“三值量化”（1.58-bit）：将传统模型中每个权重从几万种可能值压缩到只有 -1、0、+1 三种值。与 BF16 全精度模型相比，显存占用节省约 6 倍——一个 8B 模型从约 16GB 降至不足 3GB。同时，官方在 11 项任务、四大类评测（常识、阅读、学科、数学）中验证，其能力保留率在 95.7% 到 97.2% 之间。8B 的三值模型已开源，开发者可直接下载使用。

为什么重要

这是全球首个完全基于国产算力（华为昇腾）完成三值大模型训练的公开成果。此前所有同类研究（如微软的 BitNet b1.58、PrismML 的 Ternary Bonsai）均依赖 NVIDIA GPU。面壁智能此次实现了“国产芯片 + 三值技术”的双向验证，填补了该赛道在国产算力上的空白。
另一方面，三值量化大幅降低了模型在终端（如手机、PC）上的部署门槛。高通最新的旗舰芯片已原生支持 2-bit 推理，苹果和 Google 也正在加速手机端 AI 能力。随着硬件与模型同时就位，端侧运行百亿甚至千亿参数大模型正从理论走向现实。

对用户/开发者/创作者的影响

对开发者： BitCPM-CANN 是基于面壁 MiniCPM 家族的三值版本，使用同一套开源生态。现有开发者在 GitHub 社区（项目星数超 3 万、Hugging Face 下载超 3000 万）可无缝切换，直接下载 0.5B 到 8B 的三值模型，在手机或 PC 上本地部署，无需依赖云端 API。这降低了大模型本地化部署的算力成本。
对用户： 目前公开信息显示，8B 三值模型已可流畅运行在手机上。若结合 MoE 架构，未来一部 8GB 内存的手机有望运行 600 亿参数模型。这意味着更智能、更实时的 AI 助手可在本地直接运行，无需联网，隐私性更强。
对创作与行业： 端侧大模型的算力门槛降低，可能催生新的 AI 应用——例如无需云端的实时图像生成、离线语音助手、本地智能写作工具等。手机厂商可将其直接集成至操作系统，提供原生 AI 体验。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 产品落地速度： 面壁智能已开源全部模型，但商用终端（如某款手机）何时预装该模型？目前尚不明确，需等待 OEM 合作消息。
2. 竞品跟进： 微软、PrismML 等国际团队的三值模型均基于 NVIDIA GPU。面壁智能在国产算力上的突破能否吸引更多国内厂商（如阿里、百度）加入三值路线，形成独立生态？
3. 硬件适配深度： 高通、联发科等手机芯片厂商是否会进一步针对三值模型优化推理引擎，从而降低部署成本并延长续航，是决定端侧大模型能否规模化落地的关键。

来源：Readhub · AI

将 600 亿参数大模型装进手机的瓶颈，终于被中国 AI 公司突破了