将 600 亿参数大模型装进手机的瓶颈,终于被中国 AI 公司突破了

将 600 亿参数大模型装进手机的瓶颈,终于被中国 AI 公司突破了

将 600 亿参数大模型装进手机的瓶颈,终于被中国 AI 公司突破了

一句话看懂:面壁智能联合清华大学发布了 BitCPM-CANN 系列模型,它首次在华为昇腾芯片上实现了端到端的“三值量化”训练,能将 8B 参数模型的显存占用压缩至不到 3GB,并保留了 97% 的能力。这意味着未来一部普通的 8GB 手机,可能直接运行 600 亿参数级别的大模型。

事件核心:发生了什么

2026 年 5 月 25 日,在华为昇腾开发者大会(KADC 2026)上,面壁智能联合清华大学、OpenBMB 开源社区正式发布了 BitCPM-CANN 系列三值大模型。该系列包括 0.5B、1B、3B、8B 四个尺寸,均已在昇腾芯片上完成从训练到推理的全流程。
技术核心是“三值量化”(1.58-bit):将传统模型中每个权重从几万种可能值压缩到只有 -1、0、+1 三种值。与 BF16 全精度模型相比,显存占用节省约 6 倍——一个 8B 模型从约 16GB 降至不足 3GB。同时,官方在 11 项任务、四大类评测(常识、阅读、学科、数学)中验证,其能力保留率在 95.7% 到 97.2% 之间。8B 的三值模型已开源,开发者可直接下载使用。

为什么重要

这是全球首个完全基于国产算力(华为昇腾)完成三值大模型训练的公开成果。此前所有同类研究(如微软的 BitNet b1.58、PrismML 的 Ternary Bonsai)均依赖 NVIDIA GPU。面壁智能此次实现了“国产芯片 + 三值技术”的双向验证,填补了该赛道在国产算力上的空白。
另一方面,三值量化大幅降低了模型在终端(如手机、PC)上的部署门槛。高通最新的旗舰芯片已原生支持 2-bit 推理,苹果和 Google 也正在加速手机端 AI 能力。随着硬件与模型同时就位,端侧运行百亿甚至千亿参数大模型正从理论走向现实。

对用户/开发者/创作者的影响

对开发者: BitCPM-CANN 是基于面壁 MiniCPM 家族的三值版本,使用同一套开源生态。现有开发者在 GitHub 社区(项目星数超 3 万、Hugging Face 下载超 3000 万)可无缝切换,直接下载 0.5B 到 8B 的三值模型,在手机或 PC 上本地部署,无需依赖云端 API。这降低了大模型本地化部署的算力成本。
对用户: 目前公开信息显示,8B 三值模型已可流畅运行在手机上。若结合 MoE 架构,未来一部 8GB 内存的手机有望运行 600 亿参数模型。这意味着更智能、更实时的 AI 助手可在本地直接运行,无需联网,隐私性更强。
对创作与行业: 端侧大模型的算力门槛降低,可能催生新的 AI 应用——例如无需云端的实时图像生成、离线语音助手、本地智能写作工具等。手机厂商可将其直接集成至操作系统,提供原生 AI 体验。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. 产品落地速度: 面壁智能已开源全部模型,但商用终端(如某款手机)何时预装该模型?目前尚不明确,需等待 OEM 合作消息。
2. 竞品跟进: 微软、PrismML 等国际团队的三值模型均基于 NVIDIA GPU。面壁智能在国产算力上的突破能否吸引更多国内厂商(如阿里、百度)加入三值路线,形成独立生态?
3. 硬件适配深度: 高通、联发科等手机芯片厂商是否会进一步针对三值模型优化推理引擎,从而降低部署成本并延长续航,是决定端侧大模型能否规模化落地的关键。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 9691

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注