1.3B 模型的“降维打击”：MiniCPM-V 4.6 重新定义端侧多模态巅峰

一句话看懂：面壁智能联合清华大学、OpenBMB 开源社区于 5 月 11 日发布了端侧多模态大模型 MiniCPM-V 4.6。该模型仅 1.3B 参数，但凭借 LLaVA-UHD v4 技术将内存需求压至 6GB，在性能榜单（AA 榜）上以 13 分成绩逼近 2B 级模型，标志着 1B 参数级模型在端侧 AI 部署中具备了实用价值。

事件核心：发生了什么

MiniCPM-V 4.6 推出了 Instruct 和 Thinking 两个版本。在 Artificial Analysis 榜单上，该模型总分 13 分，显著领先同参数级别的阿里 Qwen3.5-0.8B 和谷歌 Gemma4-E2B-it，并接近 Qwen3.5-2B 的表现。技术核心在于面壁智能与清华共同研发的 LLaVA-UHD v4：通过对 ViT 图像编码和浅层压缩模块的重构，图像编码开销降低 50%，高分辨率浮点运算减少 55.8%，并支持 4x/16x 混合 Token 压缩以实现“性能优先”与“速度优先”的灵活切换。在推理效率上，基于 vLLM 框架，处理 3136² 超高清大图时首响应延迟仅 75.7ms，该速度是竞品的 2.2 倍；单卡文本生成能力达到 7013 token/s，图像处理能力达 54.79 张/秒。

为什么重要

过去端侧多模态大模型往往面临“参数大则内存爆炸、参数小则能力不足”的两难。MiniCPM-V 4.6 证明了通过架构级优化（而非单纯堆参数），1.3B 参数也能完成复杂 STEM 数学推理、高精度 OCR 和视频时序理解等任务。这改变了端侧 AI 部署的成本结构：开发者不再需要为每台终端配备昂贵的专用推理芯片，主流智能手机、PC、智能家居设备即能跑通。同时，该模型已开源并适配 ms-swift、LLaMA-Factory 等微调框架，单张 RTX4090 即可完成全参微调，降低了企业从实验室迁移到工业场景的门槛。其混合压缩技术已在快手推荐大模型 OneRec 中得到验证，说明该项技术具备处理大规模流量请求的工业级可靠性。

对用户/开发者/创作者的影响

对开发者：可直接在 vLLM、Ollama 上部署该模型或在 iOS/Android/鸿蒙系统上进行测试和应用开发。内存需求仅 6GB 意味着旧款设备也能被利用，降低了开发者的硬件选型压力。对企业采购方：联想、吉利、上汽大众、小米、OPPO 等合作伙伴已有落地案例，可重点关注其在车载、PC、智能家居及工业质检场景的集成方案，尤其是对隐私敏感（如本地数据不出设备）场景有明显价值。对普通用户：短期内可通过安装支持该模型的 app 体验更快、更低功耗的多模态交互，例如照片文字识别或实时视频理解，但对消费级产品体验的具体提升还需要等待厂商推出正式版应用。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

一是该模型的 Thinking 版本在幻觉抑制和多图推理能力上表现突出，后续是否会针对医疗影像或法律文档等专业领域推出定制版值得观察。二是其 LLaVA-UHD v4 技术路线是否会被其他开源多模态模型（如 Qwen 系列）跟进采用，从而触发新一轮端侧性能竞赛。三是虽然模型已开源且支持多平台，但 HarmonyOS 适配目前仅提供测试版本，鸿蒙生态的深度融合进度将影响其在国产设备中的普及速度。

来源：AIbase

1.3B 模型的“降维打击”：MiniCPM-V 4.6 重新定义端侧多模态巅峰