
最高降价 99%,小米 MiMo 首次公开模型推理系统全链路优化技术细节
一句话看懂:小米 MiMo-V2.5 系列 API 于 5 月 27 日完成永久降价,最高降幅达 99%,并首次公开了面向 Hybrid SWA + MoE + 多模态复合架构的推理系统全链路优化方案,揭示了降价背后从 KVCache 管理到调度链路的系统性工程重构。
事件核心:发生了什么
小米在 5 月 27 日宣布 MiMo-V2.5 系列 API 永久降价,不区分输入/输出长度,最高降幅达 99%。5 月 30 日,小米正式公开了实现这一降价的底层技术方案——一套针对 Hybrid SWA + MoE 架构的推理系统全链路优化。该方案围绕 KVCache 存储压缩(压缩至同级方案约 1/7)、分级缓存(GCache,支持 GPU 显存、CPU 内存和 NVMe SSD 三级自动流转)、前缀缓存树重构以及调度与 Prefill/Decode 阶段的针对性优化展开,是业内首篇全面覆盖此复合架构的大规模工程落地方案。
为什么重要
在 AI 大模型服务中,推理成本的核心瓶颈来自 KVCache 对显存的占用。小米此次公开的方案,通过架构层(Hybrid SWA,70 层 Transformer 中 60 层使用滑动窗口注意力)和系统层(双池分治、前缀缓存、GCache 三级缓存)的双重设计,将理论上的显存节省(约 7 倍)兑现为真实的推理效率提升。这意味着同等硬件条件下,模型可以承载更高吞吐、更低延迟的服务,直接打破了长序列场景下“推理成本随上下文线性增长”的商业约束,为 API 服务的大规模降价提供了技术可行性。这也标志着小米在模型推理工程化能力上的一次系统性公开。
对用户/开发者/创作者的影响
对于 API 开发者和企业级用户,最直接的利好是 API 调用成本的显著降低——最高 99% 的降幅意味着对话、文档分析和长视频理解等高频长序列场景的使用成本大幅下降。对创作者和 Agent 场景的应用方而言,方案中提到的 MTP(Multi-Token Prediction)投机解码(前 128 token 加速 2.3 倍)以及多模态链路的并行优化(1 小时视频端到端延时从 156 秒降至 23 秒),意味着在实际使用中,不仅费用降低,响应速度也可能得到改善。同时,小米已将部分优化回馈给 SGLang 开源社区,为自建推理系统的开发团队提供了可参考的技术路线。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
首先,小米表示将持续推进更多开源计划,可能涉及 SWA 适配、缓存系统等技术模块,开源社区能否借此降低复合架构推理的工程门槛值得观察。其次,降价后 API 的使用量和开发者生态能否持续扩大,将检验技术优化在商业化上的实际效果。最后,目前公开信息显示,该优化主要面向 MiMo-V2.5 系列,竞品是否会基于自身模型架构推出同类优化并跟进降价,将影响接下来的大模型 API 价格走向。
来源:Readhub · AI

![[程序员] 找到个免费的 deepseek V4pro 免费蹬的软件](https://www.chat-gpts.plus/wp-content/uploads/2026/05/ai_cover_4-843-768x403.jpg)
