最高降价 99%，小米 MiMo 首次公开模型推理系统全链路优化技术细节

一句话看懂：小米 MiMo-V2.5 系列 API 于 5 月 27 日完成永久降价，最高降幅达 99%，并首次公开了面向 Hybrid SWA + MoE + 多模态复合架构的推理系统全链路优化方案，揭示了降价背后从 KVCache 管理到调度链路的系统性工程重构。

事件核心：发生了什么

小米在 5 月 27 日宣布 MiMo-V2.5 系列 API 永久降价，不区分输入/输出长度，最高降幅达 99%。5 月 30 日，小米正式公开了实现这一降价的底层技术方案——一套针对 Hybrid SWA + MoE 架构的推理系统全链路优化。该方案围绕 KVCache 存储压缩（压缩至同级方案约 1/7）、分级缓存（GCache，支持 GPU 显存、CPU 内存和 NVMe SSD 三级自动流转）、前缀缓存树重构以及调度与 Prefill/Decode 阶段的针对性优化展开，是业内首篇全面覆盖此复合架构的大规模工程落地方案。

为什么重要

在 AI 大模型服务中，推理成本的核心瓶颈来自 KVCache 对显存的占用。小米此次公开的方案，通过架构层（Hybrid SWA，70 层 Transformer 中 60 层使用滑动窗口注意力）和系统层（双池分治、前缀缓存、GCache 三级缓存）的双重设计，将理论上的显存节省（约 7 倍）兑现为真实的推理效率提升。这意味着同等硬件条件下，模型可以承载更高吞吐、更低延迟的服务，直接打破了长序列场景下“推理成本随上下文线性增长”的商业约束，为 API 服务的大规模降价提供了技术可行性。这也标志着小米在模型推理工程化能力上的一次系统性公开。

对用户/开发者/创作者的影响

对于 API 开发者和企业级用户，最直接的利好是 API 调用成本的显著降低——最高 99% 的降幅意味着对话、文档分析和长视频理解等高频长序列场景的使用成本大幅下降。对创作者和 Agent 场景的应用方而言，方案中提到的 MTP（Multi-Token Prediction）投机解码（前 128 token 加速 2.3 倍）以及多模态链路的并行优化（1 小时视频端到端延时从 156 秒降至 23 秒），意味着在实际使用中，不仅费用降低，响应速度也可能得到改善。同时，小米已将部分优化回馈给 SGLang 开源社区，为自建推理系统的开发团队提供了可参考的技术路线。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，小米表示将持续推进更多开源计划，可能涉及 SWA 适配、缓存系统等技术模块，开源社区能否借此降低复合架构推理的工程门槛值得观察。其次，降价后 API 的使用量和开发者生态能否持续扩大，将检验技术优化在商业化上的实际效果。最后，目前公开信息显示，该优化主要面向 MiMo-V2.5 系列，竞品是否会基于自身模型架构推出同类优化并跟进降价，将影响接下来的大模型 API 价格走向。

来源：Readhub · AI

最高降价 99%，小米 MiMo 首次公开模型推理系统全链路优化技术细节