
记忆感知的大模型 KVCache 优化|AICon上海
一句话看懂:阿里云高级技术专家马腾将在AICon上海大会分享以KVCache为核心的大模型推理优化框架Mooncake,该框架通过将KVCache从传统缓存升级为多智能体系统的“物理工作记忆”,实现了跨节点的记忆共享与零拷贝复用,旨在解决多智能体场景下的重复计算与显存瓶颈问题。
事件核心:发生了什么
6月26日至27日在上海举办的AICon全球人工智能开发与应用大会上,阿里云高级技术专家马腾将发表题为《记忆感知的大模型KVCache优化》的演讲。马腾将重点介绍以KVCache为中心的开源大模型服务框架Mooncake。该框架打破了传统推理中计算与存储的强耦合,采用Prefill与Decode分离式架构,并构建了全局共享的KVCache池。这使得多智能体在交互时,能够通过跨节点张量零拷贝与高效复用,实现记忆的“一次计算、全局共享”。Mooncake项目目前已获得5K Star,并已有阿里云、清华、月之暗面、蚂蚁、字节、趋境科技等多方参与,且成功接入了vLLM、SGLang、LMDeploy、LMCache等社区。
为什么重要
随着AI进入以Agent为核心的新阶段,多智能体频繁协作带来的重复计算和显存碎片化问题日益突出。目前公开信息显示,传统推理架构在应对Agent间状态传递、多轮交互历史处理时,存在严重的重复Prefill计算和端到端延迟。Mooncake框架的核心理念是将KVCache重新定义为智能体的“物理工作记忆”,将记忆管理下沉至物理推理基础设施。这一技术路线有望显著降低多智能体场景下的算力消耗和延迟,为Agent从Demo走向量产提供底层工程基础。对于整个行业而言,它可能推动大模型推理架构从“计算为中心”向“记忆为中心”转变,影响未来推理框架的设计范式。
对用户/开发者/创作者的影响
对于开发者,尤其是正在构建多智能体系统的团队,Mooncake框架的分离式架构和全局共享KVCache池提供了可落地的工程方案。这意味着开发者无需自行处理复杂的跨节点记忆同步问题,可以直接利用该框架实现智能体间的状态高效传递,从而降低开发成本。对于企业采购和算力规划者而言,这种优化意味着在相同硬件条件下可能实现更高的吞吐量,有助于降低Agent应用的运营成本。对于普通用户和内容创作者,底层推理效率的提升将直接转化为更流畅的多智能体交互体验,例如更快的对话响应速度和更长的上下文记忆能力。
值得关注的后续
1. 落地效果验证:Mooncake在实际多智能体生产环境中的性能提升数据,尤其是与vLLM等主流框架的对比测试结果,值得持续关注。2. 社区生态扩展:Mooncake已被多家头部企业采用,未来能否进一步扩大开发者社区,形成类似vLLM的广泛生态,将决定其影响力。3. 国产化适配进展:马腾的研究方向包括大模型软件栈在新硬件环境下的国产化,Mooncake与国产GPU/芯片的适配情况,将直接影响国内AI基础设施的自主可控能力。
来源:InfoQ CN
![[程序员] codex 是通过本地安装 cc swithc 还是 newapi/sub2api 接入 deekpseek v4 更好](https://www.chat-gpts.plus/wp-content/uploads/2026/05/ai_cover_5-351-768x403.jpg)
![[分享发现] 发现 cloudflare 也有各种 AI api, 包含 GPT-5.5, Claude Opus 4.7](https://www.chat-gpts.plus/wp-content/uploads/2026/05/ai_cover_4-353-768x403.jpg)
![[程序员] 人在国外租了间房,然后房里有电脑,在国内有什么远程方案可以使用这台电脑? 主要是用 Claude 网页版和 code](https://www.chat-gpts.plus/wp-content/uploads/2026/05/ai_cover_3-354-768x403.jpg)