记忆感知的大模型 KVCache 优化｜AICon上海

一句话看懂：阿里云高级技术专家马腾将在AICon上海大会分享以KVCache为核心的大模型推理优化框架Mooncake，该框架通过将KVCache从传统缓存升级为多智能体系统的“物理工作记忆”，实现了跨节点的记忆共享与零拷贝复用，旨在解决多智能体场景下的重复计算与显存瓶颈问题。

事件核心：发生了什么

6月26日至27日在上海举办的AICon全球人工智能开发与应用大会上，阿里云高级技术专家马腾将发表题为《记忆感知的大模型KVCache优化》的演讲。马腾将重点介绍以KVCache为中心的开源大模型服务框架Mooncake。该框架打破了传统推理中计算与存储的强耦合，采用Prefill与Decode分离式架构，并构建了全局共享的KVCache池。这使得多智能体在交互时，能够通过跨节点张量零拷贝与高效复用，实现记忆的“一次计算、全局共享”。Mooncake项目目前已获得5K Star，并已有阿里云、清华、月之暗面、蚂蚁、字节、趋境科技等多方参与，且成功接入了vLLM、SGLang、LMDeploy、LMCache等社区。

为什么重要

随着AI进入以Agent为核心的新阶段，多智能体频繁协作带来的重复计算和显存碎片化问题日益突出。目前公开信息显示，传统推理架构在应对Agent间状态传递、多轮交互历史处理时，存在严重的重复Prefill计算和端到端延迟。Mooncake框架的核心理念是将KVCache重新定义为智能体的“物理工作记忆”，将记忆管理下沉至物理推理基础设施。这一技术路线有望显著降低多智能体场景下的算力消耗和延迟，为Agent从Demo走向量产提供底层工程基础。对于整个行业而言，它可能推动大模型推理架构从“计算为中心”向“记忆为中心”转变，影响未来推理框架的设计范式。

对用户/开发者/创作者的影响

对于开发者，尤其是正在构建多智能体系统的团队，Mooncake框架的分离式架构和全局共享KVCache池提供了可落地的工程方案。这意味着开发者无需自行处理复杂的跨节点记忆同步问题，可以直接利用该框架实现智能体间的状态高效传递，从而降低开发成本。对于企业采购和算力规划者而言，这种优化意味着在相同硬件条件下可能实现更高的吞吐量，有助于降低Agent应用的运营成本。对于普通用户和内容创作者，底层推理效率的提升将直接转化为更流畅的多智能体交互体验，例如更快的对话响应速度和更长的上下文记忆能力。

值得关注的后续

1. 落地效果验证：Mooncake在实际多智能体生产环境中的性能提升数据，尤其是与vLLM等主流框架的对比测试结果，值得持续关注。2. 社区生态扩展：Mooncake已被多家头部企业采用，未来能否进一步扩大开发者社区，形成类似vLLM的广泛生态，将决定其影响力。3. 国产化适配进展：马腾的研究方向包括大模型软件栈在新硬件环境下的国产化，Mooncake与国产GPU/芯片的适配情况，将直接影响国内AI基础设施的自主可控能力。

来源：InfoQ CN

记忆感知的大模型 KVCache 优化｜AICon上海