浙大 & 阿里成果获 CVPR 2026 录用：只看图片就能学会压缩 Token，多轮 VQA 压缩率达 90%，且精度不掉

一句话看懂：浙江大学与阿里巴巴联合提出了一种名为 MetaCompress 的新型 Token 压缩框架，无需人工预设规则，仅凭输入图片就能自主学出最优压缩策略。在多轮视觉问答（VQA）中，即使将视觉 Token 压缩掉 90%，模型回答精度几乎不受影响，该成果已被 CVPR 2026 录用。

事件核心：发生了什么

多轮视觉问答正成为大型视觉语言模型（LVLM）推理效率的“照妖镜”。传统压缩方法如 FastV、PruMerge，要么依赖首轮问题的文本信号筛选 Token，要么基于“注意力分数越高越重要”的启发式规则，在多轮对话中极易丢失后续轮次需要的关键视觉细节。

浙大与阿里团队的研究首先从理论上统一了所有 Token 操作（剪枝与合并），将其转化为一个可学习的压缩映射优化问题。他们通过为每张图片单独训练最优压缩矩阵发现，被最优策略保留下来的 Token 与“注意力分数”几乎无相关性（高注意力 Token 被保留的比例仅 1.71%），从而证实了依赖人工先验的启发式规则本质上是次优方案。

基于这一洞察，团队设计了轻量级的元生成器：它不依赖任何人工规则，而是通过数据驱动的方式，针对图像本身的视觉结构（如多尺度分辨率自适应）实时生成最优压缩策略。实验显示，在 70% 和 90% 的高压缩率下，MetaCompress 在多轮 VQA 基准上的精度明显优于所有现有方法，同时几乎不引入额外推理开销，并能零样本迁移到视频问答等新场景。

为什么重要

当前主流 LVLM（如 LLaVA-NeXT）通过多尺度视觉输入获得了极强的细粒度理解能力，但也导致了视觉 Token 数量指数级增长。Transformer 的计算复杂度与序列长度呈平方关系，这使得多轮对话中 KV 缓存的复用成本随 Token 数量线性攀升，严重拖慢推理速度并大幅增加显存占用。

MetaCompress 的价值在于两点：一是打破了对“注意力分数”这一长期被沿用的启发式设计依赖，为 Token 压缩提供了理论基础；二是在确保精度不掉的前提下，将多轮场景下的 Token 压缩率推至 90%，这直接降低了 LVLM 部署在端侧或资源受限设备上的门槛。若该技术大规模落地，可能加速多模态大模型在手机、物联网设备上的实时交互应用。

对用户/开发者/创作者的影响

对于开发者和企业技术决策者而言，MetaCompress 意味着更低的部署成本和更好的实时对话体验。以往多轮 VQA 中用户连续追问细节时模型响应会越来越慢，而这套压缩框架能让企业在现有硬件上支持更多轮次的流畅对话。对于内容创作或 AI 产品设计者来说，它减少了对人工预设压缩规则的依赖，使得模型在无法预判用户后续问题的情况下，依然能完整保留图像中的通用视觉信息。目前该框架已开源，开发者可以将其集成到基于 LLaVA-NeXT 等架构的 LVLM 应用中。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，MetaCompress 是否能兼容更多架构（如 Gemini、GPT-4V 等闭源模型的多尺度视觉塔）尚不明确，实际落地的通用性需要观察后续开源社区的验证与适配。其次，该框架在 90% 压缩率下的精度稳定性仍需在更复杂、更长周期的多轮对话中进一步测试。最后，CVPR 录用后，预计会有更多团队跟进类似的“学习式”压缩方案，MetaCompress 能否在产业环境中快速落地或形成工具链，值得持续关注。

来源：Readhub · AI

浙大 & 阿里成果获 CVPR 2026 录用：只看图片就能学会压缩 Token，多轮 VQA 压缩率达 90%，且精度不掉