浙大 & 阿里成果获 CVPR 2026 录用:只看图片就能学会压缩 Token,多轮 VQA 压缩率达 90%,且精度不掉

浙大 & 阿里成果获 CVPR 2026 录用:只看图片就能学会压缩 Token,多轮 VQA 压缩率达 90%,且精度不掉

浙大 & 阿里成果获 CVPR 2026 录用:只看图片就能学会压缩 Token,多轮 VQA 压缩率达 90%,且精度不掉

一句话看懂:浙江大学与阿里巴巴联合提出了一种名为 MetaCompress 的新型 Token 压缩框架,无需人工预设规则,仅凭输入图片就能自主学出最优压缩策略。在多轮视觉问答(VQA)中,即使将视觉 Token 压缩掉 90%,模型回答精度几乎不受影响,该成果已被 CVPR 2026 录用。

事件核心:发生了什么

多轮视觉问答正成为大型视觉语言模型(LVLM)推理效率的“照妖镜”。传统压缩方法如 FastV、PruMerge,要么依赖首轮问题的文本信号筛选 Token,要么基于“注意力分数越高越重要”的启发式规则,在多轮对话中极易丢失后续轮次需要的关键视觉细节。

浙大与阿里团队的研究首先从理论上统一了所有 Token 操作(剪枝与合并),将其转化为一个可学习的压缩映射优化问题。他们通过为每张图片单独训练最优压缩矩阵发现,被最优策略保留下来的 Token 与“注意力分数”几乎无相关性(高注意力 Token 被保留的比例仅 1.71%),从而证实了依赖人工先验的启发式规则本质上是次优方案。

基于这一洞察,团队设计了轻量级的元生成器:它不依赖任何人工规则,而是通过数据驱动的方式,针对图像本身的视觉结构(如多尺度分辨率自适应)实时生成最优压缩策略。实验显示,在 70% 和 90% 的高压缩率下,MetaCompress 在多轮 VQA 基准上的精度明显优于所有现有方法,同时几乎不引入额外推理开销,并能零样本迁移到视频问答等新场景。

为什么重要

当前主流 LVLM(如 LLaVA-NeXT)通过多尺度视觉输入获得了极强的细粒度理解能力,但也导致了视觉 Token 数量指数级增长。Transformer 的计算复杂度与序列长度呈平方关系,这使得多轮对话中 KV 缓存的复用成本随 Token 数量线性攀升,严重拖慢推理速度并大幅增加显存占用。

MetaCompress 的价值在于两点:一是打破了对“注意力分数”这一长期被沿用的启发式设计依赖,为 Token 压缩提供了理论基础;二是在确保精度不掉的前提下,将多轮场景下的 Token 压缩率推至 90%,这直接降低了 LVLM 部署在端侧或资源受限设备上的门槛。若该技术大规模落地,可能加速多模态大模型在手机、物联网设备上的实时交互应用。

对用户/开发者/创作者的影响

对于开发者和企业技术决策者而言,MetaCompress 意味着更低的部署成本和更好的实时对话体验。以往多轮 VQA 中用户连续追问细节时模型响应会越来越慢,而这套压缩框架能让企业在现有硬件上支持更多轮次的流畅对话。对于内容创作或 AI 产品设计者来说,它减少了对人工预设压缩规则的依赖,使得模型在无法预判用户后续问题的情况下,依然能完整保留图像中的通用视觉信息。目前该框架已开源,开发者可以将其集成到基于 LLaVA-NeXT 等架构的 LVLM 应用中。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

首先,MetaCompress 是否能兼容更多架构(如 Gemini、GPT-4V 等闭源模型的多尺度视觉塔)尚不明确,实际落地的通用性需要观察后续开源社区的验证与适配。其次,该框架在 90% 压缩率下的精度稳定性仍需在更复杂、更长周期的多轮对话中进一步测试。最后,CVPR 录用后,预计会有更多团队跟进类似的“学习式”压缩方案,MetaCompress 能否在产业环境中快速落地或形成工具链,值得持续关注。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 2162

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注