将DSA注意力引入多模态，快手Keye2.0开启强化推理新范式

一句话看懂：快手于2026年5月26日发布了Keye-VL-2.0-30B-A3B多模态大模型，首次将DeepSeek的DSA（稀疏注意力）机制引入视频理解场景，在256K超长上下文中实现几乎无损的时序推理，并在多个开源及闭源模型对比中取得领先成绩。这一改变直接拉低了长视频理解的推理成本，也为多模态模型的“Agent化”提供了可落地的技术路径。

事件核心：发生了什么

快手在今天正式发布Keye-VL-2.0-30B-A3B，这是一款30B参数量、3B激活参数的多模态基座模型。它在架构上的关键变化是将DSA（DeepSeek Sparse Attention）从纯文本推理引入多模态理解，使模型在处理长达小时的视频时，既能保持高精度时序感知，又不会让计算量像传统Full Attention那样指数级增长。实测数据显示：在长视频时序理解基准TimeLens上，多日常动作解析（mIoU 58.4）和视频动作定位（mIoU 58.5）已逼近或超越Gemini系列；在VideoMME V2上，输入从64帧增加到512帧后，平均准确率从35.34%反而提升至42.44%，打破了“长上下文注意力衰减”的行业困局。此外，模型首次实现了Agent协作能力，在Code、Tool、Search等场景跑通了从感知到执行的完整链路。

为什么重要

此前多模态大模型在长视频理解上面临两大瓶颈：一是计算成本随视频时长指数上涨，二是注意力机制在长序列中信息稀释。快手的做法一是通过DSA将长序列预填充阶段成本降低50%，并让解码阶段成本曲线趋于平缓；二是在训练环节自建ExtraIO架构，将视频解码与抽帧的IO瓶颈消除，使长序列训练性能相比开源基线翻倍。这意味着多模态模型从“看几分钟视频”到“看一小时视频”不再只是参数堆叠的问题，而是用工程和算法优化找到了可行的降本路径。同时，Agent机制的首次内置，也标志着快手在“多模态+执行”场景中迈出了实质性一步，不满足于只做一个视觉分析器，而是向系统级任务执行器演化。

对用户/开发者/创作者的影响

对于视频创作者和内容运营者：模型能输出带精确时间戳的结构化动作拆解（如陶杯制作工艺全流程），并理解因果链（如“雪地车祸→建议跟团优于自驾”），这意味着未来可以借助AI做更高质量的自动剪辑、脚本生成和攻略输出。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对于开发者：该模型在30B参数级别下展现出的推理效率，使其更有可能部署在边缘或移动设备上。同时，Agent框架的开放（Code Agent、Tool Agent等）为二次开发提供了直接可用的系统基线，特别是结合视觉优势的HTML前端生成等场景。

对于企业采购：如果后续推出API服务，长视频理解成本将大幅下降，而且不限于视频标签识别，而是能够做多步推理和逻辑判断，这可能会改变AI在安防、自动驾驶、工业质检等长视频应用场景的产品形态。

值得关注的后续

1. 模型是否开源或开放API？目前快手尚未明确Keye-VL-2.0-30B-A3B的商业化模式，若开放API将直接与Gemini、GPT-4等闭源模型竞争，并在长视频场景形成差异化优势。2. DSA在多模态场景的泛化能力：该技术从DeepSeek的纯文本DSA迁移而来，在图像、视频、音画协同等场景下的泛化上限仍有待观察。3. Agent协作机制的落地深度：目前跑通的是代码和工具调用的基线，能否在快手生态（如视频推荐、电商直播、特效生成）中真正落地成产品功能，是检验其价值的核心场景。

来源：量子位 · 每日最新

将DSA注意力引入多模态，快手Keye2.0开启强化推理新范式