
将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式
一句话看懂:快手于2026年5月26日发布了Keye-VL-2.0-30B-A3B多模态大模型,首次将DeepSeek的DSA(稀疏注意力)机制引入视频理解场景,在256K超长上下文中实现几乎无损的时序推理,并在多个开源及闭源模型对比中取得领先成绩。这一改变直接拉低了长视频理解的推理成本,也为多模态模型的“Agent化”提供了可落地的技术路径。
事件核心:发生了什么
快手在今天正式发布Keye-VL-2.0-30B-A3B,这是一款30B参数量、3B激活参数的多模态基座模型。它在架构上的关键变化是将DSA(DeepSeek Sparse Attention)从纯文本推理引入多模态理解,使模型在处理长达小时的视频时,既能保持高精度时序感知,又不会让计算量像传统Full Attention那样指数级增长。实测数据显示:在长视频时序理解基准TimeLens上,多日常动作解析(mIoU 58.4)和视频动作定位(mIoU 58.5)已逼近或超越Gemini系列;在VideoMME V2上,输入从64帧增加到512帧后,平均准确率从35.34%反而提升至42.44%,打破了“长上下文注意力衰减”的行业困局。此外,模型首次实现了Agent协作能力,在Code、Tool、Search等场景跑通了从感知到执行的完整链路。
为什么重要
此前多模态大模型在长视频理解上面临两大瓶颈:一是计算成本随视频时长指数上涨,二是注意力机制在长序列中信息稀释。快手的做法一是通过DSA将长序列预填充阶段成本降低50%,并让解码阶段成本曲线趋于平缓;二是在训练环节自建ExtraIO架构,将视频解码与抽帧的IO瓶颈消除,使长序列训练性能相比开源基线翻倍。这意味着多模态模型从“看几分钟视频”到“看一小时视频”不再只是参数堆叠的问题,而是用工程和算法优化找到了可行的降本路径。同时,Agent机制的首次内置,也标志着快手在“多模态+执行”场景中迈出了实质性一步,不满足于只做一个视觉分析器,而是向系统级任务执行器演化。
对用户/开发者/创作者的影响
对于视频创作者和内容运营者:模型能输出带精确时间戳的结构化动作拆解(如陶杯制作工艺全流程),并理解因果链(如“雪地车祸→建议跟团优于自驾”),这意味着未来可以借助AI做更高质量的自动剪辑、脚本生成和攻略输出。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对于开发者:该模型在30B参数级别下展现出的推理效率,使其更有可能部署在边缘或移动设备上。同时,Agent框架的开放(Code Agent、Tool Agent等)为二次开发提供了直接可用的系统基线,特别是结合视觉优势的HTML前端生成等场景。
对于企业采购:如果后续推出API服务,长视频理解成本将大幅下降,而且不限于视频标签识别,而是能够做多步推理和逻辑判断,这可能会改变AI在安防、自动驾驶、工业质检等长视频应用场景的产品形态。
值得关注的后续
1. 模型是否开源或开放API?目前快手尚未明确Keye-VL-2.0-30B-A3B的商业化模式,若开放API将直接与Gemini、GPT-4等闭源模型竞争,并在长视频场景形成差异化优势。2. DSA在多模态场景的泛化能力:该技术从DeepSeek的纯文本DSA迁移而来,在图像、视频、音画协同等场景下的泛化上限仍有待观察。3. Agent协作机制的落地深度:目前跑通的是代码和工具调用的基线,能否在快手生态(如视频推荐、电商直播、特效生成)中真正落地成产品功能,是检验其价值的核心场景。
来源:量子位 · 每日最新


