视频生成作为多模态推理新范式 | CVPR 2026

复旦大学邱锡鹏团队(OpenMOSS)提出“Thinking with Video”新范式,让视频生成模型(如Sora-2)不仅能完成几何推理、归纳推理等视觉任务,还能通过“在视频中写解题过程”的方式解决数学推理等文本任务。该工作被CVPR 2026收录,数据和代码已开源。

视频生成作为多模态推理新范式 | CVPR 2026

一句话看懂:复旦大学邱锡鹏团队(OpenMOSS)提出“Thinking with Video”新范式,让视频生成模型(如Sora-2)不仅能完成几何推理、归纳推理等视觉任务,还能通过“在视频中写解题过程”的方式解决数学推理等文本任务。该工作被CVPR 2026收录,数据和代码已开源。

事件核心:发生了什么

5月14日,复旦×创智OpenMOSS团队在arXiv上发布论文,首次提出以视频帧作为统一推理媒介的多模态推理范式“Thinking with Video”。以往的多模态推理主要依赖文本链式推理或静态图像辅助,但静态图像难以捕捉动态过程,文本与视觉模态仍被割裂。该团队构建了包含4149个测试样本的基准VideoThinkBench,覆盖视觉任务(如几何谜题Eyeballing Puzzles、视觉归纳Visual Puzzles、抽象规则归纳ARC-AGI-2、空间规划Mazes)和文本任务(改编自MATH、MMLU、MathVista、MMMU)。测试结果显示:在视觉任务上,Sora-2在多帧投票评估下整体击败了Gemini 2.5 Pro、GPT-5 high和Claude Sonnet 4.5三个顶尖视觉语言模型;在文本任务上,Sora-2在MATH上达到92%的准确率,在MMMU上达到69.2%。研究还发现,视频生成模型是有效的Few-shot Learner,且通过Self-consistency多次采样可进一步提升推理准确率。

为什么重要

这一发现打破了“视频生成模型只能做视频生成”的固有认知,将视频生成从内容创作工具提升为一种通用的多模态推理引擎。目前主流的多模态推理依赖于视觉语言模型(VLM)的链式思维,而视频生成模型可以自然地同时处理动态视觉信息和文本符号,这为AI推理的统一框架提供了新可能。尤其值得注意的是,视频生成模型的“绘制-模拟-书写”能力与人类在草稿纸上推导问题的方式高度相似,这可能成为通往更类人多模态理解的路径。此外,该工作提前预判了谷歌Gemini Omni展示的“黑板推公式”能力,表明这一方向正在成为行业共识。

对用户/开发者/创作者的影响

对AI研究者:视频生成模型的推理潜力被实证确认,未来将催生更多关于视频生成模型的In-Context Learning和Test Time Scaling研究,研究方法论可能从“优化生成质量”转向“利用生成进行推理”。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对开发者:开源数据集VideoThinkBench和代码仓库提供了现成的基准测试工具,开发者可以快速评估自家视频生成模型(如Sora、Veo、Wan)的推理能力,相关API调用方式可能需要调整以支持“多帧投票”等推理模式。

对普通用户:短期内影响有限,长期看,如果视频生成模型能稳定生成清晰的解题过程,意味着未来可以用“让AI画/写出来”的方式获得更直观的推理解释。

值得关注的后续

1. 模型能力边界:目前Sora-2在视觉任务上表现优秀,但在更难的文本推理上仍有较大差距。后续研究能否将这一范式扩展到更强的基础模型(如GPT-5、Gemini 2.5)是关键观察点。

2. 产品落地形态:视频生成API是否会被赋予“推理模式”?例如,允许用户通过视频帧序列获取中间推理步骤,而不仅输出最终答案。

3. 开源生态影响:该工作已全面开源,包括数据和代码。竞品团队(如谷歌Veo、阿里Wan)是否会跟进推出类似的推理基准或功能?这可能导致视频生成模型的评测标准从“画质”扩展到“推理正确率”。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 7843

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注