视频生成作为多模态推理新范式 | CVPR 2026

一句话看懂：复旦大学邱锡鹏团队（OpenMOSS）提出“Thinking with Video”新范式，让视频生成模型（如Sora-2）不仅能完成几何推理、归纳推理等视觉任务，还能通过“在视频中写解题过程”的方式解决数学推理等文本任务。该工作被CVPR 2026收录，数据和代码已开源。

事件核心：发生了什么

5月14日，复旦×创智OpenMOSS团队在arXiv上发布论文，首次提出以视频帧作为统一推理媒介的多模态推理范式“Thinking with Video”。以往的多模态推理主要依赖文本链式推理或静态图像辅助，但静态图像难以捕捉动态过程，文本与视觉模态仍被割裂。该团队构建了包含4149个测试样本的基准VideoThinkBench，覆盖视觉任务（如几何谜题Eyeballing Puzzles、视觉归纳Visual Puzzles、抽象规则归纳ARC-AGI-2、空间规划Mazes）和文本任务（改编自MATH、MMLU、MathVista、MMMU）。测试结果显示：在视觉任务上，Sora-2在多帧投票评估下整体击败了Gemini 2.5 Pro、GPT-5 high和Claude Sonnet 4.5三个顶尖视觉语言模型；在文本任务上，Sora-2在MATH上达到92%的准确率，在MMMU上达到69.2%。研究还发现，视频生成模型是有效的Few-shot Learner，且通过Self-consistency多次采样可进一步提升推理准确率。

为什么重要

这一发现打破了“视频生成模型只能做视频生成”的固有认知，将视频生成从内容创作工具提升为一种通用的多模态推理引擎。目前主流的多模态推理依赖于视觉语言模型（VLM）的链式思维，而视频生成模型可以自然地同时处理动态视觉信息和文本符号，这为AI推理的统一框架提供了新可能。尤其值得注意的是，视频生成模型的“绘制-模拟-书写”能力与人类在草稿纸上推导问题的方式高度相似，这可能成为通往更类人多模态理解的路径。此外，该工作提前预判了谷歌Gemini Omni展示的“黑板推公式”能力，表明这一方向正在成为行业共识。

对用户/开发者/创作者的影响

对AI研究者：视频生成模型的推理潜力被实证确认，未来将催生更多关于视频生成模型的In-Context Learning和Test Time Scaling研究，研究方法论可能从“优化生成质量”转向“利用生成进行推理”。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对开发者：开源数据集VideoThinkBench和代码仓库提供了现成的基准测试工具，开发者可以快速评估自家视频生成模型（如Sora、Veo、Wan）的推理能力，相关API调用方式可能需要调整以支持“多帧投票”等推理模式。

对普通用户：短期内影响有限，长期看，如果视频生成模型能稳定生成清晰的解题过程，意味着未来可以用“让AI画/写出来”的方式获得更直观的推理解释。

值得关注的后续

1. 模型能力边界：目前Sora-2在视觉任务上表现优秀，但在更难的文本推理上仍有较大差距。后续研究能否将这一范式扩展到更强的基础模型（如GPT-5、Gemini 2.5）是关键观察点。

2. 产品落地形态：视频生成API是否会被赋予“推理模式”？例如，允许用户通过视频帧序列获取中间推理步骤，而不仅输出最终答案。

3. 开源生态影响：该工作已全面开源，包括数据和代码。竞品团队（如谷歌Veo、阿里Wan）是否会跟进推出类似的推理基准或功能？这可能导致视频生成模型的评测标准从“画质”扩展到“推理正确率”。

来源：Readhub · AI

视频生成作为多模态推理新范式 | CVPR 2026

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

[Claude] [开源] CCL：我做了一个 Claude Code 启动器，把 ccswitch 干掉了

[推广] 阿里腾讯华为火山国内国际站 AWS/GCP 全部 7 折 CDN4000/P Ai 模型低至 2 折

​巴西AI黑马Rio 3. 5 翻车：被指套壳缝合两款国产大模型

发表回复取消回复

巴西AI黑马Rio 3. 5 翻车：被指套壳缝合两款国产大模型