标签: sora

视频生成作为多模态推理新范式 | CVPR 2026

视频生成作为多模态推理新范式 | CVPR 2026

复旦大学邱锡鹏团队(OpenMOSS)提出“Thinking with Video”新范式,让视频生成模型(如Sora-2)不仅能完成几何推理、归纳推理等视觉任务,还能通过“在视频中写解题过程”的方式解决数学推理等文本任务。该工作被CVPR 2026收录,数据和代码已开源。

“一些创造性的工作可能会消失,但也许它们从一开始就不应该存在”——前 OpenAI 首席技术官 Mira Murati 当天的名言

“一些创造性的工作可能会消失,但也许它们从一开始就不应该存在”——前 OpenAI 首席技术官 Mira Murati 当天的名言

前 OpenAI 首席技术官 Mira Murati 在达特茅斯学院的一次讨论中公开表示,部分创意工作可能会被 AI 取代,但如果这些工作产出的内容本身质量不高,那它们“从一开始就不应该存在”。这一观点直接触及了生成式 AI 对劳动市场冲击的敏感神经,也反映了 OpenAI 内部对 AI 替代人力的一种实用主…

AI+CV 论文 | arXiv 2026 | NEWTON:把「牛顿」请进 Agent 工具箱 —— 从「提示词驱动」到「物理规划」

AI+CV 论文 | arXiv 2026 | NEWTON:把「牛顿」请进 Agent 工具箱 —— 从「提示词驱动」到「物理规划」

浙大、香港理工等机构联合发布论文 NEWTON,提出一套名为“规划器-执行器-验证器”的 Agent 架构,将视频生成从“提示词驱动”重构为“物理规划”流程。核心发现是:当前最强视频生成模型在物理常识基准 VideoPhy-2 上的联合准确率仅 32.6%,病因在于“规格瓶颈”——文本提示是对物理世界的有损压…

2026 北京智源大会开幕 | 从「悟道」到「悟界」,智源研究院推动人工智能、物理世界和生命科学「三体互动」

2026 北京智源大会开幕 | 从「悟道」到「悟界」,智源研究院推动人工智能、物理世界和生命科学「三体互动」

2026年6月12日,第八届北京智源大会开幕。智源研究院发布了一系列从“预测下一个词元”升级到“预测下一个物理状态”的世界模型成果,包括全球首个理解与生成统一的多模态神经科学大模型Brainμ1.0、通用世界基座模型Physis-v0.1,以及面向药物发现的OpenComplex2.5,标志着AI从数字世界向…