
一句话看懂:浙大、香港理工等机构联合发布论文 NEWTON,提出一套名为“规划器-执行器-验证器”的 Agent 架构,将视频生成从“提示词驱动”重构为“物理规划”流程。核心发现是:当前最强视频生成模型在物理常识基准 VideoPhy-2 上的联合准确率仅 32.6%,病因在于“规格瓶颈”——文本提示是对物理世界的有损压缩,模型无法自行补足缺失参数。
事件核心:发生了什么
一篇发布于 arXiv 2026 的论文《NEWTON: Agentic Planning for Physically Grounded Video Generation》提出了一个全新的技术路线。它不试图扩大生成器本身,而是将视频生成作为 Agent 系统的一个可调用动作。系统由三个核心角色组成:规划器(基于 Qwen3.5-9B 的 VLM)负责决策下一步调用何种工具;执行器提供三种物理工具(关键帧生成、Python 数值计算、提示词补全)来显式补充缺失的物理参数;验证器则对输出视频分别评分语义贴合度和物理合理性,并将评分反馈回规划器进行多轮迭代优化。在 VideoPhy-2 基准上,该方法将最困难样本的联合准确率从 4.44% 提升至 12.22%,且未对视频生成模型做任何权重修改。
为什么重要
这项工作的价值在于它重定义了问题层级。过去两年,Sora、Veo 等文生视频模型在单帧真实性上已近完美,但在视频物理一致性上始终系统性失败——球体无接触即加速、液面倒酒却不泛起波澜。此前所有对策(端到端训练、ControlNet 条件注入、测试时搜索)都默认“生成器是解药,欠拟合是症状”。而 NEWTON 明确提出“规格瓶颈”——文本提示本质上有损压缩了物理世界的质量、速度、摩擦系数等必要参数,模型缩放无法弥补输入端从未提供的信息。这意味着,解决物理错误不应直接修改扩散模型权重,而应在生成前的规划阶段精确定义“世界是什么”。这对于 AI 交叉学科和工程控制领域的研究者具有很强的启发意义。
对用户/开发者/创作者的影响
对创作者而言,该技术有望将视频生成从“抽奖式”产出变为可控的物理仿真流程,比如生成球体沿精确抛物线运动的镜头时,不再依赖概率匹配;对开发者而言,论文提出的 Flow-GRPO 训练方法展示了在 Agent 系统中,不应通过监督学习模仿专家轨迹,而应让规划器在真实多轮交互中通过强化学习吃掉自己的后果——这一思路可迁移至其他需要闭环验证的生成任务(如 3D 建模、机器人动作规划);对 AI 行业而言,它提供了一条不依赖更大算力或更大模型就能显著提升输出质量的可行路径,即通过工具组合与验证循环来弥补单一模型的先天不足。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
目前公开信息显示,该工作的代码已在 GitHub 开源。值得观察的点包括:第一,这一 Agent 架构能否迁移至其他视频生成器(如 Sora、Kling)且保持性能提升;第二,规划器在多轮迭代中是否会产生推理成本的显著增加,以及如何在延迟与质量间取得平衡;第三,业界是否会依此方向推出“物理优先”的视频工具产品,从而改变当前文生视频的评价标准——从追求“像不像”转向强制要求“对不对”。
来源:Readhub · AI


