
解决视频生成穿帮问题!浙大 & 微软 3000 条纯文本让模型理解 3D
一句话看懂:浙江大学与微软亚洲研究院联合提出 World-R1 方法,不修改模型架构、不依赖 3D 数据,仅通过强化学习在 3000 条纯文本描述上训练,就能让视频生成模型自动理解三维世界,大幅提升镜头运动时物体的几何一致性。
事件核心:发生了什么
团队基于 Wan 2.1 视频生成模型训练了 1.3B 和 14B 两个版本。核心是设计了一套四维复合奖励函数:用 Depth Anything 3 做元视角评分,从新角度检查几何幻觉;通过 3D 重建再渲染与原视频逐像素比对保真度;用光流约束相机轨迹对齐度;用 HPSv3 保持通用画质。训练时采用周期解耦策略:正常阶段用完整奖励强化几何一致性,每 100 步切换到动态场景避免物体“僵化”。最终,Small 版 PSNR 比基线提升 10.23 dB,LPIPS 从 0.467 降至 0.201,画质在 VBench 上也全面超越基线,实现了 3D 一致性与美学质量的双重提升。
为什么重要
此前解决视频生成穿帮的主流方案是往模型里加 3D 模块,但这会导致推理成本飙升、泛化能力变差,且无法用于文生视频。World-R1 证明了另一种路径:预训练模型中已包含足够的 3D 知识,通过强化学习的奖励信号即可“唤醒”。这降低了视频生成的技术门槛——无需重构模型架构,也无需昂贵的 3D 资产标注,纯文本描述就能让模型理解物理规律。对行业而言,这意味着一套低成本、可迁移的优化方法,可能被其他视频生成模型直接复现。
对用户/开发者/创作者的影响
对创作者来说,未来使用视频生成工具时,镜头运动产生的穿帮、扭曲、物体消失等问题将大幅减少,可以直接生成更稳定的推拉摇移镜头。对开发生和研究者而言,World-R1 的方法无需修改模型架构,只需要设计合适的奖励函数,就可以复现到现有模型上。项目代码已在 GitHub 开源,降低了二次开发成本。不过目前公开信息显示该方法基于 Wan 2.1 训练,直接迁移到其他框架的效果仍需验证。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
一是能否在其他主流视频生成模型(如 Sora、Gen-3 等)上验证通用性;二是 3000 条纯文本描述的生成质量对结果影响很大,团队是否准备公开这批场景描述集;三是该技术是否会被集成到微软的 Copilot 或 Azure AI 服务中,形成产品级落地方案。
来源:Readhub · AI
![[问与答] CodeX 的额度消耗过快,是我的错觉吗?](https://www.chat-gpts.plus/wp-content/uploads/2026/05/ai_cover_5-403-768x403.jpg)

