解决视频生成穿帮问题！浙大 & 微软 3000 条纯文本让模型理解 3D

一句话看懂：浙江大学与微软亚洲研究院联合提出 World-R1 方法，不修改模型架构、不依赖 3D 数据，仅通过强化学习在 3000 条纯文本描述上训练，就能让视频生成模型自动理解三维世界，大幅提升镜头运动时物体的几何一致性。

事件核心：发生了什么

团队基于 Wan 2.1 视频生成模型训练了 1.3B 和 14B 两个版本。核心是设计了一套四维复合奖励函数：用 Depth Anything 3 做元视角评分，从新角度检查几何幻觉；通过 3D 重建再渲染与原视频逐像素比对保真度；用光流约束相机轨迹对齐度；用 HPSv3 保持通用画质。训练时采用周期解耦策略：正常阶段用完整奖励强化几何一致性，每 100 步切换到动态场景避免物体“僵化”。最终，Small 版 PSNR 比基线提升 10.23 dB，LPIPS 从 0.467 降至 0.201，画质在 VBench 上也全面超越基线，实现了 3D 一致性与美学质量的双重提升。

为什么重要

此前解决视频生成穿帮的主流方案是往模型里加 3D 模块，但这会导致推理成本飙升、泛化能力变差，且无法用于文生视频。World-R1 证明了另一种路径：预训练模型中已包含足够的 3D 知识，通过强化学习的奖励信号即可“唤醒”。这降低了视频生成的技术门槛——无需重构模型架构，也无需昂贵的 3D 资产标注，纯文本描述就能让模型理解物理规律。对行业而言，这意味着一套低成本、可迁移的优化方法，可能被其他视频生成模型直接复现。

对用户/开发者/创作者的影响

对创作者来说，未来使用视频生成工具时，镜头运动产生的穿帮、扭曲、物体消失等问题将大幅减少，可以直接生成更稳定的推拉摇移镜头。对开发生和研究者而言，World-R1 的方法无需修改模型架构，只需要设计合适的奖励函数，就可以复现到现有模型上。项目代码已在 GitHub 开源，降低了二次开发成本。不过目前公开信息显示该方法基于 Wan 2.1 训练，直接迁移到其他框架的效果仍需验证。