
使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 以生成机器人视频
一句话看懂:NVIDIA 发布了一篇技术指南,介绍如何使用 LoRA/DoRA 技术,在单张 GPU 上高效微调其 20 亿参数的世界模型 Cosmos Predict 2.5,从而低成本生成机器人操作视频,用于训练机器人策略,降低实际数据采集成本。
事件核心:发生了什么
2026 年 5 月 18 日,NVIDIA 在 Hugging Face 博客发布了一篇技术文章,详细说明了使用 LoRA(低秩适配)和 DoRA(权重分解低秩适配)对 Cosmos Predict 2.5 模型进行参数高效微调(PEFT)的方法。Cosmos Predict 2.5 是一个大规模世界模型,能够根据文本、图像或视频片段生成物理上合理的视频。
文章提供了一个完整的代码指南,基于 diffusers 和 accelerate 库,支持单 GPU(至少 80GB)和 8×H100 的多 GPU 训练。微调的数据集来自 GR00T Dreams 项目,包含 92 个机器人操作视频(训练集)和 50 个(提示+初始帧)测试对。微调过程中,VAE、文本编码器和 DiT 主干均冻结,仅对 DiT 中的注意力层和前馈网络的权重注入 LoRA/DoRA 适配器,loRA 参数在混合精度训练中被上转换为 float32 以保证稳定性。
DoRA 是 LoRA 的变体,它进一步将权重分解为幅度和方向,再进行低秩更新。用户只需在配置中设置 use_dora=True,训练循环无需其他修改。微调后的模型可用于生成合成机器人轨迹,用于下游的机器人学习任务。
为什么重要
传统上,训练机器人策略需要大量真实的机器人演示数据,采集这些数据成本高昂、速度慢,且常受限于硬件和环境。通过微调世界模型来生成合成轨迹,提供了一种可扩展的替代方案。但全量微调一个 20 亿参数模型不仅计算昂贵,而且容易导致灾难性遗忘,即模型丢失其预训练阶段学到的通用知识。
LoRA/DoRA 方案通过注入小型可训练适配器,大幅降低显存和计算需求,同时生成的适配器文件小巧、可移植,能够在推理时灵活切换不同领域的适配器。这对于中小型团队以及需要部署多个场景(如不同机器人配置、不同视角)的开发者来说,意味着显著的成本降低和更高的迭代效率。NVIDIA 将这篇指南放在 Hugging Face 博客上,也暗示了其推动 Hugging Face 生态的意图,降低了开源社区和研究者使用该技术的门槛。
对用户/开发者/创作者的影响
机器人领域的研究者与工程师:可直接参考这篇指南,在单卡或小规模集群上微调 Cosmos Predict 2.5,为特定任务(如抓取、放置、操控)生成视频数据。这能大幅减少对昂贵真实机器人调试周期的依赖,加快从算法开发到验证的闭环。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
AI 应用开发者:LoRA/DoRA 的通用方法(不仅限于机器人视频)意味着,未来可以利用类似技术,将大型视频生成模型适配到游戏内容生成、自动驾驶场景仿真、工业模拟等垂直领域,计算门槛显著降低。
普通用户:虽然不会直接操作这个模型,但这项技术有助于推动更智能的机器人产品落地——机器人能在更少的真实数据上学会更复杂的动作,从而更快进入家用、仓储、医疗等场景。最终用户将享受到更低成本和更可靠的服务。
值得关注的后续
1. 该指南目前基于 Cosmos Predict 2.5(2B 参数),NVIDIA 是否会推出更大参数版本的 LoRA/DoRA 微调方案?这将影响不同算力层级用户的采用。
2. 使用 DoRA 是否在视频生成质量或训练稳定性上显著优于 LoRA?目前公开信息仅提供了配置方法,未公布定量对比结果,后续是否有对比基准是需要关注的点。
3. 随着 Hugging Face 生态中 Cosmos 系列模型的扩散,围绕 GR00T 等机器人开源数据集与微调 Recipe 的社区是否会快速壮大,形成新的“机器人数据飞轮”,这将是评估该项工作长期影响力的关键。


