使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 以生成机器人视频

一句话看懂：NVIDIA 发布了一篇技术指南，介绍如何使用 LoRA/DoRA 技术，在单张 GPU 上高效微调其 20 亿参数的世界模型 Cosmos Predict 2.5，从而低成本生成机器人操作视频，用于训练机器人策略，降低实际数据采集成本。

事件核心：发生了什么

2026 年 5 月 18 日，NVIDIA 在 Hugging Face 博客发布了一篇技术文章，详细说明了使用 LoRA（低秩适配）和 DoRA（权重分解低秩适配）对 Cosmos Predict 2.5 模型进行参数高效微调（PEFT）的方法。Cosmos Predict 2.5 是一个大规模世界模型，能够根据文本、图像或视频片段生成物理上合理的视频。

文章提供了一个完整的代码指南，基于 diffusers 和 accelerate 库，支持单 GPU（至少 80GB）和 8×H100 的多 GPU 训练。微调的数据集来自 GR00T Dreams 项目，包含 92 个机器人操作视频（训练集）和 50 个（提示+初始帧）测试对。微调过程中，VAE、文本编码器和 DiT 主干均冻结，仅对 DiT 中的注意力层和前馈网络的权重注入 LoRA/DoRA 适配器，loRA 参数在混合精度训练中被上转换为 float32 以保证稳定性。

DoRA 是 LoRA 的变体，它进一步将权重分解为幅度和方向，再进行低秩更新。用户只需在配置中设置 use_dora=True，训练循环无需其他修改。微调后的模型可用于生成合成机器人轨迹，用于下游的机器人学习任务。

为什么重要

传统上，训练机器人策略需要大量真实的机器人演示数据，采集这些数据成本高昂、速度慢，且常受限于硬件和环境。通过微调世界模型来生成合成轨迹，提供了一种可扩展的替代方案。但全量微调一个 20 亿参数模型不仅计算昂贵，而且容易导致灾难性遗忘，即模型丢失其预训练阶段学到的通用知识。

LoRA/DoRA 方案通过注入小型可训练适配器，大幅降低显存和计算需求，同时生成的适配器文件小巧、可移植，能够在推理时灵活切换不同领域的适配器。这对于中小型团队以及需要部署多个场景（如不同机器人配置、不同视角）的开发者来说，意味着显著的成本降低和更高的迭代效率。NVIDIA 将这篇指南放在 Hugging Face 博客上，也暗示了其推动 Hugging Face 生态的意图，降低了开源社区和研究者使用该技术的门槛。

对用户/开发者/创作者的影响

机器人领域的研究者与工程师：可直接参考这篇指南，在单卡或小规模集群上微调 Cosmos Predict 2.5，为特定任务（如抓取、放置、操控）生成视频数据。这能大幅减少对昂贵真实机器人调试周期的依赖，加快从算法开发到验证的闭环。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

AI 应用开发者：LoRA/DoRA 的通用方法（不仅限于机器人视频）意味着，未来可以利用类似技术，将大型视频生成模型适配到游戏内容生成、自动驾驶场景仿真、工业模拟等垂直领域，计算门槛显著降低。

普通用户：虽然不会直接操作这个模型，但这项技术有助于推动更智能的机器人产品落地——机器人能在更少的真实数据上学会更复杂的动作，从而更快进入家用、仓储、医疗等场景。最终用户将享受到更低成本和更可靠的服务。

值得关注的后续

1. 该指南目前基于 Cosmos Predict 2.5（2B 参数），NVIDIA 是否会推出更大参数版本的 LoRA/DoRA 微调方案？这将影响不同算力层级用户的采用。

2. 使用 DoRA 是否在视频生成质量或训练稳定性上显著优于 LoRA？目前公开信息仅提供了配置方法，未公布定量对比结果，后续是否有对比基准是需要关注的点。

3. 随着 Hugging Face 生态中 Cosmos 系列模型的扩散，围绕 GR00T 等机器人开源数据集与微调 Recipe 的社区是否会快速壮大，形成新的“机器人数据飞轮”，这将是评估该项工作长期影响力的关键。

来源：Hugging Face Blog

使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 以生成机器人视频