1小时真机RL微调成功率破95%!HIL-ResRL:即插即用的VLA“外挂”神器

华为云CloudRobo团队提出一种名为HIL-ResRL的轻量化训练方法,可将视觉-语言-动作(VLA)模型部署到真实工业场景的成功率,在1小时真机在线训练后提升至95%以上,同时大幅减少机器人的危险碰撞次数。

1小时真机RL微调成功率破95%!HIL-ResRL:即插即用的VLA“外挂”神器

一句话看懂:华为云CloudRobo团队提出一种名为HIL-ResRL的轻量化训练方法,可将视觉-语言-动作(VLA)模型部署到真实工业场景的成功率,在1小时真机在线训练后提升至95%以上,同时大幅减少机器人的危险碰撞次数。

事件核心:发生了什么

HIL-ResRL(基于人机协同残差强化学习的模型无关微调适配器)的核心创新在于,它不修改预训练的VLA大模型(如Diffusion Policy或π0.5),而是为其添加一个轻量的残差网络作为“纠偏小脑”。该网络在真实环境中通过强化学习(SAC算法)进行在线微调,同时引入人类操作员(通过3D SpaceMouse)在关键时刻进行干预和标记,从而既保留了基础模型的泛化能力,又解决了传统模仿学习因分布偏移和误差累积导致的失败问题。

实验使用UR5e机械臂执行三种工业任务:抓取放置、垂直放置和多孔插网线/插头。结果显示,原本成功率在50%-80%的基础模型,经过40到90分钟的真机训练后,成功率全部突破90%,部分超过95%。在高接触的“插网线”任务中,纯自主强化学习在一小时内触发了15次紧急急停,而HIL-ResRL在人类护航下仅触发2次。

为什么重要

这项研究对具身智能的工业落地有现实意义。现有VLA模型虽有强大泛化能力,但真实部署时对环境和物体位置的微小变化极为敏感,且传统真机强化学习方法(如HIL-SERL)在复杂任务中难以收敛,或需大量计算资源。HIL-ResRL的“即插即用”特性,使得企业无需重新训练或微调昂贵的大模型,只需通过轻量残差网络和少量人工干预,就能快速适配产线变化。这对于“多品种、小批量、短周期”的柔性制造场景尤其有价值,能显著缩短机器人换线调试的时间成本。

对用户/开发者/创作者的影响

对开发者而言,HIL-ResRL降低了VLA模型真机部署的门槛——不需要团队精通大模型微调技术,只需理解基础操作的强化学习(如SAC)以及如何集成残差策略。对制造业用户(如产线工程师)来说,他们可以直接使用市面上的预训练VLA模型(如π0.5),再配合HIL-ResRL进行1小时左右的在线微调,就能获得高精度、低危险的机器人操作能力。此外,该方法还展示了将力/力矩传感器等触觉信号作为多模态输入的能力,使插头等高精度接触任务成功率从50%提升至93%,这意味着工厂可在不更换硬件的前提下扩展机器人感知维度。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. 开源与生态:目前论文已公开(arxiv 2606.22860),但代码和预训练模型尚未释放。若后续开源,将显著加速该技术在中小型制造企业的验证和采用。2. 兼容性与上限:目前实验仅涉及UR5e一种机械臂和少量工业任务,其方法是否适用于多臂协作、更复杂的装配线场景,以及长时训练后的泛化性能是否退化,需要更多公开验证。3. 行业竞品:此前谷歌、丰田等单位已有类似残差强化学习方案,如π0.6∗,但计算代价高昂。HIL-ResRL的低成本特性可能推动更多云服务商(如华为云、亚马逊RoboMaker)推出集成此类“即插即用”适配的机器人AI服务。

来源:量子位 · 每日最新

celebrityanime
celebrityanime
文章: 9733

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注