1小时真机RL微调成功率破95%！HIL-ResRL：即插即用的VLA“外挂”神器

一句话看懂：华为云CloudRobo团队提出一种名为HIL-ResRL的轻量化训练方法，可将视觉-语言-动作（VLA）模型部署到真实工业场景的成功率，在1小时真机在线训练后提升至95%以上，同时大幅减少机器人的危险碰撞次数。

事件核心：发生了什么

HIL-ResRL（基于人机协同残差强化学习的模型无关微调适配器）的核心创新在于，它不修改预训练的VLA大模型（如Diffusion Policy或π0.5），而是为其添加一个轻量的残差网络作为“纠偏小脑”。该网络在真实环境中通过强化学习（SAC算法）进行在线微调，同时引入人类操作员（通过3D SpaceMouse）在关键时刻进行干预和标记，从而既保留了基础模型的泛化能力，又解决了传统模仿学习因分布偏移和误差累积导致的失败问题。

实验使用UR5e机械臂执行三种工业任务：抓取放置、垂直放置和多孔插网线/插头。结果显示，原本成功率在50%-80%的基础模型，经过40到90分钟的真机训练后，成功率全部突破90%，部分超过95%。在高接触的“插网线”任务中，纯自主强化学习在一小时内触发了15次紧急急停，而HIL-ResRL在人类护航下仅触发2次。

为什么重要

这项研究对具身智能的工业落地有现实意义。现有VLA模型虽有强大泛化能力，但真实部署时对环境和物体位置的微小变化极为敏感，且传统真机强化学习方法（如HIL-SERL）在复杂任务中难以收敛，或需大量计算资源。HIL-ResRL的“即插即用”特性，使得企业无需重新训练或微调昂贵的大模型，只需通过轻量残差网络和少量人工干预，就能快速适配产线变化。这对于“多品种、小批量、短周期”的柔性制造场景尤其有价值，能显著缩短机器人换线调试的时间成本。

对用户/开发者/创作者的影响

对开发者而言，HIL-ResRL降低了VLA模型真机部署的门槛——不需要团队精通大模型微调技术，只需理解基础操作的强化学习（如SAC）以及如何集成残差策略。对制造业用户（如产线工程师）来说，他们可以直接使用市面上的预训练VLA模型（如π0.5），再配合HIL-ResRL进行1小时左右的在线微调，就能获得高精度、低危险的机器人操作能力。此外，该方法还展示了将力/力矩传感器等触觉信号作为多模态输入的能力，使插头等高精度接触任务成功率从50%提升至93%，这意味着工厂可在不更换硬件的前提下扩展机器人感知维度。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 开源与生态：目前论文已公开（arxiv 2606.22860），但代码和预训练模型尚未释放。若后续开源，将显著加速该技术在中小型制造企业的验证和采用。2. 兼容性与上限：目前实验仅涉及UR5e一种机械臂和少量工业任务，其方法是否适用于多臂协作、更复杂的装配线场景，以及长时训练后的泛化性能是否退化，需要更多公开验证。3. 行业竞品：此前谷歌、丰田等单位已有类似残差强化学习方案，如π0.6∗，但计算代价高昂。HIL-ResRL的低成本特性可能推动更多云服务商（如华为云、亚马逊RoboMaker）推出集成此类“即插即用”适配的机器人AI服务。

来源：量子位 · 每日最新

1小时真机RL微调成功率破95%！HIL-ResRL：即插即用的VLA“外挂”神器

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

[Bug]: github_copilot provider: ‘no choices’ error for claude-opus-4.8 despite #29392 fix

[Bug]: Custom `input_cost_per_token_above_ _tokens` tiers are silently dropped unless N is 128k/200k/272k

特朗普的白宫已经结束了人类首席执行官达里奥·阿莫代 (Dario Amodei)

发表回复取消回复