具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

一句话看懂:至简动力、北大与港中文联合提出的 LaST-R1,首次将隐空间物理推理融入强化学习闭环,在 LIBERO 仿真基准上仅用 1 条轨迹预热便达到 99.9% 平均成功率,真机复杂任务表现比当前最强模型 π0.5 高出 22.5%。这项研究重新定义了具身大模型的后训练方向——从“优化动作”转向“同时优化动作背后的物理推理”。

事件核心:发生了什么

2026 年 5 月,至简动力、北京大学与香港中文大学的联合研究团队公开了 LaST-R1 框架,并宣布相关基座模型 LaST₀ 已被 ICML 2026 接收为 Spotlight 论文(top 2.2%)。LaST-R1 的核心创新是 LAPO 算法(Latent-to-Action Policy Optimization),它让环境反馈不仅能优化机器人的动作,还能优化其行动前在隐空间(latent space)中的“物理思考”过程。传统 VLA 模型(如 OpenVLA、π0、π0.5)多采用“观察→动作”的端到端映射,本质上是在模仿轨迹,无法泛化到物体位置、光照等环境变化。LaST-R1 则要求模型先生成一串隐空间推理嵌入(latent CoT),再基于此生成动作,并通过强化学习让推理与动作被联合优化。在 LIBERO 多个任务套件上,LaST-R1 平均成功率达到 99.9%;真机实验中,仅用 30 条轨迹的 warm-up 便达到 93.75% 的平均成功率,显著超过使用 100 条专家轨迹的 π0.5(71.25%)。

为什么重要

LaST-R1 的意义在于改变了具身大模型的优化对象。此前业界普遍认为,机器人的操作能力瓶颈在于动作执行的精度,因此强化学习主要围绕动作空间(Action Space)进行。但 LaST-R1 证明,更关键的瓶颈可能是“行动前是否具备物理推理”。机器人无需依赖语言级别的 CoT(太慢且颗粒度太粗),而是通过隐空间推理直接建模物体关系、场景结构和未来动态。这一范式让机器人从“会模仿”走向“会适应”——即使环境发生扰动(如物体偏移、光照变化),它依然能保持稳定表现。对于整个具身智能行业而言,这或许意味着后训练方向将从“精细化动作控制”转向“认知-动作联合优化”,从而加速机器人在非结构化场景中的落地。

对开发者/研究人员的影响

对于具身大模型的研究者和开发者,LaST-R1 提供了一个可直接复用的强化学习后训练框架。其 LAPO 算法将 latent reasoning 纳入 RL 优化目标,意味着传统只能优化动作的 PPO 等算法可能不再是首选。开发者在部署类似模型时,需要重新考虑模型架构中是否包含可优化的隐空间推理环节。此外,该框架对演示数据量的需求极低——仿真仅需 1 条轨迹、真机仅需 30 条轨迹即可启动后训练,这大幅降低了收集专家数据的高昂成本。不过,目前该框架的训练计算开销尚未公开,实际落地时仍需评估在设备端与服务器端的推理效率。

值得关注的后续

第一,LaST-R1 是否会在短期内开源或开放 API 接口,这将直接影响开发者能否基于此框架进行二次开发。第二,当许多团队快速跟进这一范式后,不同模型间的泛化能力差距是否会拉大,尤其是在更复杂的操作任务(如精密装配、柔性物体操作)上。第三,至简动力的商业化路径——是面向工业客户提供完整解决方案,还是向机器人厂商授权算法,仍需观察。

来源:量子位 · 每日最新

celebrityanime
celebrityanime
文章: 3192

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注