具身大模型R1时刻：LIBERO终结者，99.9%背后的物理推理新范式

一句话看懂：至简动力、北大与港中文联合提出的 LaST-R1，首次将隐空间物理推理融入强化学习闭环，在 LIBERO 仿真基准上仅用 1 条轨迹预热便达到 99.9% 平均成功率，真机复杂任务表现比当前最强模型 π0.5 高出 22.5%。这项研究重新定义了具身大模型的后训练方向——从“优化动作”转向“同时优化动作背后的物理推理”。

事件核心：发生了什么

2026 年 5 月，至简动力、北京大学与香港中文大学的联合研究团队公开了 LaST-R1 框架，并宣布相关基座模型 LaST₀ 已被 ICML 2026 接收为 Spotlight 论文（top 2.2%）。LaST-R1 的核心创新是 LAPO 算法（Latent-to-Action Policy Optimization），它让环境反馈不仅能优化机器人的动作，还能优化其行动前在隐空间（latent space）中的“物理思考”过程。传统 VLA 模型（如 OpenVLA、π0、π0.5）多采用“观察→动作”的端到端映射，本质上是在模仿轨迹，无法泛化到物体位置、光照等环境变化。LaST-R1 则要求模型先生成一串隐空间推理嵌入（latent CoT），再基于此生成动作，并通过强化学习让推理与动作被联合优化。在 LIBERO 多个任务套件上，LaST-R1 平均成功率达到 99.9%；真机实验中，仅用 30 条轨迹的 warm-up 便达到 93.75% 的平均成功率，显著超过使用 100 条专家轨迹的 π0.5（71.25%）。

为什么重要

LaST-R1 的意义在于改变了具身大模型的优化对象。此前业界普遍认为，机器人的操作能力瓶颈在于动作执行的精度，因此强化学习主要围绕动作空间（Action Space）进行。但 LaST-R1 证明，更关键的瓶颈可能是“行动前是否具备物理推理”。机器人无需依赖语言级别的 CoT（太慢且颗粒度太粗），而是通过隐空间推理直接建模物体关系、场景结构和未来动态。这一范式让机器人从“会模仿”走向“会适应”——即使环境发生扰动（如物体偏移、光照变化），它依然能保持稳定表现。对于整个具身智能行业而言，这或许意味着后训练方向将从“精细化动作控制”转向“认知-动作联合优化”，从而加速机器人在非结构化场景中的落地。

对开发者/研究人员的影响

对于具身大模型的研究者和开发者，LaST-R1 提供了一个可直接复用的强化学习后训练框架。其 LAPO 算法将 latent reasoning 纳入 RL 优化目标，意味着传统只能优化动作的 PPO 等算法可能不再是首选。开发者在部署类似模型时，需要重新考虑模型架构中是否包含可优化的隐空间推理环节。此外，该框架对演示数据量的需求极低——仿真仅需 1 条轨迹、真机仅需 30 条轨迹即可启动后训练，这大幅降低了收集专家数据的高昂成本。不过，目前该框架的训练计算开销尚未公开，实际落地时仍需评估在设备端与服务器端的推理效率。

值得关注的后续

第一，LaST-R1 是否会在短期内开源或开放 API 接口，这将直接影响开发者能否基于此框架进行二次开发。第二，当许多团队快速跟进这一范式后，不同模型间的泛化能力差距是否会拉大，尤其是在更复杂的操作任务（如精密装配、柔性物体操作）上。第三，至简动力的商业化路径——是面向工业客户提供完整解决方案，还是向机器人厂商授权算法，仍需观察。

来源：量子位 · 每日最新

具身大模型R1时刻：LIBERO终结者，99.9%背后的物理推理新范式