具身智能迈入下半场,RoboMemArena 全面评测机器人记忆系统

具身智能迈入下半场,RoboMemArena 全面评测机器人记忆系统

具身智能迈入下半场,RoboMemArena 全面评测机器人记忆系统

一句话看懂:香港科技大学(广州)联合多所高校发布了 RoboMemArena,这是首个专门评测机器人长期记忆能力的系统性基准。它揭示了当前具身模型的关键短板——不是“不会做”,而是“记不住”,并提供了配套的真机评测和训练数据。

事件核心:发生了什么

RoboMemArena 由香港科技大学(广州)、清华大学、浙江大学、西湖大学、上海交通大学等机构联合推出。该基准聚焦于机器人的“记忆依赖型长程操作”(memory-dependent long-horizon manipulation),设计了物体转移、目标遮挡、动作计数、顺序执行四大核心场景,包含 26 项长程任务、151 个细粒度子任务及 2600 条专家演示轨迹。

与现有 benchmark 不同,RoboMemArena 提供了多模态标注(子任务级、关键帧级),并在仿真之外配套了 5 个真实机器人任务,其中最长的任务执行时长超过 3 分钟。论文、代码、数据集及排行榜均已在 GitHub 和 Hugging Face 开源。

同时,研究团队提出了一个名为 PrediMem 的记忆感知基线模型。它是一个双系统 VLA(视觉-语言-动作模型):高层 VLM 负责规划和管理短期与长期记忆,低层 VLA 执行动作。在 RoboMemArena 的仿真评测中,PrediMem 的整体任务成功率(TSR)为 38.5%,高于 MemER 的 27.3% 和 π0.5 的 21.5%;在真实机器人评测中,其平均成功率为 52%,而 π0.5 仅为 20%。在最复杂的“模仿人类做早餐”任务上,仅 PrediMem 成功完成。

为什么重要

这一工作将行业关注点从“瞬时操作精度”拉回到“历史状态理解与持续规划”上。过去两年,VLA 和世界模型虽然进步显著,但遇到多步骤、信息被遮挡或需计数重复动作的任务时,机器人往往失去上下文。RoboMemArena 系统性地定义了“机器人什么时候必须依赖历史信息”,并为该问题提供了可量化、可复现的测试环境。它设计的长程任务(平均超过 1000 步)和对 68.9% 子任务“记忆依赖”的标注,让模型之间的比较更加公平。

对于行业而言,如果一个记忆方法仅在仿真中有效、在真机上失效,其实际价值就会大打折扣。RoboMemArena 同时提供仿真和真机验证,降低了从论文到落地的信任成本。PrediMem 的结果也表明,记忆能力的提升不仅源于模型参数增大,更关键的是对历史信息组织方式的改进。

对用户/开发者/创作者的影响

对于开发者,RoboMemArena 提供了统一的评测接口(兼容 LIBERO 和 MuJoCo),并开放了高质量的长程轨迹数据与标注。如果开发者正在为家庭服务、仓储拣选等需要连续决策的场景训练机器人,这套基准可以直接用于测试模型的长期记忆能力,并对比自己的方案是否优于 Baseline。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对于具身智能研究者,该基准为“记忆机制”提供了明确的监督信号(关键帧标注、子任务拆解),让训练过程不再仅依赖最终成败标签。这可能会催生一批专门优化机器人记忆的小模型或插件模块。

对于 AI 应用端(如机器人创业公司),这套基准可以帮助量化筛选技术路线:采购或自研的导航、抓取模型能否在“物体被遮挡后仍找到”“重复计数无误”等任务上通过测试,直接关系到产品在真实家居或工厂环境中的鲁棒性。

值得关注的后续

一是 PrediMem 团队是否会开源模型权重和训练代码。目前项目页展示了训练实现入口,但具体开放程度将影响社区复现速度。二是是否会有更多主流 VLA 模型团队(如 Google 的 RT-系列、OpenAI 投资的 Figure)在 RoboMemArena 上提交结果,其排行榜的榜单质量将决定该基准的行业权威性。三是该基准是否会扩展至更多传感器模态(如触觉、听觉),以覆盖更复杂的长程环境记忆场景。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 3996

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注