具身智能迈入下半场，RoboMemArena 全面评测机器人记忆系统

一句话看懂：香港科技大学（广州）联合多所高校发布了 RoboMemArena，这是首个专门评测机器人长期记忆能力的系统性基准。它揭示了当前具身模型的关键短板——不是“不会做”，而是“记不住”，并提供了配套的真机评测和训练数据。

事件核心：发生了什么

RoboMemArena 由香港科技大学（广州）、清华大学、浙江大学、西湖大学、上海交通大学等机构联合推出。该基准聚焦于机器人的“记忆依赖型长程操作”（memory-dependent long-horizon manipulation），设计了物体转移、目标遮挡、动作计数、顺序执行四大核心场景，包含 26 项长程任务、151 个细粒度子任务及 2600 条专家演示轨迹。

与现有 benchmark 不同，RoboMemArena 提供了多模态标注（子任务级、关键帧级），并在仿真之外配套了 5 个真实机器人任务，其中最长的任务执行时长超过 3 分钟。论文、代码、数据集及排行榜均已在 GitHub 和 Hugging Face 开源。

同时，研究团队提出了一个名为 PrediMem 的记忆感知基线模型。它是一个双系统 VLA（视觉-语言-动作模型）：高层 VLM 负责规划和管理短期与长期记忆，低层 VLA 执行动作。在 RoboMemArena 的仿真评测中，PrediMem 的整体任务成功率（TSR）为 38.5%，高于 MemER 的 27.3% 和 π0.5 的 21.5%；在真实机器人评测中，其平均成功率为 52%，而 π0.5 仅为 20%。在最复杂的“模仿人类做早餐”任务上，仅 PrediMem 成功完成。

为什么重要

这一工作将行业关注点从“瞬时操作精度”拉回到“历史状态理解与持续规划”上。过去两年，VLA 和世界模型虽然进步显著，但遇到多步骤、信息被遮挡或需计数重复动作的任务时，机器人往往失去上下文。RoboMemArena 系统性地定义了“机器人什么时候必须依赖历史信息”，并为该问题提供了可量化、可复现的测试环境。它设计的长程任务（平均超过 1000 步）和对 68.9% 子任务“记忆依赖”的标注，让模型之间的比较更加公平。

对于行业而言，如果一个记忆方法仅在仿真中有效、在真机上失效，其实际价值就会大打折扣。RoboMemArena 同时提供仿真和真机验证，降低了从论文到落地的信任成本。PrediMem 的结果也表明，记忆能力的提升不仅源于模型参数增大，更关键的是对历史信息组织方式的改进。

对用户/开发者/创作者的影响

对于开发者，RoboMemArena 提供了统一的评测接口（兼容 LIBERO 和 MuJoCo），并开放了高质量的长程轨迹数据与标注。如果开发者正在为家庭服务、仓储拣选等需要连续决策的场景训练机器人，这套基准可以直接用于测试模型的长期记忆能力，并对比自己的方案是否优于 Baseline。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对于具身智能研究者，该基准为“记忆机制”提供了明确的监督信号（关键帧标注、子任务拆解），让训练过程不再仅依赖最终成败标签。这可能会催生一批专门优化机器人记忆的小模型或插件模块。

对于 AI 应用端（如机器人创业公司），这套基准可以帮助量化筛选技术路线：采购或自研的导航、抓取模型能否在“物体被遮挡后仍找到”“重复计数无误”等任务上通过测试，直接关系到产品在真实家居或工厂环境中的鲁棒性。

值得关注的后续

一是 PrediMem 团队是否会开源模型权重和训练代码。目前项目页展示了训练实现入口，但具体开放程度将影响社区复现速度。二是是否会有更多主流 VLA 模型团队（如 Google 的 RT-系列、OpenAI 投资的 Figure）在 RoboMemArena 上提交结果，其排行榜的榜单质量将决定该基准的行业权威性。三是该基准是否会扩展至更多传感器模态（如触觉、听觉），以覆盖更复杂的长程环境记忆场景。

来源：Readhub · AI

具身智能迈入下半场，RoboMemArena 全面评测机器人记忆系统