怎么量化机器人数据价值?ATHENA 将影响函数扩展到十亿参数 VLA,313× 加速筛选高价值数据

来自上海交通大学、同济大学等机构的研究团队提出了ATHENA框架,将影响函数扩展至十亿参数级多任务VLA模型的数据筛选,实现313倍加速。在实验中,使用更少但价值更高的数据训练出的机器人任务表现,反而超过了使用全部数据的方案。

怎么量化机器人数据价值?ATHENA 将影响函数扩展到十亿参数 VLA,313× 加速筛选高价值数据

一句话看懂:来自上海交通大学、同济大学等机构的研究团队提出了ATHENA框架,将影响函数扩展至十亿参数级多任务VLA模型的数据筛选,实现313倍加速。在实验中,使用更少但价值更高的数据训练出的机器人任务表现,反而超过了使用全部数据的方案。

事件核心:发生了什么

面对具身智能领域数据规模的快速增长,如何量化每条机器人示教轨迹(demonstration)对下游任务的实际价值,成为关键瓶颈。研究团队在论文《ATHENA: Accelerated Multi-Task Heterogeneous Influence Functions for Robot Data Curation》中提出一种数据筛选框架:通过Kronecker结构压缩梯度和随机截断Hessian逆近似,将50个任务的影响函数计算从8054.6 GPU小时压缩至25.7 GPU小时;同时设计Multitask Influence Interaction(MII)方案,分别评估数据对本任务及跨任务的贡献,避免全局排序偏斜。实验采用JAX版本pi系列VLA模型,在RoboTwin 2.0仿真基准上,ATHENA在保留90%数据时平均成功率44.70%,高于全量训练的43.42%;在真实ALOHA机器人平台6个任务中,ATHENA使用66.7%数据达到68.0%成功率,同样超过全量数据训练的60.0%。

为什么重要

长期以来,机器人数据管理依赖人工经验或轨迹长度、动作平滑度等外观规则,这些指标与下游闭环任务表现缺乏因果关联。影响函数虽能提供因果估计,但此前仅适用于小参数单任务模型。ATHENA首次将这一方法论推至十亿参数级多任务VLA模型,解决了计算成本和多任务失衡两大核心障碍。随着具身智能进入数据规模化阶段,筛选高价值数据直接关系到训练效率与成本控制——每一条低质量demonstration都意味着昂贵的人力采集和算力开销。该工作表明,通过因果视角进行数据筛选,可以在减少数据量的同时提升策略性能,改变了“数据越多越好”的直觉,为机器人数据管理提供了可工程化的新思路。

对用户/开发者/创作者的影响

对于具身智能研究者和开发者,ATHENA提供了一套可落地的数据价值评估工具:它不再依赖人类审美偏好,而是从下游闭环任务成功率反向量化数据质量。开发者在构建VLA模型训练流程时,可借助该框架自动筛选出对多任务协作最关键的示教轨迹,从而降低云端存储、机器人运行和人力采集成本。对于企业级机器人部署,这意味着在相同预算下,能用更少的高质量数据训练出更鲁棒的操作策略。目前公开信息显示,项目代码和详细文档已发布在GitHub及论文网站,便于社区复现和定制。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

一是ATHENA框架能否从仿真环境拓展至真实大规模产线数据,其加速效果在更大参数量(如百亿级)模型上是否维持;二是MII多任务影响机制是否会被集成进主流VLA训练管线如OpenVLA或pi0平台;三是行业是否会跟进开发类似工具,形成机器人数据管理的新标准,从而推动具身智能领域的商业模式从“堆数据”转向“精细化数据运营”。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 11185

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注