
实探京东机器人数采中心:宝妈、工人齐上阵 他们擦桌、缝纫的日常,能帮京东 AI 闯进物理世界吗?
一句话看懂:京东在宿迁启动全国首个具身智能数据采集社区,组织宝妈、工人等普通居民通过日常家务和工厂作业采集人类动作数据,计划两年内积累超1000万小时训练素材,试图解决具身智能“数据荒漠”难题,为机器人“大脑”提供训练燃料。
事件核心:发生了什么
5月20日,京东宣布全国首个具身智能数据采集社区在江苏宿迁正式运行。采集员多为当地社区居民,包括宝妈和制衣厂工人等,月收入3000元至3500元不等,采用多劳多得机制。他们头戴京东自研的JoyEgoCam采集终端,在家务劳动(擦桌、整理、清洁)或工业岗位(缝纫、质检)中,记录上肢轨迹、力度分布、人与环境交互等关键参数。每名采集员每天需完成6小时数据采集,数据经上传、清洗、质检、标注后用于训练VLA(视觉—语言—动作)等模型。
除社区场景外,京东还在宿迁设立了零售商超、物流仓储、康养中心、果园等多场景采集区,记录从果蔬采摘到老人照护的多样化人类行为。京东具身智能数据采集负责人透露,目前行业可用数据规模仅约100万小时,而京东目标是通过10万内部员工及外部50万合作人员,在两年内积累超1000万小时的真实场景视频数据。
为什么重要
具身智能赛道正面临“数据荒漠”困境:训练机器人“大脑”(如世界模型、VLN模型)需要海量、高质量的人类交互数据,但当前行业数据量仅约50万小时量级,与大语言模型动辄百亿小时级别相差巨大。京东这种“全员采集”模式,本质上是在建设数据基础设施——谁先积累足够多、覆盖足够广的真实人类操作数据,谁就更可能在机器人产业化抢跑中占据主动权。
与实验室仿真数据不同,来自真实家务、工厂、果园的第一人称视角数据(EGO数据集),能帮助模型理解人类意图和操作逻辑,提升泛化能力。京东联合帕西尼等公司,试图打通“采集—清洗—训练—部署”全链路,从源头上降低数据获取成本和门槛。
对用户/开发者/创作者的影响
对普通用户:短期内直接影响有限,但若数据积累成功,未来家政服务机器人、养老辅助机器人的操作能力可能显著提升,使AI真正走入家庭和社区场景。
对开发者及机器人企业:京东公开采集并清洗后的数据集,可能成为行业重要的开源或授权训练素材,降低中小团队自建采集系统的成本。同时,VLA等模型的训练流程标准化后,开发者可聚焦于上层应用而非底层数据。
对数据标注与采集从业者:创造了一批新兴岗位(数据采集员、标注师、训练师),但收入水平目前约3000-3500元/月,门槛较低,适合兼职或社区化运营。
值得关注的后续
1. 数据质量与规模兑现:京东能否在两年内真正完成1000万小时数据积累,以及这些数据清洗后的可用比例,是模型效果的关键。
2. 模型落地场景验证:当前采集数据如何转化为服装生产、物流分拣、养老护理等场景可部署的机器人能力,需要具体产品(如京东物流机器人)的测试结果。
3. 行业内竞争扩散:智元机器人等公司也已入场数据采集,后续是否会形成数据联盟或标准化协议,值得关注。
来源:Readhub · AI


