走进数采工厂：深聊机器人数据荒漠、四层金字塔与种树人

一句话看懂：机器人行业正面临“数据荒漠”——高质量交互数据需从零生产，成本极高。文章深度拆解了四种数据获取路线组成的“金字塔”，从昂贵的真机遥操到无限的仿真合成，揭示了具身智能规模化落地的核心瓶颈与破局方向。

事件核心：发生了什么

记者走访了智元机器人的上海数据采集工厂，并采访了智元合伙人姚卯青、Sharpa研究科学家张凯峰等多位从业者。文章指出，与可“吃掉互联网”的大模型不同，机器人所需的真机数据——包含视觉、力觉、关节位置等多维同步信息——几乎不存在于互联网，必须通过遥操作等人工方式逐条生产。智元旗下觅蜂科技2026年真机遥操产能已规划近200万小时，背后是约2000台机器人及对应规模的采集团队。谷歌DeepMind的RT-1项目调动13台机器人耗时17个月仅积累13万条轨迹，Open X-Embodiment数据集整合全球34家机构才凑出100万条，与现实中海量场景需求相比仍差距巨大。

为什么重要

机器人数据的稀缺性和高昂成本，是具身智能泛化能力的根本制约。文章梳理了“四层数据金字塔”的进展与困境：顶层（真机遥操数据）准确但昂贵且难以指数级扩张，一名熟练采集员8小时仅产出2-3小时有效数据，人力成本成为竞争力关键——中国借此在规模上正建立优势；第二层（仿真合成数据）是英伟达押注的路线，可无限量生成，甚至能创造现实中罕见的失败场景，如Sharpa仅用40小时仿真训练便练成乒乓球机器人，但存在“仿真到现实（Sim-to-Real）”的鸿沟，物理细节（如摩擦、形变）难以模拟，导致真机易出错。这两种路线的权衡，直接决定了机器人公司能否从实验室走向商业部署。

对用户/开发者/创作者的影响

对于机器人应用开发商而言，数据策略将成为核心竞争力——若选择真机路线，需承受高昂的硬件、场地和人力成本（如50美元/小时的外包采集费），但部署效果更直接；若选择仿真路线，需投入大量精力解决Sim-to-Real Gap（如部署域随机化技术）。对企业采购方，应要求供应商明确其训练数据的来源与规模，越接近顶层真实数据的模型在工厂、仓储等真实场景中可能更可靠。对产业观察者，人形机器人赛道的商业化速度，将直接取决于数据工厂的运营效率与仿真技术的突破。

值得关注的后续

第一，真机数据服务是否会成为独立商业模式？觅蜂科技已将自身定位为“物理AI数据基础设施”，200万小时产能的对外输出能力和定价策略值得关注。第二，英伟达的Isaac Lab等仿真工具能否在2026-2027年显著缩小Sim-to-Real鸿沟，尤其是触觉等精细操作的仿真质量能否质变。第三，中国与美国在“机器人数据采集劳动力”上的成本差异，是否会催生新的全球分工——类似AI数据标注产业向低成本地区迁移的历史。

来源：Readhub · AI