前美团外卖技术负责人创业,做具身智能时代的“餐饮世界模型”

前美团外卖技术负责人创业,做具身智能时代的“餐饮世界模型”

前美团外卖技术负责人创业,做具身智能时代的“餐饮世界模型”

一句话看懂:前美团外卖技术负责人王栋博士带队创业成立元节智能(AtomBite.AI),主营餐饮后厨的具身智能方案,近期完成千万级种子轮融资,领投方为英诺科创基金。团队选择聚焦外卖打包与接驳这一高密度、高痛点场景,自研“视觉-触觉世界动作模型”(VT-WAM),而非通用机器人本体。

事件核心:发生了什么

元节智能近日宣布完成千万级种子轮融资,主要投资方包括英诺科创基金、水木清华校友种子基金及多位个人投资人。创始人王栋博士此前为美团外卖事业部技术负责人,管理千人产研团队,主导日均数千万订单的算法与系统架构;联合创始人李滔曾执掌美团外卖算法与数据体系。离岗后,王栋在北美及新加坡进行数月市场考察,认定餐饮后厨是具身智能最具确定性的商业落地场景。

从技术方案看,元节智能没有重新设计机器人硬件,而是开发面向餐饮场景的“世界动作模型”(World Action Model, WAM)。其核心为“VT-WAM”,融合视觉与触觉信息,用于预测抓取、打包等操作中的物理结果,例如饮料杯中的液体晃动、重心变化对摩擦力的影响。系统技术架构分为三层:上层是具身世界模型,负责环境认知与决策;中层是任务编排与调度引擎;底层为自研核心部件与通用硬件本体的结合。模型将从外卖打包与接驳环节切入,预计2026年内进入真实商家后厨进行规模化部署。

为什么重要

这一案例体现了具身智能从“通用世界模型”向“垂直场景世界模型”的务实转向。相比需要大量仿真、且在家庭或养老场景中长期无法达到商业ROI的通用方案,元节选择的餐饮后厨场景具有三个关键特征:全球共通需求(中国、北美、东南亚均面临人力成本上升与履约效率问题)、ROI清晰(降低错单率、减少人工即可带来直接付费价值),以及决策链条短(中小商家合作意愿强)。

同时,王栋团队明确反对VLA(视觉-语言-动作)路线的过度依赖语言模块,认为真实世界中的动作控制并不依赖语言,而应强调视觉与触觉的物理理解。这一技术选择可能影响行业对多模态模型架构的讨论——在精细操作任务中,“触觉 grounding”与“物理因果理解”或比语言指令更重要。如果VT-WAM在打包环节跑通,它将为餐饮行业提供一个可量产的自动化标尺,也可能向家庭厨房等更复杂场景迁移训练数据和模型能力。

对用户/开发者/创作者的影响

对餐饮商家与外卖平台:如果元节的打包模型在2026年如期部署,中小餐饮商家可能直接受益于错单率下降与人工成本减少,尤其在时薪持续上涨的北美市场与人员流动大的国内市场,这套方案可能成为提升履约效率的“刚性选项”。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对具身智能开发者与创业团队:元节的选择展示了一条“先沉淀真实场景数据、再养大模型”的路线:不急于做通用机器人,而是用打包等高频动作收集海量物理交互数据。开发者如果正寻找类似的垂直场景(如仓库分拣、实验室操作),可以借鉴其在视觉-触觉融合与因果物理建模上的思路。

对AI投资人与行业观察者:值得关注的是,元节团队的核心成员几乎全部来自美团外卖算法与数据体系——他们的经验不来自机器人硬件,而是来自“大规模调度+全链路数据驱动”的系统工程。这种能力迁移能否对冲机器人本体的硬件短板,将在2026年的实际部署中接受验证。

值得关注的后续

第一,2026年内打包模型能否按计划进入真实商家后厨并实现规模化部署,决定了该路线从理论到商业闭环的成败关键。第二,VT-WAM的“触觉 grounding”概念需要配套传感器与数据采集链路的成熟度,目前公开信息中未详细披露自研触觉传感器的具体指标,这是模型能否在复杂物理环境下稳定工作的核心变量。第三,其他具身智能公司是否会在类似高频、低感知难度的场景(如快餐打包、便利店补货)跟进这种方式,可能影响行业竞争格局。

来源:36氪 (36Kr)

celebrityanime
celebrityanime
文章: 5088

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注