三连发!阿里发布首个具身大模型Qwen-Robot系列

6月16日,阿里巴巴发布千问(Qwen)家族首个完整的具身智能模型系列——Qwen-Robot,包含操作、导航和世界模型三大模块。这套模型旨在为不同形态机器人提供统一的“通用大脑”,使其在真实环境中听懂指令、自主移动并完成复杂任务,是阿里从数字智能体向物理智能体跨越的关键一步。

三连发!阿里发布首个具身大模型Qwen-Robot系列

一句话看懂:6月16日,阿里巴巴发布千问(Qwen)家族首个完整的具身智能模型系列——Qwen-Robot,包含操作、导航和世界模型三大模块。这套模型旨在为不同形态机器人提供统一的“通用大脑”,使其在真实环境中听懂指令、自主移动并完成复杂任务,是阿里从数字智能体向物理智能体跨越的关键一步。

事件核心:发生了什么

Qwen-Robot系列由三个模型组成:Qwen-RobotManip(VLA操作模型)负责让机器人“动手”,通过80维统一动作表征和基于摄像头相对位置的操作方式,解决换硬件或场景后性能下滑的痛点;Qwen-RobotNav(VLN导航模型)负责让机器人“认路”,将语言指令导航、目标搜索等五大任务统一到同一框架,并采用任务自适应观察机制避免记忆混乱;Qwen-RobotWorld(世界模型)负责“思考”,通过理解物理规律模拟动作轨迹,帮助机器人在执行前预演结果。据悉,Qwen-RobotManip仅在开源数据上完成超38000小时预训练,便在RoboChallenge Table30 v1真机测评中拿下前两名,覆盖拧水龙头、插网线、倒薯条等30项任务。

为什么重要

目前,具身智能行业正从实验室走向商业化落地,核心瓶颈在于模型在陌生环境下的泛化能力和跨硬件适配。Qwen-Robot系列通过统一动作表征、相对坐标操作和自适应观察机制,降低了机器人部署时对特定硬件和场景的依赖,使单一模型指挥多种形态机器人成为可能。同时,该系列采用完全基于开源数据训练的路径,区别于行业常见的私有自采数据模式,降低了模型复现和扩展的门槛。这对竞品(如谷歌RT系列、国内其他具身模型厂商)构成竞争压力,也可能加速具身智能从“单任务Demo”向“通用底座”的转变。

对用户/开发者/创作者的影响

对机器人厂商和开发者:Qwen-Robot系列提供“插拔式”的通用模型能力。开发者无需针对每个硬件重新训练操作模型,只需数步微调即可适配新机器人,可能大幅降低具身智能系统开发成本。Qwen-RobotNav原生支持多种智能体框架,可被上层模型调用,便于集成到复杂的自主任务链中。对企业采购方:如果这套模型稳定落地,企业选择机器人时可以更关注“通用大脑”而非依赖特定方案,采购灵活性提升。对AI行业研究人员:开源数据训练取得不错效果,为探索低成本、可复现的具身模型训练提供了参考路径。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,开源与商用进展:Qwen-Robot系列是否会开源、何时开放商用API,将直接影响开发者生态和竞争格局。第二,真实场景表现:现有评测是实验室真机测试,未来在工厂、家庭、仓储等复杂动态环境中的长程任务完成率,是衡量“通用基底”成色的关键。第三,竞品反应:字节、华为、百度等公司均有具身智能相关布局,Qwen-Robot系列发布后,头部厂商是否会调整各自的技术路线或加速产品发布,值得观察。

来源:量子位 · 每日最新

celebrityanime
celebrityanime
文章: 8011

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注