
一句话看懂:智源大会第二天,多位专家明确表示,当前大模型的能力主要停留在文本和视频生成的“屏幕世界”里,真正的AI竞争正在转向让机器理解并操作真实物理世界——即世界模型与具身智能的结合。这场转变意味着技术路线、数据需求和评价标准都将发生根本性变化。
事件核心:发生了什么
在2024年北京智源大会上,智源研究院院长王仲远公开指出,目前所有被冠以“世界模型”的系统(例如视频生成模型Sora)都不是真正的世界模型——它们能生成飞机与猪共舞的画面,却不知道万有引力定律。为此,智源将世界模型分为五类,并选择了“全模态潜空间”路线,试图将文本、图像、视频压缩到统一向量空间,建模物理状态。同时,银河通用创始人王鹤展示了其具身智能机器人通过合成数据+强化学习学会了与人类打网球(称为具身智能的AlphaGo时刻),并发布World Action Model范式融合VLA与无标签视频数据。两家公司一致认为,AI下一阶段的核心是从“屏幕推理”转向“物理执行”。
为什么重要
这一判断重构了行业竞争逻辑:世界模型需要的不是更多文本数据,而是物理常识(如重力、碰撞)的建模,当前主流的大语言模型范式存在天然局限。具身智能则需要千万小时级别的操作数据和百亿级以上的年投入,门槛远高于纯软件。智源已发布首个通用世界基座模型原型“悟界·Physis-v0.1”,而银河通用已有百亿估值且同时覆盖宁德时代产线和无人零售,显示出物理世界AI不仅是科研方向,也正在进入产业化早期。专家强调,中国占全球人形机器人交付量的87%,若0到1在中国完成,1到100的成熟化大概率也会在中国实现。
对用户/开发者/创作者的影响
对AI应用开发者:未来API生态可能不再只提供文本或图像生成接口,而会逐步开放“物理状态预测”或“机器人运动控制”能力,比如判断物体摔碎概率或规划抓取路径。对内容创作者:现在的视频生成工具擅长“虚构场景”,而未来擅长“符合物理规律的模拟”才是稀缺技能。对企业采购方(尤其制造业、零售业):具身智能产品正在进入产线和无人店,评价标准不应只看软件演示,而应关注硬件通过率、数据闭环和真实场景的泛化能力。对投资者:当前行业有约230家国内具身创业公司,但王鹤指出真正做实事的人少、卖硬件的多,早期企业是否能跑通“投资+采购+验证”三位一体的模式尤为关键。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
一、智源将在今年下半年发布世界模型的评测框架和开源训练结果,这是判断“真实物理模型”能力标准的重要里程碑。二、银河通用给出的两年时间表——从GPT-2级别过渡到ChatGPT级别的具身智能——将成为检验70亿融资和200亿估值的试金石。三、需要注意的是,目前公开信息显示,无论是智源的“全模态潜空间”还是银河通用的WAM范式都还未完全走通,距离可复用、可商用的产品至少还需数年。
来源:Readhub · AI


