智源大会最清醒的一句话：大模型的下一场仗，不在屏幕里打了

一句话看懂：智源大会第二天，多位专家明确表示，当前大模型的能力主要停留在文本和视频生成的“屏幕世界”里，真正的AI竞争正在转向让机器理解并操作真实物理世界——即世界模型与具身智能的结合。这场转变意味着技术路线、数据需求和评价标准都将发生根本性变化。

事件核心：发生了什么

在2024年北京智源大会上，智源研究院院长王仲远公开指出，目前所有被冠以“世界模型”的系统（例如视频生成模型Sora）都不是真正的世界模型——它们能生成飞机与猪共舞的画面，却不知道万有引力定律。为此，智源将世界模型分为五类，并选择了“全模态潜空间”路线，试图将文本、图像、视频压缩到统一向量空间，建模物理状态。同时，银河通用创始人王鹤展示了其具身智能机器人通过合成数据+强化学习学会了与人类打网球（称为具身智能的AlphaGo时刻），并发布World Action Model范式融合VLA与无标签视频数据。两家公司一致认为，AI下一阶段的核心是从“屏幕推理”转向“物理执行”。

为什么重要

这一判断重构了行业竞争逻辑：世界模型需要的不是更多文本数据，而是物理常识（如重力、碰撞）的建模，当前主流的大语言模型范式存在天然局限。具身智能则需要千万小时级别的操作数据和百亿级以上的年投入，门槛远高于纯软件。智源已发布首个通用世界基座模型原型“悟界·Physis-v0.1”，而银河通用已有百亿估值且同时覆盖宁德时代产线和无人零售，显示出物理世界AI不仅是科研方向，也正在进入产业化早期。专家强调，中国占全球人形机器人交付量的87%，若0到1在中国完成，1到100的成熟化大概率也会在中国实现。

对用户/开发者/创作者的影响

对AI应用开发者：未来API生态可能不再只提供文本或图像生成接口，而会逐步开放“物理状态预测”或“机器人运动控制”能力，比如判断物体摔碎概率或规划抓取路径。对内容创作者：现在的视频生成工具擅长“虚构场景”，而未来擅长“符合物理规律的模拟”才是稀缺技能。对企业采购方（尤其制造业、零售业）：具身智能产品正在进入产线和无人店，评价标准不应只看软件演示，而应关注硬件通过率、数据闭环和真实场景的泛化能力。对投资者：当前行业有约230家国内具身创业公司，但王鹤指出真正做实事的人少、卖硬件的多，早期企业是否能跑通“投资+采购+验证”三位一体的模式尤为关键。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

一、智源将在今年下半年发布世界模型的评测框架和开源训练结果，这是判断“真实物理模型”能力标准的重要里程碑。二、银河通用给出的两年时间表——从GPT-2级别过渡到ChatGPT级别的具身智能——将成为检验70亿融资和200亿估值的试金石。三、需要注意的是，目前公开信息显示，无论是智源的“全模态潜空间”还是银河通用的WAM范式都还未完全走通，距离可复用、可商用的产品至少还需数年。

来源：Readhub · AI

智源大会最清醒的一句话：大模型的下一场仗，不在屏幕里打了

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

Edge AI Daily 早报（6 月 14 日）

AI 泡沫要崩？黄金跌了该割吗？解读 6 月投资疑惑

AI 热潮来袭，何去何从？别被「错失恐惧症」裹挟！

发表回复取消回复