全行业首创！复旦系团队发布时空一体世界动作模型，半年豪斩 5 轮融资

一句话看懂：复旦大学深度学习实验室孵化的模深智能，于 5 月 31 日发布全球首个面向机器人的通用具身大脑——STI-WM 时空一体世界动作模型。该模型融合空间结构、时间演化与物理一致性，且已在半年内完成 5 轮融资，Pre-A 轮 3 亿元融资获超 5 倍超额认购，引发资本与产业双端关注。

事件核心：发生了什么

模深智能推出的 STI-WM 模型，定位为通用具身智能体的大脑，直接面向机器人硬件。该模型针对当前主流的 VLA（视觉-语言-动作）模型在空间感知、长期规划及实际部署中的痛点，首次实现空间结构、时间演化、物理一致性与执行鲁棒性的四维融合。底层可兼容 RGB 图像与深度点云等多模态输入，将复杂环境编码为紧凑的时空状态；上层支持长达数百秒的任务推理，下层输出精细动作段，形成“理解世界—推断未来—规划动作—执行纠错”的智能闭环。技术壁垒包括原生时空建模、基于点云的原生 3D 感知、内置碰撞检测与动态约束的物理一致性引擎，以及自研模型压缩量化技术，成功将千亿参数大模型部署到机器人边缘芯片上。

团队背景方面，公司科研基础由复旦大学陈涛教授牵头，工程落地由英特尔中国前首席科学家张奕民博士和一位 NVIDIA 技术负责人指导，商业化由 95 后复旦连续创业者穆泽林主导。自 2021 年以来，团队已完成 7 代动作模型技术迭代，并在 ICCV、CVPR 等全球顶级竞赛中多次夺冠。

为什么重要

该模型的意义在于，它直接从底层架构上挑战了当前具身智能的主流技术路线。传统的 VLA 模型依赖视觉与语言的组合推理，在复杂物理环境中容易产生空间误判和动作不连贯，而 STI-WM 通过将时空与物理规则内嵌到模型推理中，理论上能大幅降低机器人执行任务时的“犯错”概率。对于行业而言，这代表了一种从“视觉推理”转向“物理推理”的技术路径选择。此外，该模型已与宇树科技、后川科技、一家养老等多家行业龙头企业达成深度合作，其中包括超过 5 家万亿级产业巨头，未来三年预计锁定 1 亿元订单，这表明其技术正在从实验室快速向工业场景落地。模深智能半年内连续完成 5 轮融资，也反映出资本市场对具身智能商业化前景的极高押注。

对用户/开发者/创作者的影响

短期内，该模型主要面向机器人厂商和工业自动化企业，个人开发者还无法直接调用。但从开发者角度看，STI-WM 的架构逻辑——即用原生时空建模替代视觉语言堆叠——可能会影响后续开源具身模型的设计思路。若该模型未来开放 API 或推出开发者套件，将极大降低机器人编程中对高精度 3D 场景重建和复杂路径规划的需求。对于内容创作者和普通用户，其影响主要体现在间接层面：搭载该模型的四足或人形机器人在物流、巡检、养老陪护等场景中的成熟度有望提升，用户能在 1-2 年内亲眼看到机器人完成更复杂的物理操作任务。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，模型的实际落地效果：STI-WM 虽然在技术理论上具有突破性，但能否在真实工业环境中展现稳定的大规模部署能力，还需观察与宇树科技等合作项目的交付情况。第二，竞品跟进：目前 VLA 路线是行业主流，谷歌、特斯拉等均有布局，STI-WM 的路线是否能获得行业更多认可，将直接影响具身智能的技术收敛方向。第三，开发者生态建设：目前公开信息显示，该模型尚未披露开放 API 或开源计划。未来是否提供开发者工具链、边缘端 SDK，以及社区支持力度，将决定其能否从“单一产品”成长为“生态平台”。

来源：AIbase

全行业首创！复旦系团队发布时空一体世界动作模型，半年豪斩 5 轮融资