全行业首创!复旦系团队发布时空一体世界动作模型,半年豪斩 5 轮融资

全行业首创!复旦系团队发布时空一体世界动作模型,半年豪斩 5 轮融资

全行业首创!复旦系团队发布时空一体世界动作模型,半年豪斩 5 轮融资

一句话看懂:复旦大学深度学习实验室孵化的模深智能,于 5 月 31 日发布全球首个面向机器人的通用具身大脑——STI-WM 时空一体世界动作模型。该模型融合空间结构、时间演化与物理一致性,且已在半年内完成 5 轮融资,Pre-A 轮 3 亿元融资获超 5 倍超额认购,引发资本与产业双端关注。

事件核心:发生了什么

模深智能推出的 STI-WM 模型,定位为通用具身智能体的大脑,直接面向机器人硬件。该模型针对当前主流的 VLA(视觉-语言-动作)模型在空间感知、长期规划及实际部署中的痛点,首次实现空间结构、时间演化、物理一致性与执行鲁棒性的四维融合。底层可兼容 RGB 图像与深度点云等多模态输入,将复杂环境编码为紧凑的时空状态;上层支持长达数百秒的任务推理,下层输出精细动作段,形成“理解世界—推断未来—规划动作—执行纠错”的智能闭环。技术壁垒包括原生时空建模、基于点云的原生 3D 感知、内置碰撞检测与动态约束的物理一致性引擎,以及自研模型压缩量化技术,成功将千亿参数大模型部署到机器人边缘芯片上。

团队背景方面,公司科研基础由复旦大学陈涛教授牵头,工程落地由英特尔中国前首席科学家张奕民博士和一位 NVIDIA 技术负责人指导,商业化由 95 后复旦连续创业者穆泽林主导。自 2021 年以来,团队已完成 7 代动作模型技术迭代,并在 ICCV、CVPR 等全球顶级竞赛中多次夺冠。

为什么重要

该模型的意义在于,它直接从底层架构上挑战了当前具身智能的主流技术路线。传统的 VLA 模型依赖视觉与语言的组合推理,在复杂物理环境中容易产生空间误判和动作不连贯,而 STI-WM 通过将时空与物理规则内嵌到模型推理中,理论上能大幅降低机器人执行任务时的“犯错”概率。对于行业而言,这代表了一种从“视觉推理”转向“物理推理”的技术路径选择。此外,该模型已与宇树科技、后川科技、一家养老等多家行业龙头企业达成深度合作,其中包括超过 5 家万亿级产业巨头,未来三年预计锁定 1 亿元订单,这表明其技术正在从实验室快速向工业场景落地。模深智能半年内连续完成 5 轮融资,也反映出资本市场对具身智能商业化前景的极高押注。

对用户/开发者/创作者的影响

短期内,该模型主要面向机器人厂商和工业自动化企业,个人开发者还无法直接调用。但从开发者角度看,STI-WM 的架构逻辑——即用原生时空建模替代视觉语言堆叠——可能会影响后续开源具身模型的设计思路。若该模型未来开放 API 或推出开发者套件,将极大降低机器人编程中对高精度 3D 场景重建和复杂路径规划的需求。对于内容创作者和普通用户,其影响主要体现在间接层面:搭载该模型的四足或人形机器人在物流、巡检、养老陪护等场景中的成熟度有望提升,用户能在 1-2 年内亲眼看到机器人完成更复杂的物理操作任务。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,模型的实际落地效果:STI-WM 虽然在技术理论上具有突破性,但能否在真实工业环境中展现稳定的大规模部署能力,还需观察与宇树科技等合作项目的交付情况。第二,竞品跟进:目前 VLA 路线是行业主流,谷歌、特斯拉等均有布局,STI-WM 的路线是否能获得行业更多认可,将直接影响具身智能的技术收敛方向。第三,开发者生态建设:目前公开信息显示,该模型尚未披露开放 API 或开源计划。未来是否提供开发者工具链、边缘端 SDK,以及社区支持力度,将决定其能否从“单一产品”成长为“生态平台”。

来源:AIbase

celebrityanime
celebrityanime
文章: 4905

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注