机器人原生世界动作模型问世！首创时空一体架构，复旦系团队出品

一句话看懂：复旦系科创企业眸深智能发布了专为机器人打造的 STI-WM 时空一体世界动作模型，试图用“时空一体”原生架构替代目前主流的 VLA 拼接方案，解决机器人空间感知弱、物理逻辑差、长时序规划难等落地瓶颈。

事件核心：发生了什么

2026年5月31日，眸深智能正式推出 STI‑WM 时空一体世界动作模型。该模型宣称将空间结构、时间演化、物理一致性与执行鲁棒性四维统一建模，而非沿用“通用世界模型+VLA”的传统拼接路线。团队基于点云直接还原三维空间，内置碰撞检测与动力学约束引擎，支持百秒级连续任务推演与在线闭环纠偏。创始人团队包括来自复旦大学深度学习实验室的陈涛教授、原英特尔中国首席科学家张益民博士、英伟达前技术负责人以及95后连续创业者穆泽林。公司在半年内完成5轮融资，Pre‑A轮获3亿元且5倍超额认购，已与宇树科技、禾川科技、颐家养老等企业达成合作，未来三年预计锁定10亿元订单。

为什么重要

行业主流方案（如谷歌 RT‑系列、开源 VLA 框架）普遍面临模态割裂与物理约束缺失的问题——模型能生成“视觉合理”的动画，但在真机执行时会出现空间误判或动作失效。STI‑WM 的核心差异在于：它直接从三维点云而非二维图像理解环境，将物理一致性（碰撞、动力学）内置到模型推理中，这有可能降低机器人在真实场景中的调试成本与安全风险。若该路线被验证可行，它将推动具身智能从“看视频学动作”走向“理解物理规则执行任务”，成为通往通用机器人大脑的关键技术候选之一。

对用户/开发者/创作者的影响

机器人开发者与集成商： STI‑WM 宣称支持少样本泛化（虚拟预训练+少量真机微调）并已实现端侧轻量化部署，这将降低机器人小批量产和场景切换的标注与算力成本。如果模型对消费级硬件（如 Jetson Orin）兼容良好，中小企业也能快速构建特定场景的自主机器人。企业采购决策者： 在工业制造与居家康养场景，公司已锁定千亿级产业龙头客户的试点，这为后续规模化采购提供了参考基准。投资人： 半年五轮融资与五倍超额认购，表明资本市场对原生世界动作模型路线的认可度快速提升，需重点关注其公开 benchmark 与真机鲁棒性数据。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，STI‑WM 是否会在 GitHub 或学术平台开放模型权重与评估基准？目前公开信息显示其技术细节尚未完全披露，这影响第三方独立验证。第二，英伟达 DAIR 实验室于2025年5月引用了团队2022年的 MLD 核心思路，说明该技术路线已获顶尖机构认可，需观察后续是否有直接合作或模型集成。第三，半年五轮融资的节奏意味着公司即将进入规模化产品交付阶段，年末是否能交付“一脑多形”跨本体通用大脑的公开演示，将是评估其产业化速度的重要节点。

来源：量子位 · 每日最新

机器人原生世界动作模型问世！首创时空一体架构，复旦系团队出品