把GPT-4o拉下神坛！星源智联合北大推出RoboAgent，让3B VLM在未知场景跑出94%成功率

一句话看懂：北京大学与星源智团队联合提出了RoboAgent，一种能力驱动的具身任务规划方案，让仅有3B参数的视觉-语言模型（VLM）在未见过的场景中，任务成功率最高达到94%，甚至超越了GPT-4o。相关论文已被CVPR 2026接收。

事件核心：发生了什么

北京大学副教授穆亚东及北大、星源智团队共同推出了RoboAgent。该方案的核心思路是将复杂的机器人任务规划拆解为五个基础能力模块（探索引导、物体定位、场景描述、动作解码、经验总结），由同一个VLM作为调度器端到端调用。团队还设计了三阶段训练路径：先利用专家轨迹进行监督微调，再通过模型生成轨迹并利用模拟器内部信息进行纠正性训练，最后使用专家策略优化（EIPO）算法提升稳定性和纠错能力。最终，基于Qwen2.5-VL-3B的模型在ALFWorld（视觉）任务上平均成功率达到77.6%，在ALFWorld（文本）任务上达到94.0%，均大幅超过此前最好的方案，包括参数量更大的模型和GPT-4o。论文已被学术界顶会CVPR 2026录用。

为什么重要

RoboAgent的核心贡献不在于提出新的大模型，而在于展示了如何通过合理的架构设计和训练策略，让现有小型VLM在长程、多步骤的机器人规划任务中，能力超越更大规模的模型和闭源API。这种做法直接挑战了“模型参数越大、能力越强”的主流认知。从技术路线看，它证明了“能力驱动”而非“直接输出动作”的范式，可以有效解决具身任务中奖励稀疏、探索困难等问题。对于机器人行业，这意味着降低了对超大模型的依赖，使得在算力有限的边缘设备上部署高性能规划模型成为可能。

对用户/开发者/创作者的影响

对于机器人开发者而言，RoboAgent提供了一套可复现、无需外部工具、端到端可训练的规划框架。其三阶段训练方法（模仿学习-自我纠错-专家引导）具有通用性，开发者可以借鉴这一思路优化自己的VLM模型。对于AI研究人员来说，这项工作的意义在于揭示了“如何训练”比“用什么模型训练”更关键——通过小模型+高质量中间监督，同样可以取得顶尖结果。目前公开信息显示，该方案尚未开放模型权重或API，但其开源研究论文和方法论已经为行业提供了可直接参考的技术路径。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，RoboAgent是否会将代码或训练好的模型开源？这将直接影响开发者能否快速复制成果。第二，团队计划如何将这一能力驱动的架构从仿真环境迁移到真实机器人上？当前实验全部在模拟器中进行，物理世界的泛化性仍需验证。第三，CVPR 2026录用后，同行反馈和复现情况如何？这是判断该方案实际有效性的关键。若上述问题得到明确回答，RoboAgent有望成为长程机器人任务规划的一个重要参考基线。

来源：InfoQ CN

把GPT-4o拉下神坛！星源智联合北大推出RoboAgent，让3B VLM在未知场景跑出94%成功率