
别光给 Agent 加 Tool 了,它根本选不明白!复旦 × 通义提出全新 CUA 训练范式
一句话看懂:复旦大学与通义实验室联合发布了 ToolCUA,一种针对 GUI 操作与工具调用混合场景的新训练范式。该模型在 OSWorld-MCP 基准测试中达到 46.85% 的准确率,超过了 Claude-4-Sonnet,并解决了直接将工具接入 Agent 反而导致性能下降的核心难题。
事件核心:发生了什么
传统 Computer Use Agent 只依赖 GUI 操作,如点击和输入,但步骤长、易累积误差。直觉上,同时集成工具调用(Tool)能提升效率,但实际测试显示,让模型自己决定何时点按钮、何时调 API 非常困难:过度或错误地使用工具反而降低了任务成功率。例如,Qwen3VL-235B 在接入工具后准确率从 41.1% 降至 38.1%,Claude-4.5-Sonnet 从 61.9% 降至 48.4%。
复旦与通义团队提出的 ToolCUA 通过两阶段训练解决此问题。第一阶段,利用数据合成管线将已有的纯 GUI 轨迹转化为穿插 GUI 与 Tool 的混合轨迹,让模型先学会理解工具和局部切换。第二阶段,在真实 GUI-Tool 环境中进行在线强化学习,使用“工具适当性奖励”和“路径效率奖励”来训练模型在完整任务中进行最优路径选择。结果,ToolCUA-8B 模型仅用 14.93 步(全表最低)即完成复杂任务,相比基线模型 Qwen3-VL-8B 取得了约 66% 的相对提升,代码和模型权重均已开源。
为什么重要
这项工作触及了 AI Agent 落地的关键瓶颈:混合动作空间中的“路径选择”问题。当前行业普遍倾向于给 Agent 集成大量工具,但 ToolCUA 的研究揭示,拥有工具不等于会用工具。这一发现挑战了目前只堆砌功能的开发思路,指出训练模型学会决策的时机比单纯增加工具数量更重要。它本质上为多模态大模型在复杂、真实的桌面自动化场景中,提供了从“能点”到“会选”的技术路线图,对提升 Agent 的实际可用性和效率具有直接示范意义。
对用户/开发者/创作者的影响
对于开发者而言,ToolCUA 的数据合成和训练方法提供了一套可复制的技术方案。这意味着未来开发软件机器人或自动化助手时,可以不再依赖手工标注庞大而昂贵的混合操作数据,而是通过算法自动生成。对普通用户来说,这意味着未来的 AI 助手能更聪明地处理表格、软件配置等复杂长任务,比如在 LibreOffice 中批量操作时,AI 会自主判断是调用 API 完成还是点击菜单完成,解决步骤更长、更易出错的问题。创作者利用 Agent 进行多应用数据采集和处理时,体验将更流畅、结果更稳定。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,ToolCUA 开源的模型权重能否在本地或私有化部署场景中广泛复现,并降低使用门槛。第二,业界是否会跟进这种混合动作空间下的训练规则,形成新的技术标准。第三,该方法能否从办公软件控制扩展到更复杂的行业应用,如设计软件或专业数据分析平台的自动化,这将决定它的长期价值。
来源:Readhub · AI


