别光给 Agent 加 Tool 了，它根本选不明白！复旦 × 通义提出全新 CUA 训练范式

一句话看懂：复旦大学与通义实验室联合发布了 ToolCUA，一种针对 GUI 操作与工具调用混合场景的新训练范式。该模型在 OSWorld-MCP 基准测试中达到 46.85% 的准确率，超过了 Claude-4-Sonnet，并解决了直接将工具接入 Agent 反而导致性能下降的核心难题。

事件核心：发生了什么

传统 Computer Use Agent 只依赖 GUI 操作，如点击和输入，但步骤长、易累积误差。直觉上，同时集成工具调用（Tool）能提升效率，但实际测试显示，让模型自己决定何时点按钮、何时调 API 非常困难：过度或错误地使用工具反而降低了任务成功率。例如，Qwen3VL-235B 在接入工具后准确率从 41.1% 降至 38.1%，Claude-4.5-Sonnet 从 61.9% 降至 48.4%。

复旦与通义团队提出的 ToolCUA 通过两阶段训练解决此问题。第一阶段，利用数据合成管线将已有的纯 GUI 轨迹转化为穿插 GUI 与 Tool 的混合轨迹，让模型先学会理解工具和局部切换。第二阶段，在真实 GUI-Tool 环境中进行在线强化学习，使用“工具适当性奖励”和“路径效率奖励”来训练模型在完整任务中进行最优路径选择。结果，ToolCUA-8B 模型仅用 14.93 步（全表最低）即完成复杂任务，相比基线模型 Qwen3-VL-8B 取得了约 66% 的相对提升，代码和模型权重均已开源。

为什么重要

这项工作触及了 AI Agent 落地的关键瓶颈：混合动作空间中的“路径选择”问题。当前行业普遍倾向于给 Agent 集成大量工具，但 ToolCUA 的研究揭示，拥有工具不等于会用工具。这一发现挑战了目前只堆砌功能的开发思路，指出训练模型学会决策的时机比单纯增加工具数量更重要。它本质上为多模态大模型在复杂、真实的桌面自动化场景中，提供了从“能点”到“会选”的技术路线图，对提升 Agent 的实际可用性和效率具有直接示范意义。

对用户/开发者/创作者的影响

对于开发者而言，ToolCUA 的数据合成和训练方法提供了一套可复制的技术方案。这意味着未来开发软件机器人或自动化助手时，可以不再依赖手工标注庞大而昂贵的混合操作数据，而是通过算法自动生成。对普通用户来说，这意味着未来的 AI 助手能更聪明地处理表格、软件配置等复杂长任务，比如在 LibreOffice 中批量操作时，AI 会自主判断是调用 API 完成还是点击菜单完成，解决步骤更长、更易出错的问题。创作者利用 Agent 进行多应用数据采集和处理时，体验将更流畅、结果更稳定。