
一句话看懂:浙江大学与阿里巴巴的联合研究团队发布了两篇论文,提出了一套让 AI Agent(智能体)在没有人工干预的情况下,自主迭代生成、修正并优化自身“技能包”(Skill)的方法。其核心创新在于用一个“代理验证器”替代真实测试反馈,驱动 Agent 通过多轮自我进化,最终生成的技能包不仅比人工编写的更有效,还能跨模型复用。
事件核心:发生了什么
在“追 AI 的人”系列直播第 63 期中,来自伊利诺伊大学芝加哥分校的博士生张涵容分享了其团队两篇最新工作。研究指出,当前依赖人工编写 Skill 帮助 Agent 完成任务的方式存在两大问题:一是人工编写耗时巨大且收益有限(SkillsBench 中人工编写 Skill 仅将任务完成率从 30.6% 提升至 53.5%);二是“人机认知不匹配”,例如在自然科学领域,人工编写的 Skill 反而会降低 Agent 表现。
为此,团队提出了两层解决方案:CoEvoSkills 针对可控场景,让 Agent 在给定任务上下文后,通过“生成-代理验证-诊断-修复”的内外双循环共同进化,迭代出可执行的、包含多个文件的 Skill 包。数据显示,该方法在 SkillsBench 上的完成率比人工编写 Skill 高出 17 个百分点,且多数任务在 2-3 轮迭代内即可解决。Open Skill 则针对更开放的场景,让 Agent 在缺乏背景知识和验证信号的条件下,自主从网页、文档中搜索知识,并将其转化为可自我检验的 Skill。
为什么重要
这项研究为 AI Agent 的自动化部署和自进化能力提供了新的技术路径。传统方法中,Agent 依赖人类专家编写的指令或大量的真实反馈数据,成本高且泛化能力差。本研究提出的“代理验证”机制,使得 Agent 能够在不接触真实测试用例(ground truth)的情况下,通过迭代学会更适合自身执行逻辑的流程,甚至超越人类编写的版本。此外,自动进化的 Skill 包具备跨模型迁移能力(如在 Claude 4.6 生成的 Skill 可用于 Qwen 3、DeepSeek V3 等模型,性能提升 35% 至 44%),这意味着一次进化成本可以被多个模型共享,降低了生态构建的门槛。
对用户/开发者/创作者的影响
对开发者:未来可能不再需要为 Agent 平台手动编写繁琐的“技能”文档或工作流。开发者只需给出任务目标,Agent 即可自主探索并生成稳定的执行流程,这有望大幅降低基于 Agent 的自动化工具(如自动客服、代码助手、数据分析流水线)的开发和维护成本。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对普通用户:这意味着智能助手(如基于 Agent 的个人助理)将具备更强的自我适应能力。用户在提出复杂任务时,AI 可以不再依赖预设好的规则,而是基于自己的“尝试-验证-修正”来找到最优解法,从而提升任务完成的质量和成功率。
值得关注的后续
- 产品化落地:该研究是否会被集成到阿里巴巴的云服务或达摩院的业务中,作为 Agent 框架的一部分向企业客户开放,值得关注。
- 成本与可靠性平衡:文中提到进化过程存在迭代成本,代理验证器的设计也会增加推理开销。未来需要观察该技术如何在保证性能的同时优化成本,以及“代理验证”机制是否存在由幻觉或漏测导致失效的风险。
- 竞品跟进:OpenAI、Anthropic 等头部 AI 公司目前尚未正式推出类似的自进化技能框架。如果该技术展现出显著优势,可能会引发行业对 Agent 自监督进化路线的跟进与竞争。
来源:Readhub · AI
![[Model provier] Duplicate entries are created when adding a model authentication provider.](https://www.chat-gpts.plus/wp-content/uploads/2026/07/38381-1eed626b-768x403.jpg)
![[Model provider]Authorization removed](https://www.chat-gpts.plus/wp-content/uploads/2026/07/38383-86b80f6d-768x403.jpg)
