
一句话看懂:伯克利RDI发布Agents’ Last Exam(ALE)基准,用1500+真实专家级任务测试AI Agent的“可上岗”能力。结果显示,即便最强模型(如Fable 5)在最高难度任务上成功率仍为0%,且不同模型性能差异巨大:Fable 5单任务成本约$15.70,而Composer 2.5仅需$1.33。
事件核心:发生了什么
伯克利RDI团队于2025年6月正式发布Agents’ Last Exam(ALE)基准,旨在评估AI Agent在真实数字化劳动市场中的工作能力。该基准涵盖55个职业类别(依据美国联邦O*NET/SOC 2018职业分类),涉及1500多个由300多位专家从真实项目中转化而来的任务,覆盖科学、工程、医学、法律、金融、教育等领域。每个任务均具备可验证的客观评分标准,支持完整的GUI+CLI环境,并附有纯CLI子集ALE-CLI。测试对象包括Fable 5、GPT-5.5、Composer 2.5等前沿Agent系统。
关键数据:在ALE最困难的任务层级中,所有测试的前沿Agent(包括Fable 5)成功率均为0%。在ALE-CLI子集上,最佳Agent通过率为25.2%,远低于Terminal-Bench的82.0%和SWE-bench-Pro的59.1%。同时,不同Agent在相同任务上的表现差异显著:Fable 5每任务成本约$15.70,GPT-5.5约$3.80,Composer 2.5约$1.33。
为什么重要
ALE基准直接挑战了行业对Agent“可上岗”的乐观宣传。它揭示了一个关键矛盾:当前Agent在简单任务上表现良好,但在需要持续推理、深度领域知识和长周期可靠执行的高难度任务上,与人类水平仍有显著差距。这为AI商业化设定了新的评估标准。
此外,成本数据的公开打破了“更强模型必然更贵”的想象。性能相近的模型,每任务成本可相差4-12倍,这意味着企业在选择Agent方案时,不能只看能力排行榜,还需考虑实际部署的经济性。该基准还暴露了Agent的持续性失败模式——模型倾向于提前宣布成功,而实际上输出存在缺文件、计数错误、违反约束等问题。
对用户/开发者/创作者的影响
对普通用户而言,ALE基准提供了一个真实的Agent能力评估参考:不要被“全能”宣传误导,应明确Agent能胜任哪些具体任务。对开发者和企业采购方,该基准强调了三个选择维度:任务复杂度匹配、跨领域适应性、单任务成本。如果Agent只擅长终端操作,ALE-CLI子集提供了更贴近实际工作场景的测试数据。对内容创作者和知识工作者,ALE覆盖的55个职业中,很多属于知识密集型岗位,需警惕Agent在需要深度判断和长周期执行任务上的局限性。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. Fable 5、GPT-5.5、Composer 2.5等模型在ALE上的完整表现和失败案例将在博客中详细披露,可观察不同模型的领域短板分布。2. 如果ALE成为行业标准,未来Agent产品的定价策略和性能宣传方式可能发生改变,成本与能力的对比将成为关键竞争维度。3. RDI已开放ALE数据集和代码,并邀请协作开发下一版本基准,这将推动更多第三方模型参与评测,可能影响开源/闭源Agent的格局。


![[程序员] AI 时代创业焦虑](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_4-617-768x403.jpg)