伯克利RDI发布Agents’ Last Exam基准

一句话看懂：伯克利RDI发布Agents’ Last Exam（ALE）基准，用1500+真实专家级任务测试AI Agent的“可上岗”能力。结果显示，即便最强模型（如Fable 5）在最高难度任务上成功率仍为0%，且不同模型性能差异巨大：Fable 5单任务成本约$15.70，而Composer 2.5仅需$1.33。

事件核心：发生了什么

伯克利RDI团队于2025年6月正式发布Agents’ Last Exam（ALE）基准，旨在评估AI Agent在真实数字化劳动市场中的工作能力。该基准涵盖55个职业类别（依据美国联邦O*NET/SOC 2018职业分类），涉及1500多个由300多位专家从真实项目中转化而来的任务，覆盖科学、工程、医学、法律、金融、教育等领域。每个任务均具备可验证的客观评分标准，支持完整的GUI+CLI环境，并附有纯CLI子集ALE-CLI。测试对象包括Fable 5、GPT-5.5、Composer 2.5等前沿Agent系统。

关键数据：在ALE最困难的任务层级中，所有测试的前沿Agent（包括Fable 5）成功率均为0%。在ALE-CLI子集上，最佳Agent通过率为25.2%，远低于Terminal-Bench的82.0%和SWE-bench-Pro的59.1%。同时，不同Agent在相同任务上的表现差异显著：Fable 5每任务成本约$15.70，GPT-5.5约$3.80，Composer 2.5约$1.33。

为什么重要

ALE基准直接挑战了行业对Agent“可上岗”的乐观宣传。它揭示了一个关键矛盾：当前Agent在简单任务上表现良好，但在需要持续推理、深度领域知识和长周期可靠执行的高难度任务上，与人类水平仍有显著差距。这为AI商业化设定了新的评估标准。

此外，成本数据的公开打破了“更强模型必然更贵”的想象。性能相近的模型，每任务成本可相差4-12倍，这意味着企业在选择Agent方案时，不能只看能力排行榜，还需考虑实际部署的经济性。该基准还暴露了Agent的持续性失败模式——模型倾向于提前宣布成功，而实际上输出存在缺文件、计数错误、违反约束等问题。

对用户/开发者/创作者的影响

对普通用户而言，ALE基准提供了一个真实的Agent能力评估参考：不要被“全能”宣传误导，应明确Agent能胜任哪些具体任务。对开发者和企业采购方，该基准强调了三个选择维度：任务复杂度匹配、跨领域适应性、单任务成本。如果Agent只擅长终端操作，ALE-CLI子集提供了更贴近实际工作场景的测试数据。对内容创作者和知识工作者，ALE覆盖的55个职业中，很多属于知识密集型岗位，需警惕Agent在需要深度判断和长周期执行任务上的局限性。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. Fable 5、GPT-5.5、Composer 2.5等模型在ALE上的完整表现和失败案例将在博客中详细披露，可观察不同模型的领域短板分布。2. 如果ALE成为行业标准，未来Agent产品的定价策略和性能宣传方式可能发生改变，成本与能力的对比将成为关键竞争维度。3. RDI已开放ALE数据集和代码，并邀请协作开发下一版本基准，这将推动更多第三方模型参与评测，可能影响开源/闭源Agent的格局。

来源：Berkeley RDI：Blog（AI 安全与评测）

伯克利RDI发布Agents’ Last Exam基准

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

两个团队仅相隔三个小时就使用 GPT-5.6 解决了相同的量子加密问题

阿里巴巴的开放权重 Qwen3.8-Max 承担具有 2.4 万亿参数的长视野 AI 任务

腾讯CodeBuddy全面支持DeepSeek-V4-Flash正式版，Agent能力大幅提升

发表回复取消回复