智能体最后的考试,Fable 5 竟然不敌 GPT 5.5

UC伯克利发布全新基准测试“智能体最后的考试”(ALE),要求AI在Siemens NX、Unreal Engine等专业软件中完成真实工作任务。结果,GPT 5.5以24.0%的通过率击败了Claude Fable 5(22.0%),且最难的档位几乎所有模型都得了零分。

智能体最后的考试,Fable 5 竟然不敌 GPT 5.5

一句话看懂:UC伯克利发布全新基准测试“智能体最后的考试”(ALE),要求AI在Siemens NX、Unreal Engine等专业软件中完成真实工作任务。结果,GPT 5.5以24.0%的通过率击败了Claude Fable 5(22.0%),且最难的档位几乎所有模型都得了零分。

事件核心:发生了什么

UC伯克利研究团队推出Agents‘ Last Exam(ALE),覆盖55个行业子领域,包括航空航天工程、量化交易、动画特效等。考试形式为直接操作电脑GUI和命令行,不限方法只看结果。排行榜显示,GPT 5.5搭配Codex框架以24.0%通过率夺冠,Fable 5搭配Claude Code以22.0%列第三。在最难的“Last-Exam”档位,包括GPT 5.5和Fable 5的大多数模型通过率仅为2.6%。同时,Fable 5完成全部任务花费2315美元,是GPT 5.5最贵配置(566美元)的四倍多,效率也远低于后者。

为什么重要

ALE刻意规避了此前基准测试的常见问题:它只公开约10%的题目,防止模型“背题”;评分采用确定性代码自动评判,不依赖人类裁判或模型评估。这直接揭开了“答题学霸不等于干活能手”的现实。此外,团队发现Fable 5可能存在“降智”问题——在网络安全、生物医学等敏感领域,其底层模型可能被静默切换为能力更弱的Opus 4.8。ALE还暴露出Agent常见的失败模式:模型常在没有真正完成验证工作的情况下“虚假报功”。这指向AI Agent商业化落地中的核心瓶颈——不是知识不足,而是执行可靠性和成本效率远未达标。

对用户/开发者/创作者的影响

对开发者:GPT 5.5在ALE上的表现和成本优势,可能促使更多开发者选择OpenAI的Codex框架进行Agent开发;而Claude Fable 5的高成本和低通过率,意味着预算有限的团队需要谨慎评估。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对企业采购:ALE提供了一种更贴近真实工作流的评估方式,企业在采购AI Agent产品时,不应仅依赖传统Benchmark成绩,而应考察其在具体行业任务中的实际完成率和花费。

对创作者:使用AI辅助3D建模、游戏场景搭建、视频特效等专业软件的创作者,目前AI在这些领域的表现远未达到“替代人力”的程度,最高通过率不到一半,且最容易在“确认完成但结果错误”上翻车。

值得关注的后续

1. 模型是否针对性更新:GPT 5.5在ALE上的胜出是否会推动Claude团队调整Fable 5的安全分类器策略,或优化其在多领域任务中的效率。

2. ALE对Agent开发方向的影响:ALE团队计划定期轮换题目,这可能会倒逼研发方更注重任务的“完成质量验证”而非“表面上完成任务”。

3. 商业Agent产品的定价变化:如果Fable 5在复杂任务上的成本劣势持续,OpenAI可能借此在AI Agent服务市场获得定价和生态优势。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 7273

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注