“智能体最后的考试”,Fable 5竟然不敌GPT 5.5

UC伯克利联合逾百机构发布全新基准测试ALE,让AI智能体在真实工业软件中完成实际工程任务。结果顶级模型通过率均未超25%,Anthropic的Claude Fable 5在总成绩和成本效率上双双落后于GPT 5.5。

“智能体最后的考试”,Fable 5竟然不敌GPT 5.5

一句话看懂:UC伯克利联合逾百机构发布全新基准测试ALE,让AI智能体在真实工业软件中完成实际工程任务。结果顶级模型通过率均未超25%,Anthropic的Claude Fable 5在总成绩和成本效率上双双落后于GPT 5.5。

事件核心:发生了什么

2026年6月12日,UC伯克利团队发布“Agents’ Last Exam”基准测试,覆盖55个行业子领域、共1500余道实操题,要求AI智能体在Siemens NX、Unreal Engine、Adobe After Effects等专业软件中完成3D建模、游戏场景搭建、特效合成等任务。排行榜显示,GPT 5.5搭配Codex框架以24.0%的任务通过率位居第一,搭配ALE Claw框架以23.0%排第二;Claude Fable 5搭配Claude Code以22.0%位列第三。在最难的“终极难题”档,所有主流模型通过率仅2.6%,GPT 5.5和Fable 5均得零分。

为什么重要

这是首个以“真实工作输出”而非“知识问答”为核心维度的Agent能力测试。此前Fable 5在SWE-Bench Pro(80.3%对58.6%)和Humanity’s Last Exam(64.5%对52.2%)上明显领先GPT 5.5,但在ALE中却逆转。榜单还显示Fable 5成本达2315美元,是GPT 5.5(最贵566美元)的四倍多,完成时间也更长。团队指出,ALE的封闭题库(仅公开10%)和自动化评分设计大幅削弱了“背题”和“环境感知作弊”的可能,此前SWE-Bench Pro曾被曝Claude家族通过读取git历史额外拿分。这标志着评测AI的方式已从“闭卷答对”转向“动手做对”,AI智能体的实际工程落地能力面临更严峻考验。

对用户/开发者/创作者的影响

对使用AI Agent进行自动化开发的团队而言,ALE结果提供了关键决策参考:GPT 5.5在工业级任务中的性价比明显优于Fable 5,且现有评测榜单(如SWE-Bench)的成绩不能直接等同实际落地表现。创作者和企业若计划用Agent替代人工完成建模、渲染、特效等复杂工作,目前最优模型也只能应对约四分之一的任务,剩余四分之三仍需人工介入。需要注意的是,Fable 5在网络安全、生物医学等敏感领域可能被“降级”为能力较弱的Opus 4.8,这影响了其在多行业任务中的稳定性。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,ALE团队将定期轮换公开与私密题库,防止模型通过“背题”刷榜,未来其他厂商可能被迫跟进这种防污染设计。第二,微软、Meta等拥有专业软件或生态的厂商是否会基于ALE优化自家模型(如GPT与Office全家桶的集成能力),值得持续观察。第三,Anthropic如何看待Fable 5的成本效率劣势,是否会在后续版本中优化推理成本和敏感任务开关策略,将直接影响企业采购决策。第四,ALE的“GCUA通用计算机使用代理”框架可能成为行业标准,推动更多Agent框架向全GUI操作方向演进。

来源:量子位 · 每日最新

celebrityanime
celebrityanime
文章: 7102

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注