“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

一句话看懂：UC伯克利联合逾百机构发布全新基准测试ALE，让AI智能体在真实工业软件中完成实际工程任务。结果顶级模型通过率均未超25%，Anthropic的Claude Fable 5在总成绩和成本效率上双双落后于GPT 5.5。

事件核心：发生了什么

2026年6月12日，UC伯克利团队发布“Agents’ Last Exam”基准测试，覆盖55个行业子领域、共1500余道实操题，要求AI智能体在Siemens NX、Unreal Engine、Adobe After Effects等专业软件中完成3D建模、游戏场景搭建、特效合成等任务。排行榜显示，GPT 5.5搭配Codex框架以24.0%的任务通过率位居第一，搭配ALE Claw框架以23.0%排第二；Claude Fable 5搭配Claude Code以22.0%位列第三。在最难的“终极难题”档，所有主流模型通过率仅2.6%，GPT 5.5和Fable 5均得零分。

为什么重要

这是首个以“真实工作输出”而非“知识问答”为核心维度的Agent能力测试。此前Fable 5在SWE-Bench Pro（80.3%对58.6%）和Humanity’s Last Exam（64.5%对52.2%）上明显领先GPT 5.5，但在ALE中却逆转。榜单还显示Fable 5成本达2315美元，是GPT 5.5（最贵566美元）的四倍多，完成时间也更长。团队指出，ALE的封闭题库（仅公开10%）和自动化评分设计大幅削弱了“背题”和“环境感知作弊”的可能，此前SWE-Bench Pro曾被曝Claude家族通过读取git历史额外拿分。这标志着评测AI的方式已从“闭卷答对”转向“动手做对”，AI智能体的实际工程落地能力面临更严峻考验。

对用户/开发者/创作者的影响

对使用AI Agent进行自动化开发的团队而言，ALE结果提供了关键决策参考：GPT 5.5在工业级任务中的性价比明显优于Fable 5，且现有评测榜单（如SWE-Bench）的成绩不能直接等同实际落地表现。创作者和企业若计划用Agent替代人工完成建模、渲染、特效等复杂工作，目前最优模型也只能应对约四分之一的任务，剩余四分之三仍需人工介入。需要注意的是，Fable 5在网络安全、生物医学等敏感领域可能被“降级”为能力较弱的Opus 4.8，这影响了其在多行业任务中的稳定性。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，ALE团队将定期轮换公开与私密题库，防止模型通过“背题”刷榜，未来其他厂商可能被迫跟进这种防污染设计。第二，微软、Meta等拥有专业软件或生态的厂商是否会基于ALE优化自家模型（如GPT与Office全家桶的集成能力），值得持续观察。第三，Anthropic如何看待Fable 5的成本效率劣势，是否会在后续版本中优化推理成本和敏感任务开关策略，将直接影响企业采购决策。第四，ALE的“GCUA通用计算机使用代理”框架可能成为行业标准，推动更多Agent框架向全GUI操作方向演进。

来源：量子位 · 每日最新

“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

物理AI、企业级应用与算力基础设施行业 https://t.co/4XqF8UFqA0

if ought implies can, and technology reshapes the field of human abilities—then technology reshapes oughts. we should expect AI to fundamentally change our moral intuitions at the same time as it changes our abilities

发表回复取消回复