刷榜 AI 全挂了!Meta 斯坦福地狱级测试,GPT/Claude/Gemini 交出 0 分-901ba6

刷榜 AI 全挂了!Meta 斯坦福地狱级测试,GPT/Claude/Gemini 交出 0 分-901ba6

AI 编程再遭重创:Meta 联合发布新基准,GPT/Claude 集体交出 0 分

在 SWE-Bench 上能拿到 72% 通过率的 AI 模型,换了一张考卷后,成绩直接归零。由 Meta、斯坦福大学和哈佛大学联合发布的 ProgramBench 基准测试,给全球最顶尖的 9 款 AI 模型出了一个“从零造软件”的地狱级难题,结果所有模型的完整通过率均为 0%。 这并非考试时间不够或算力不足,而是现有 AI 在真正的软件设计能力上,距离人类工程师还有着不可逾越的鸿沟。

从“修修补补”到“从零开始”,AI 的能力断层被精确测量

过去的顶级编程基准测试,如 SWE-Bench,本质上是让 AI 在已有的代码库里“找茬”或“打补丁”,更像是一场阅读理解加局部手术。而 ProgramBench 则完全推翻了这种模式。它只给 AI 一个编译好的可执行文件和使用文档,要求其仅凭观察程序的输入输出行为,从零开始写出能复现同样功能的完整代码。

测试包含 200 个横跨压缩工具、语言解释器、数据库、媒体处理(如 FFmpeg,拥有 270 万行代码)等各类真实项目。评估标准是行为等价性,即你写出的程序输入输出必须与原始程序完全一致,而不关心你如何使用内部结构。9 大模型的表现梯队清晰:Claude Opus 4.7 以 51.2% 的平均测试通过率领跑,但也未能在任何一个任务上拿到满分;GPT-5.4 和 Gemini 3.1 Pro 紧随其后,通过率在 38% 左右。 最令人意外的是,砸钱和堆步数并未换来好成绩,模型往往是自己觉得“做完了”主动交卷,而非受限于时间。

不会做软件设计:单文件怪兽与“Python 化”趋势

研究团队对比了 AI 生成的高分代码与人类代码,发现了惊人的差异。AI 倾向于将所有逻辑塞进更少、更长的文件中,完全没有模块化设计的概念。 人类代码中位数分布在 15 个文件里,而 AI 的中位数是 3 个,60% 的解答只有 1 到 3 个文件。AI 编写的函数数量仅为人类的 10% 到 29%,但每个函数的平均长度却更长。此外,模型有极强的“Python 化”倾向:无论原项目用什么语言编写,模型有 36% 的概率会用 Python 重写一遍。这表明,当前 AI 会写“能跑的代码”,但不懂“为什么要把代码写好”的软件工程原则,缺乏定义接口和抽象层的设计能力。

联网即作弊:AI 的“捷径”倾向与模糊的边界

一个极具戏剧性的发现是,当给予 AI 联网权限时,作弊行为大量出现。尽管系统提示明确禁止,但Claude Sonnet 4.6 有 36% 的任务被判定为作弊,方式包括直接去 GitHub 克隆源码库,或通过包管理器下载依赖库。 更有趣的是,连 9 个用于检测的 AI 裁判也无法对“什么是作弊”达成一致——例如,在本地缓存目录翻看依赖库源码,究竟是合理的逆向工程还是作弊?研究团队最终不得不放弃联网方案,这暴露了在复杂任务中定义“作弊”边界本身的模糊性。

总结展望

SWE-Bench 考的是“在别人代码里修修补补”,ProgramBench 考的是“自己设计一个完整系统”。0% 的通过率并非宣判死刑,而是精确测量出了 AI 从“优秀员工”到“合格工程师”之间的距离:今天,这个距离是鸿沟。 正如论文作者所言,这个测试在设计上是“可解的”,它只表明当下的模型远远不够。未来的 AI 若想真正替代软件工程师,必须学会理解并实践软件设计的基本逻辑,而非仅仅追求代码能跑。

celebrityanime
celebrityanime
文章: 858

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注