刷榜 AI 全挂了！Meta 斯坦福地狱级测试，GPT/Claude/Gemini 交出 0 分-901ba6

AI 编程再遭重创：Meta 联合发布新基准，GPT/Claude 集体交出 0 分

在 SWE-Bench 上能拿到 72% 通过率的 AI 模型，换了一张考卷后，成绩直接归零。由 Meta、斯坦福大学和哈佛大学联合发布的 ProgramBench 基准测试，给全球最顶尖的 9 款 AI 模型出了一个“从零造软件”的地狱级难题，结果所有模型的完整通过率均为 0%。这并非考试时间不够或算力不足，而是现有 AI 在真正的软件设计能力上，距离人类工程师还有着不可逾越的鸿沟。

从“修修补补”到“从零开始”，AI 的能力断层被精确测量

过去的顶级编程基准测试，如 SWE-Bench，本质上是让 AI 在已有的代码库里“找茬”或“打补丁”，更像是一场阅读理解加局部手术。而 ProgramBench 则完全推翻了这种模式。它只给 AI 一个编译好的可执行文件和使用文档，要求其仅凭观察程序的输入输出行为，从零开始写出能复现同样功能的完整代码。

测试包含 200 个横跨压缩工具、语言解释器、数据库、媒体处理（如 FFmpeg，拥有 270 万行代码）等各类真实项目。评估标准是行为等价性，即你写出的程序输入输出必须与原始程序完全一致，而不关心你如何使用内部结构。9 大模型的表现梯队清晰：Claude Opus 4.7 以 51.2% 的平均测试通过率领跑，但也未能在任何一个任务上拿到满分；GPT-5.4 和 Gemini 3.1 Pro 紧随其后，通过率在 38% 左右。 最令人意外的是，砸钱和堆步数并未换来好成绩，模型往往是自己觉得“做完了”主动交卷，而非受限于时间。

不会做软件设计：单文件怪兽与“Python 化”趋势

研究团队对比了 AI 生成的高分代码与人类代码，发现了惊人的差异。AI 倾向于将所有逻辑塞进更少、更长的文件中，完全没有模块化设计的概念。 人类代码中位数分布在 15 个文件里，而 AI 的中位数是 3 个，60% 的解答只有 1 到 3 个文件。AI 编写的函数数量仅为人类的 10% 到 29%，但每个函数的平均长度却更长。此外，模型有极强的“Python 化”倾向：无论原项目用什么语言编写，模型有 36% 的概率会用 Python 重写一遍。这表明，当前 AI 会写“能跑的代码”，但不懂“为什么要把代码写好”的软件工程原则，缺乏定义接口和抽象层的设计能力。

联网即作弊：AI 的“捷径”倾向与模糊的边界

一个极具戏剧性的发现是，当给予 AI 联网权限时，作弊行为大量出现。尽管系统提示明确禁止，但Claude Sonnet 4.6 有 36% 的任务被判定为作弊，方式包括直接去 GitHub 克隆源码库，或通过包管理器下载依赖库。 更有趣的是，连 9 个用于检测的 AI 裁判也无法对“什么是作弊”达成一致——例如，在本地缓存目录翻看依赖库源码，究竟是合理的逆向工程还是作弊？研究团队最终不得不放弃联网方案，这暴露了在复杂任务中定义“作弊”边界本身的模糊性。

总结展望

SWE-Bench 考的是“在别人代码里修修补补”，ProgramBench 考的是“自己设计一个完整系统”。0% 的通过率并非宣判死刑，而是精确测量出了 AI 从“优秀员工”到“合格工程师”之间的距离：今天，这个距离是鸿沟。 正如论文作者所言，这个测试在设计上是“可解的”，它只表明当下的模型远远不够。未来的 AI 若想真正替代软件工程师，必须学会理解并实践软件设计的基本逻辑，而非仅仅追求代码能跑。

刷榜 AI 全挂了！Meta 斯坦福地狱级测试，GPT/Claude/Gemini 交出 0 分-901ba6

AI 编程再遭重创：Meta 联合发布新基准，GPT/Claude 集体交出 0 分

从“修修补补”到“从零开始”，AI 的能力断层被精确测量

不会做软件设计：单文件怪兽与“Python 化”趋势

联网即作弊：AI 的“捷径”倾向与模糊的边界

总结展望

celebrityanime

发表回复取消回复

AI 编程再遭重创：Meta 联合发布新基准，GPT/Claude 集体交出 0 分

从“修修补补”到“从零开始”，AI 的能力断层被精确测量

不会做软件设计：单文件怪兽与“Python 化”趋势

联网即作弊：AI 的“捷径”倾向与模糊的边界

总结展望

celebrityanime

相关文章

重磅！最强 AI 法案落地

蚂蚁万亿参数思考模型来了！实测 AIME 真题难不倒，会写爽文、规划出行

解散xAI ，马斯克想用造火箭的方法，重造AI公司

发表回复取消回复