GPT-5.5全球首破，0源码盲写程序，编程AI进入新纪元

一句话看懂：在名为ProgramBench的极难编程基准测试中，所有主流AI此前均得零分，而GPT-5.5首次解出其中一道题，通过率从0%提升至0.5%。这意味着AI编程能力从“补代码”迈入“无源码重建程序”的新阶段，推理算力成为决定性变量。

事件核心：发生了什么

Meta联合斯坦福、哈佛近日发布ProgramBench编程基准，包含200道题，要求AI根据可执行文件和文档，从零开始重建程序（如jq、SQLite、FFmpeg），且不允许看源码、反编译或联网发布。所有前沿模型初次尝试通过率为0%。OpenAI的GPT-5.5（高推理模式，简称“xhigh”）首个破零，成功重建终端程序cmatrix（经典“黑客帝国”数字雨效果）。同一道题，GPT-5.5的high模式写C语言版本、xhigh模式写Python版本，均通过全部行为测试。对比看，Claude Opus 4.7花费10倍API调用费（$10.74 vs $1.04），却因两个低级bug（大小写敏感、退出码错误）全场垫底。

为什么重要

这一突破直接验证了OpenAI研究员Noam Brown提出的“推理算力Scaling Law”：同一模型底座，在低推理模式下表现平平，切换至高推理模式后性能飞跃。传统编程测试（如SWE-bench、HumanEval）正快速被“融解”——AI通过率已逼近90%、区分度下降。ProgramBench则展示了“地地狱级”难度，目前仅0.5%解出率，说明AI编程能力上限远未触及。更关键的是，路径不需要依赖下一代架构革命：只要推理算力持续扩展，模型原则上可以重建更复杂的系统（从终端工具到数据库引擎等）。

对用户/开发者/创作者的影响

开发者：若ProgramBench这类基准成为新标准，AI助手的能力评估将从“修Bug”转向“完整程序设计”。当前GPT-5.5高推理模式下API成本远低于竞品（$1.04 vs $10.74），可能推动企业更积极采用付费推理流量，并拉高对AI代码生成整体性的期望。企业采购：算力预算需重新评估——低推理版与高推理版表现的差距可能达到“不可用”对“可用”级别，决策时不能只看基准跑分，须关注推理资源投入。研究人员：ProgramBench的出现意味着编程基准竞争进入新维度，上下游上下游工具（如测试框架、AI编译器）都可能被倒逼升级。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 剩余199题谁先破？ProgramBench依在等待进一步突破，MS、Google、Anthropic是否跟进高推理策略是直接看点。2. 推理算力成本能否降低：GPT-5.5的高推理模式带来实质提升，但算力消耗显著（xhigh模式27步探索），商业化门槛尚存。3. 基准本身的生态潜力：若更多机构用ProgramBench评估模型，可能催生类似SWE-bench的排行榜竞争，甚至推动AI正式进入“零代码重建”的开发生态。

来源：36氪 · 24小时热榜

GPT-5.5全球首破，0源码盲写程序，编程AI进入新纪元