
GPT-5.5全球首破,0源码盲写程序,编程AI进入新纪元
一句话看懂:在名为ProgramBench的极难编程基准测试中,所有主流AI此前均得零分,而GPT-5.5首次解出其中一道题,通过率从0%提升至0.5%。这意味着AI编程能力从“补代码”迈入“无源码重建程序”的新阶段,推理算力成为决定性变量。
事件核心:发生了什么
Meta联合斯坦福、哈佛近日发布ProgramBench编程基准,包含200道题,要求AI根据可执行文件和文档,从零开始重建程序(如jq、SQLite、FFmpeg),且不允许看源码、反编译或联网发布。所有前沿模型初次尝试通过率为0%。OpenAI的GPT-5.5(高推理模式,简称“xhigh”)首个破零,成功重建终端程序cmatrix(经典“黑客帝国”数字雨效果)。同一道题,GPT-5.5的high模式写C语言版本、xhigh模式写Python版本,均通过全部行为测试。对比看,Claude Opus 4.7花费10倍API调用费($10.74 vs $1.04),却因两个低级bug(大小写敏感、退出码错误)全场垫底。
为什么重要
这一突破直接验证了OpenAI研究员Noam Brown提出的“推理算力Scaling Law”:同一模型底座,在低推理模式下表现平平,切换至高推理模式后性能飞跃。传统编程测试(如SWE-bench、HumanEval)正快速被“融解”——AI通过率已逼近90%、区分度下降。ProgramBench则展示了“地地狱级”难度,目前仅0.5%解出率,说明AI编程能力上限远未触及。更关键的是,路径不需要依赖下一代架构革命:只要推理算力持续扩展,模型原则上可以重建更复杂的系统(从终端工具到数据库引擎等)。
对用户/开发者/创作者的影响
开发者:若ProgramBench这类基准成为新标准,AI助手的能力评估将从“修Bug”转向“完整程序设计”。当前GPT-5.5高推理模式下API成本远低于竞品($1.04 vs $10.74),可能推动企业更积极采用付费推理流量,并拉高对AI代码生成整体性的期望。企业采购:算力预算需重新评估——低推理版与高推理版表现的差距可能达到“不可用”对“可用”级别,决策时不能只看基准跑分,须关注推理资源投入。研究人员:ProgramBench的出现意味着编程基准竞争进入新维度,上下游上下游工具(如测试框架、AI编译器)都可能被倒逼升级。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. 剩余199题谁先破?ProgramBench依在等待进一步突破,MS、Google、Anthropic是否跟进高推理策略是直接看点。2. 推理算力成本能否降低:GPT-5.5的高推理模式带来实质提升,但算力消耗显著(xhigh模式27步探索),商业化门槛尚存。3. 基准本身的生态潜力:若更多机构用ProgramBench评估模型,可能催生类似SWE-bench的排行榜竞争,甚至推动AI正式进入“零代码重建”的开发生态。
来源:36氪 · 24小时热榜


