
一句话看懂:OpenAI推理模型o1的核心贡献者Noam Brown公开发文指出,当前所有AI评测排行榜存在根本性缺陷——忽略“推理计算量”这个关键变量,导致同一模型在不同预算下的真实能力被严重扭曲,甚至让GPT-5.5的实测效果与benchmark得分出现巨大反差。
事件核心:发生了什么
4月23日,OpenAI发布GPT-5.5,基准测试表格显示其性能仅比GPT-5.4略微提升。但随后波兰数学家Bartosz Naskręcki使用GPT-5.5在11分钟内搭建了一个代数几何可视化应用,Ruby on Rails之父DHH也评价“用5.5再切回Opus 4.7像倒退了一个时代”。Brown在长文《大规模推理计算的启示》中指出矛盾根源:GPT-5.4 Pro的API定价为每百万token $30/$180,而GPT-5.5仅为$5/$30,相差6倍。两个模型在不同推理预算下被比较,本质上是“考试时间不一致的分数对比”。当控制token预算后,GPT-5.5在网络安全评估上大幅领先GPT-5.4。Brown展示了两张图:传统benchmark视角下两者差距微小,但将x轴换为token数量后,GPT-5.5的曲线远远甩开GPT-5.4。MMLU等热门基准已出现前沿模型分数趋同、差异无统计意义的问题。ARC-AGI上,OpenAI的o3单道题推理成本高达$30,000,而NVARC团队用40亿参数小模型、每道题$0.20成本即可获得24%准确率——同一场考试,费用相差15万倍。
为什么重要
Brown的论证揭示了一个行业性盲区:当模型能力成为推理计算量的函数时,没有标注推理预算的benchmark分数就像“没有单位的物理量”。这一观点正在动摇AI评测的根本逻辑。过去十年,行业习惯于一个模型、一个分数、简单排名的评估方式;如今前沿实验室——OpenAI、Google(Gemini Deep Think)、Anthropic(Claude extended thinking)——纷纷将“推理时计算”作为标配,评分体系却还停留在单点对比。Brown引用Karpathy和AI Safety Institute的研究指出:越强的模型,在越长时间跨度上的性能收益越大,其能力上限可能远未被当前可负担的评测预算触及。这意味着,所有公开发布的benchmark排名可能都低估了顶级模型的实际能力。对于创投和采购者而言,只看分数选模型,正变得不再可靠。
对用户/开发者/创作者的影响
开发者面临选择困境:同一模型在$0.20和$30,000推理预算下的表现天差地别,但API定价和公开分数无法直接反映这种差异。对于构建高可靠性应用(如程序生成、安全分析)的团队,单纯参考排行榜而不评估推理成本,可能导致选错模型。对内容创作者和企业用户来说,这意味着“高成本推理+低价模型”可能成为性价比更高的组合——GPT-5.5的低定价辅以更长推理时间,可能远超GPT-5.4在相同总成本下的表现。目前公开信息显示,普通用户几乎没有直接控制单次推理预算的途径,API仅提供token上限,而无法指定“花多少钱解决问题”。这为第三方推理优化工具和代理服务创造了空间。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,AI评测行业是否会在ARC-AGI等先行者之外,开始统一标注推理预算。Brown建议的“性能-推理计算量曲线”或“固定预算上限”是否会被主流榜单采纳。第二,OpenAI、Google、Anthropic是否会调整模型卡格式,将能力作为预算的函数进行展示。Brown特别指出安全评估应考虑国家级攻击者在单任务上砸千万美元的情况。第三,如果推理预算成为核心竞争力,开源模型的推理经济性可能面临更大挑战——用户能否低成本复现闭源模型的高预算推理表现,将决定开源生态的竞争力。
来源:36氪 · 24小时热榜
![[Codex] codex 有 bug?莫名其妙获得一次重置机会。也没邀请过谁。](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_5-455-768x403.jpg)

