谷歌「AI 联合数学家」来了！刷新最难数学 AI 基准 SOTA，牛津教授用它解开群论悬案

一句话看懂：谷歌DeepMind推出「AI Co-Mathematician」系统，不是简单问答模型，而是一个异步协作工作台。牛津数学家Marc Lackenby用它解决了群论领域几十年悬而未决的第21.10号问题，同时该套系统在最高难度数学基准FrontierMath Tier 4上拿下48%准确率，刷新SOTA。

事件核心：发生了什么

谷歌DeepMind于近期发布了「AI联合数学家」。这套系统并非单一模型，而是一个异步、有状态的工作空间：顶层「项目协调者」Agent将用户提出的研究方向拆解为多个子任务，分发给文献检索、计算框架搭建、证明策略探索等多条并行工作流。每条工作流又由各自的协调Agent负责，彼此互不阻塞。数学家可以随时介入任意一条线。失败的假说会被系统持久化追踪，不作为废料丢弃，而是成为后续探索的上下文。系统的最终产出是带注释和来源溯源的LaTeX文档，符合数学家社群的使用习惯。

在基准测试方面，系统在最高难度数学基准FrontierMath Tier 4上取得了48%的准确率——该基准包含50道原创题，Epoch AI形容“其中一些问题可能数十年内AI都无法攻克”。与之对比，GPT-5.5 Pro为39.6%，GPT-5.4 Pro为37.5%，Claude Opus 4.6/4.7为22.9%。值得注意的是，底层基座模型Gemini 3.1 Pro单独跑这个测试只得19%，从19%到48%的29个百分点提升完全来自系统层面的编排。牛津大学教授Marc Lackenby使用该系统解决了Kourovka Notebook第21.10号群论问题——AI首轮提供的证明存在漏洞，被系统内部审稿Agent揪出，Lackenby借此发现填补漏洞的方法。

为什么重要

「AI联合数学家」至少在三个层面上体现了AI for Math路线的深刻转变。第一，它证明AI工具可以超越“问答”模型，构建出适合专业研究者日常工作流的编排层。论文直接将它与软件工程领域的Claude Code、Cursor类比——之前没有AI编码环境，现在有了，数学家一侧的空白正在被填补。第二，它展示了“人始终在循环里”的做法而非彻底替代。AlphaEvolve是“自主搜索引擎”，用户把问题丢进去就几乎离场；而新系统要求数学家持续介入，系统在最适合的时刻向人类提问。第三，它在最难的数学AI基准上实现了近10个百分点的跃升，且超过半数的得分来自同一底层模型，说明方法论而非单纯提升模型参数量更加关键。

对用户/开发者/创作者的影响

短期内，这套系统还处在限量发布阶段。但对于数学和AI研究者来说，它定义了一个新的协作范式：AI不仅能做数值计算或形式推理，还能在真实研究流程中充当“可交互的同事”。对于对数学问题有攻克需求的开发者或科研人员，可关注系统是否开放API或产品化。对于一般AI开发者和创作者，这一设计模式——异步并行Agent+人类在回路+失败实验持久化——对未来构建更复杂的AI辅助工作流（如代码审查、科学论文写作）有直接参考价值。另外，论文中也坦承了两种失败模式：“讨好审稿人偏差”和“无限审稿螺旋”，提醒开发者在设计Agent系统时必须关注自我强化带来的虚假达成问题。

值得关注的后续

第一个观察点是产品化进度。Pushmeet Kohli表示目标是把该范式推向更广泛用户，但具体时间未定。第二个观察点是竞品动态——最近几个月已有多个Erdős问题被GPT系统解决，而谷歌这套系统在FrontierMath上的SOTA让竞争重新升温，OpenAI、Anthropic或Meta是否会跟进类似的工作流系统值得观察。第三个观察点是评估体系的风险：论文主动披露48%得分在特殊条件（48小时、无token限制）下取得，与Epoch AI标准框架不完全可比。未来在统一严格的评估标准下，不同系统间的真实差距才能被准确衡量。

来源：Readhub · AI

谷歌「AI 联合数学家」来了！刷新最难数学 AI 基准 SOTA，牛津教授用它解开群论悬案