谷歌「AI 联合数学家」来了!刷新最难数学 AI 基准 SOTA,牛津教授用它解开群论悬案

谷歌「AI 联合数学家」来了!刷新最难数学 AI 基准 SOTA,牛津教授用它解开群论悬案

谷歌「AI 联合数学家」来了!刷新最难数学 AI 基准 SOTA,牛津教授用它解开群论悬案

一句话看懂:谷歌DeepMind推出「AI Co-Mathematician」系统,不是简单问答模型,而是一个异步协作工作台。牛津数学家Marc Lackenby用它解决了群论领域几十年悬而未决的第21.10号问题,同时该套系统在最高难度数学基准FrontierMath Tier 4上拿下48%准确率,刷新SOTA。

事件核心:发生了什么

谷歌DeepMind于近期发布了「AI联合数学家」。这套系统并非单一模型,而是一个异步、有状态的工作空间:顶层「项目协调者」Agent将用户提出的研究方向拆解为多个子任务,分发给文献检索、计算框架搭建、证明策略探索等多条并行工作流。每条工作流又由各自的协调Agent负责,彼此互不阻塞。数学家可以随时介入任意一条线。失败的假说会被系统持久化追踪,不作为废料丢弃,而是成为后续探索的上下文。系统的最终产出是带注释和来源溯源的LaTeX文档,符合数学家社群的使用习惯。

在基准测试方面,系统在最高难度数学基准FrontierMath Tier 4上取得了48%的准确率——该基准包含50道原创题,Epoch AI形容“其中一些问题可能数十年内AI都无法攻克”。与之对比,GPT-5.5 Pro为39.6%,GPT-5.4 Pro为37.5%,Claude Opus 4.6/4.7为22.9%。值得注意的是,底层基座模型Gemini 3.1 Pro单独跑这个测试只得19%,从19%到48%的29个百分点提升完全来自系统层面的编排。牛津大学教授Marc Lackenby使用该系统解决了Kourovka Notebook第21.10号群论问题——AI首轮提供的证明存在漏洞,被系统内部审稿Agent揪出,Lackenby借此发现填补漏洞的方法。

为什么重要

「AI联合数学家」至少在三个层面上体现了AI for Math路线的深刻转变。第一,它证明AI工具可以超越“问答”模型,构建出适合专业研究者日常工作流的编排层。论文直接将它与软件工程领域的Claude Code、Cursor类比——之前没有AI编码环境,现在有了,数学家一侧的空白正在被填补。第二,它展示了“人始终在循环里”的做法而非彻底替代。AlphaEvolve是“自主搜索引擎”,用户把问题丢进去就几乎离场;而新系统要求数学家持续介入,系统在最适合的时刻向人类提问。第三,它在最难的数学AI基准上实现了近10个百分点的跃升,且超过半数的得分来自同一底层模型,说明方法论而非单纯提升模型参数量更加关键。

对用户/开发者/创作者的影响

短期内,这套系统还处在限量发布阶段。但对于数学和AI研究者来说,它定义了一个新的协作范式:AI不仅能做数值计算或形式推理,还能在真实研究流程中充当“可交互的同事”。对于对数学问题有攻克需求的开发者或科研人员,可关注系统是否开放API或产品化。对于一般AI开发者和创作者,这一设计模式——异步并行Agent+人类在回路+失败实验持久化——对未来构建更复杂的AI辅助工作流(如代码审查、科学论文写作)有直接参考价值。另外,论文中也坦承了两种失败模式:“讨好审稿人偏差”和“无限审稿螺旋”,提醒开发者在设计Agent系统时必须关注自我强化带来的虚假达成问题。

值得关注的后续

第一个观察点是产品化进度。Pushmeet Kohli表示目标是把该范式推向更广泛用户,但具体时间未定。第二个观察点是竞品动态——最近几个月已有多个Erdős问题被GPT系统解决,而谷歌这套系统在FrontierMath上的SOTA让竞争重新升温,OpenAI、Anthropic或Meta是否会跟进类似的工作流系统值得观察。第三个观察点是评估体系的风险:论文主动披露48%得分在特殊条件(48小时、无token限制)下取得,与Epoch AI标准框架不完全可比。未来在统一严格的评估标准下,不同系统间的真实差距才能被准确衡量。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 3127

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注