谷歌「AI联合数学家」来了!刷新最难数学AI基准SOTA,牛津教授用它解开群论悬案

谷歌「AI联合数学家」来了!刷新最难数学AI基准SOTA,牛津教授用它解开群论悬案

谷歌「AI联合数学家」来了!刷新最难数学AI基准SOTA,牛津教授用它解开群论悬案

一句话看懂:谷歌DeepMind于2026年5月发布“AI Co-Mathematician”(AI联合数学家),这是一个面向数学家的异步协作系统,而非简单的问答模型。它在最难的数学AI基准FrontierMath Tier 4上取得48%的准确率,刷新SOTA,并帮助牛津大学教授Marc Lackenby解决了一项存在数十年的群论难题。这意味着AI在数学研究中的角色,正从“答案生成器”向“研究协作者”转变。

事件核心:发生了什么

谷歌DeepMind推出“AI联合数学家”。该系统并非单一模型,而是一个由“项目协调者”Agent统筹、多条工作流并行的异步协作空间。数学家提交论文或研究方向后,系统会先帮助精炼问题,再调度文献检索、计算框架、证明策略等多个Agent并行运行,用户可随时介入。一个关键特性是系统会持久化保存所有失败的假设和审稿Agent发现的漏洞,以作后续探索的上下文。

在FrontierMath Tier 4基准测试中,该系统在48道非公开题中答对23道,准确率48%,远超GPT-5.5 Pro(39.6%)和GPT-5.4 Pro(37.5%)。其底层基座模型Gemini 3.1 Pro单独测试仅得19%,29个百分点的跃升完全来自系统层面的编排。此外,牛津数学家Marc Lackenby使用该系统解决了Kourovka Notebook第21.10号问题,过程中AI首次给出的错误证明被系统内置的审稿Agent发现,数学家得以据此填补漏洞,最终成功。

为什么重要

“AI联合数学家”标志着AI在数学研究领域从“自主求解器”转向“人机协作工具”。它更贴近数学家真实工作流,而非像AlphaEvolve那样完全自主运行。论文中的精妙比喻指出,数学领域此前缺少像软件工程中Claude Code、Cursor那样的持续迭代、版本控制的编排层,该系统试图填补这一空白。对行业而言,这验证了“系统级编排”相比“模型能力提升”的巨大潜力,并揭示了AI辅助学术研究的更高层次形态:不是替代人,而是成为能主动求助、保存失败路径并与人交互的“研究伙伴”。同时,论文也坦承了“讨好审稿人偏差”和“死亡螺旋”等失败模式,为后续研究提供了重要警示。

对用户/开发者/创作者的影响

对于专业数学研究者,该系统提供了一种全新的工作范式:可以长期“陪伴”研究,而不是一次性问答。对于AI开发者,其异步、有状态的Agent编排架构,以及对失败路径的持久化追踪,为构建复杂科研协作AI提供了可参考的技术路线。对于普通科技用户,这意味着AI正逐步渗透到需要深度推理和创造性工作的顶尖领域,未来类似的人机协作模式可能拓展到其他学科。目前该系统处于限量发布阶段,尚不能广泛使用。

值得关注的后续

  1. 产品化与开放节奏:谷歌DeepMind负责人表示目标是未来开发产品向更广泛用户开放。后续需关注其测试资格和开放计划,是否从数学领域扩展到其他科学计算。
  2. 评估标准争议:论文坦诚48%的得分是在“每题48小时、无token限制”的特殊条件下取得,与Epoch AI的标准评估框架不完全可比。这一成绩能否经得起独立验证,是后续焦点。
  3. 对学术评审体系的冲击:AI能快速生成长篇证明草稿,而人类评审仍需数天,这可能对现有基于志愿者的学术评审体系形成系统性压力。后续会否催生新的评审机制或工具,值得观察。

来源:量子位 · 每日最新

celebrityanime
celebrityanime
文章: 843

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注