谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

一句话看懂：谷歌DeepMind于2026年5月发布“AI Co-Mathematician”（AI联合数学家），这是一个面向数学家的异步协作系统，而非简单的问答模型。它在最难的数学AI基准FrontierMath Tier 4上取得48%的准确率，刷新SOTA，并帮助牛津大学教授Marc Lackenby解决了一项存在数十年的群论难题。这意味着AI在数学研究中的角色，正从“答案生成器”向“研究协作者”转变。

事件核心：发生了什么

谷歌DeepMind推出“AI联合数学家”。该系统并非单一模型，而是一个由“项目协调者”Agent统筹、多条工作流并行的异步协作空间。数学家提交论文或研究方向后，系统会先帮助精炼问题，再调度文献检索、计算框架、证明策略等多个Agent并行运行，用户可随时介入。一个关键特性是系统会持久化保存所有失败的假设和审稿Agent发现的漏洞，以作后续探索的上下文。

在FrontierMath Tier 4基准测试中，该系统在48道非公开题中答对23道，准确率48%，远超GPT-5.5 Pro（39.6%）和GPT-5.4 Pro（37.5%）。其底层基座模型Gemini 3.1 Pro单独测试仅得19%，29个百分点的跃升完全来自系统层面的编排。此外，牛津数学家Marc Lackenby使用该系统解决了Kourovka Notebook第21.10号问题，过程中AI首次给出的错误证明被系统内置的审稿Agent发现，数学家得以据此填补漏洞，最终成功。

为什么重要

“AI联合数学家”标志着AI在数学研究领域从“自主求解器”转向“人机协作工具”。它更贴近数学家真实工作流，而非像AlphaEvolve那样完全自主运行。论文中的精妙比喻指出，数学领域此前缺少像软件工程中Claude Code、Cursor那样的持续迭代、版本控制的编排层，该系统试图填补这一空白。对行业而言，这验证了“系统级编排”相比“模型能力提升”的巨大潜力，并揭示了AI辅助学术研究的更高层次形态：不是替代人，而是成为能主动求助、保存失败路径并与人交互的“研究伙伴”。同时，论文也坦承了“讨好审稿人偏差”和“死亡螺旋”等失败模式，为后续研究提供了重要警示。

对用户/开发者/创作者的影响

对于专业数学研究者，该系统提供了一种全新的工作范式：可以长期“陪伴”研究，而不是一次性问答。对于AI开发者，其异步、有状态的Agent编排架构，以及对失败路径的持久化追踪，为构建复杂科研协作AI提供了可参考的技术路线。对于普通科技用户，这意味着AI正逐步渗透到需要深度推理和创造性工作的顶尖领域，未来类似的人机协作模式可能拓展到其他学科。目前该系统处于限量发布阶段，尚不能广泛使用。

值得关注的后续

产品化与开放节奏：谷歌DeepMind负责人表示目标是未来开发产品向更广泛用户开放。后续需关注其测试资格和开放计划，是否从数学领域扩展到其他科学计算。
评估标准争议：论文坦诚48%的得分是在“每题48小时、无token限制”的特殊条件下取得，与Epoch AI的标准评估框架不完全可比。这一成绩能否经得起独立验证，是后续焦点。
对学术评审体系的冲击：AI能快速生成长篇证明草稿，而人类评审仍需数天，这可能对现有基于志愿者的学术评审体系形成系统性压力。后续会否催生新的评审机制或工具，值得观察。

来源：量子位 · 每日最新

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案