LongCat-Flash-Prover:AI 攻克数学定理证明,不仅要“算得对”,更要“证得严”

LongCat-Flash-Prover:AI 攻克数学定理证明,不仅要“算得对”,更要“证得严”

LongCat-Flash-Prover:AI 攻克数学定理证明,不仅要“算得对”,更要“证得严”

一句话看懂:美团技术团队于2026年4月7日开源了专门用于数学形式化定理证明的大模型 LongCat-Flash-Prover。该模型在 Lean4 形式化语言环境下,通过混合专家迭代与工具集成推理(TIR),将 MiniF2F-Test 基准通过率提升至 97.1%,刷新了开源 Prover 模型的最高纪录。

事件核心:发生了什么

4月7日,美团技术团队在官网发布并开源了 LongCat-Flash-Prover 模型。它并非通用大语言模型,而是专为数学定理证明设计的“形式化推理”模型。模型的核心创新在于将证明过程拆解为自动形式化(将自然语言翻译为 Lean4 代码)、草稿生成(分解为主定理和引理)、证明生成(补全逻辑细节)三个原子能力,并训练专门的专家模型协作完成。

在仅使用 72 次推理预算的条件下,模型在 MiniF2F-Test 上达到 97.1% 的通过率;在超难竞赛级任务 MathOlympiad-Bench 和 PutnamBench 上,也分别取得了 46.7%(180次预算)和 41.5%(118次预算)的成绩。目前,模型已在 GitHub 和 Hugging Face 完全开源,并附带技术报告。团队透露,发布一周内便收到了国内顶尖高校的合作邀请,计划开发形式化证明 Agent 并用于翻译现有数学教材和论文。

为什么重要

传统大模型在数学问题上主要依赖“猜答案”——只要结果正确即可,但缺乏步骤级逻辑验证。LongCat-Flash-Prover 利用 Lean4 这种“数学编程语言”,让 AI 写出的证明可以被编译器逐行校验,从而实现了数学定理的 100% 严谨证明。这改变了 AI 在数学领域的角色:从解题工具升级为能够协助数学家进行严谨推演的科研基础设施。

从技术路线上看,团队提出的“混合专家迭代”加上课程学习的轨迹合成方法,有效解决了 MoE 模型在强化学习训练中的训推一致性(IS Ratio 漂移)和 Staleness 问题,并引入了法律合法性验证(Legality Check)来防止模型篡改证明目标或插入作弊代码。这套方法论对追求高可靠性推理的 AI 应用(如代码验证、医学诊断推理)有示范意义。

对用户/开发者/创作者的影响

对数学研究者:目前公开信息显示,该模型可直接将自然语言定理翻译为 Lean4 代码并自动补全证明草稿。数学工作者可以用它辅助验证自己的新定理,或将现有教材形式化,降低进入形式化数学的门槛。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对 AI 开发者:模型完全开源,可以基于其推理框架(TIR + RL)和防作弊工具链复用至其他需要严谨逻辑的领域,例如自动代码审查(要求代码逻辑而非仅仅编译通过)、智能合约验证、法律条文一致性检查等。开发者可以在 GitHub 仓库中获取预训练权重和训练数据。

对教育领域:模型可在编程数学辅助工具中作为后端引擎,为学生提供“逐步推演+编译错误反馈”的互动式定理证明辅导,类似一个拥有无限耐心的数学导师。

值得关注的后续

第一,模型目前的推理预算(如 72 次)对应的实际时延和算力成本尚不明确,开发者需关注其在消费级硬件上的运行效率;第二,合作高校是否能在短期内产出“从非形式化论文到形式化 Lean4 库”的自动化流水线,将直接影响这一技术路线的学术扩散速度;第三,其他大模型厂商(如 OpenAI、DeepSeek)是否会在类似基准上跟进出更强的通用推理与形式化能力,值得追踪比较。

来源:美团技术团队 (Meituan Tech)

celebrityanime
celebrityanime
文章: 5523

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注