LongCat-Flash-Prover：AI 攻克数学定理证明，不仅要“算得对”，更要“证得严”

一句话看懂：美团技术团队于2026年4月7日开源了专门用于数学形式化定理证明的大模型 LongCat-Flash-Prover。该模型在 Lean4 形式化语言环境下，通过混合专家迭代与工具集成推理（TIR），将 MiniF2F-Test 基准通过率提升至 97.1%，刷新了开源 Prover 模型的最高纪录。

事件核心：发生了什么

4月7日，美团技术团队在官网发布并开源了 LongCat-Flash-Prover 模型。它并非通用大语言模型，而是专为数学定理证明设计的“形式化推理”模型。模型的核心创新在于将证明过程拆解为自动形式化（将自然语言翻译为 Lean4 代码）、草稿生成（分解为主定理和引理）、证明生成（补全逻辑细节）三个原子能力，并训练专门的专家模型协作完成。

在仅使用 72 次推理预算的条件下，模型在 MiniF2F-Test 上达到 97.1% 的通过率；在超难竞赛级任务 MathOlympiad-Bench 和 PutnamBench 上，也分别取得了 46.7%（180次预算）和 41.5%（118次预算）的成绩。目前，模型已在 GitHub 和 Hugging Face 完全开源，并附带技术报告。团队透露，发布一周内便收到了国内顶尖高校的合作邀请，计划开发形式化证明 Agent 并用于翻译现有数学教材和论文。

为什么重要

传统大模型在数学问题上主要依赖“猜答案”——只要结果正确即可，但缺乏步骤级逻辑验证。LongCat-Flash-Prover 利用 Lean4 这种“数学编程语言”，让 AI 写出的证明可以被编译器逐行校验，从而实现了数学定理的 100% 严谨证明。这改变了 AI 在数学领域的角色：从解题工具升级为能够协助数学家进行严谨推演的科研基础设施。

从技术路线上看，团队提出的“混合专家迭代”加上课程学习的轨迹合成方法，有效解决了 MoE 模型在强化学习训练中的训推一致性（IS Ratio 漂移）和 Staleness 问题，并引入了法律合法性验证（Legality Check）来防止模型篡改证明目标或插入作弊代码。这套方法论对追求高可靠性推理的 AI 应用（如代码验证、医学诊断推理）有示范意义。

对用户/开发者/创作者的影响

对数学研究者：目前公开信息显示，该模型可直接将自然语言定理翻译为 Lean4 代码并自动补全证明草稿。数学工作者可以用它辅助验证自己的新定理，或将现有教材形式化，降低进入形式化数学的门槛。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对 AI 开发者：模型完全开源，可以基于其推理框架（TIR + RL）和防作弊工具链复用至其他需要严谨逻辑的领域，例如自动代码审查（要求代码逻辑而非仅仅编译通过）、智能合约验证、法律条文一致性检查等。开发者可以在 GitHub 仓库中获取预训练权重和训练数据。

对教育领域：模型可在编程数学辅助工具中作为后端引擎，为学生提供“逐步推演+编译错误反馈”的互动式定理证明辅导，类似一个拥有无限耐心的数学导师。

值得关注的后续

第一，模型目前的推理预算（如 72 次）对应的实际时延和算力成本尚不明确，开发者需关注其在消费级硬件上的运行效率；第二，合作高校是否能在短期内产出“从非形式化论文到形式化 Lean4 库”的自动化流水线，将直接影响这一技术路线的学术扩散速度；第三，其他大模型厂商（如 OpenAI、DeepSeek）是否会在类似基准上跟进出更强的通用推理与形式化能力，值得追踪比较。

来源：美团技术团队 (Meituan Tech)

LongCat-Flash-Prover：AI 攻克数学定理证明，不仅要“算得对”，更要“证得严”