
一句话看懂:Mistral AI 于 2026 年 7 月 3 日发布了 Leanstral 1.5,这是一个采用 Apache-2.0 协议开源的 Lean 4 代码代理模型,在极具挑战性的 PutnamBench 数学竞赛题目中取得了 87.4% 的解题率,显著提升了 AI 在形式化数学推理与程序验证领域的能力上限。
事件核心:发生了什么
Mistral AI 正式推出 Leanstral 1.5。这是一款专门针对 Lean 4 编程语言优化的代码代理模型,基于 Apache-2.0 开源协议发布,意味着开发者可以自由使用、修改与部署。在 PutnamBench——一个包含 672 道美国普特南数学竞赛题目(以高难度著称)的基准测试中,Leanstral 1.5 成功解决了 587 道题。PutnamBench 要求模型不仅理解数学命题,还需要用 Lean 4 写出经过机器验证的证明代码,因此解题难度远高于纯文本问答。
为什么重要
传统大模型擅长自然语言推理,但在形式化验证领域——即要求输出经编译器检查无误的代码证明——长期表现乏力。Leanstral 1.5 的高解题率表明,AI 正从“对话式理解”迈入“可数学验证的正确推理”阶段。这对学术界与工业界有双重意义:一方面,它降低了形式化验证的学习门槛,科研人员可以用更少时间编写 Lean 4 证明;另一方面,在金融、航空航天、安全计算等对代码正确性要求极高的领域,Leanstral 1.5 提供了一条用 AI 辅助生成经过严格验证代码的可行路径。此外,Apache-2.0 开源许可意味着其他团队可以直接在 Leanstral 1.5 基础上微调或集成,可能加速整个形式化验证工具链的 AI 化。
对用户/开发者/创作者的影响
对于从事计算机科学验证、数学证明助手开发的开发者和研究人员,Leanstral 1.5 是一个可以直接使用的代码生成工具,能大幅减少编写 Lean 4 证明时的手动劳动量,尤其适合竞赛级数学问题的自动化证明生成。对于企业级开发者,如果需要构建依赖形式化验证的安全关键软件(例如智能合约审计或嵌入式系统验证),可以将 Leanstral 1.5 集成到 CI/CD 流水线中,作为自动生成初步证明的辅助模块。对于 AI 技术爱好者,该模型的发布再次验证了开源大模型在高难度专用任务上同样可以达到或超越闭源方案的实力。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
目前公开信息显示,Leanstral 1.5 以开源模型形式发布,但具体参数量和推理成本尚未披露。值得关注三点:第一,Mistral AI 是否会推出收费的 API 版本或企业支持服务,从而将其转化为商业产品;第二,其他大型模型厂商(如 Meta 的 Code Llama 系列或 Google 的 Gemini)是否会迅速跟进推出面向 Lean 4 的专用优化版本,展开直接竞争;第三,PutnamBench 的成绩能否在更广泛的数学定理证明测试集(如 MiniF2F 或 Mathlib4 贡献任务)上复现,以验证该模型泛化能力的边界。


