Mistral 的开源 Leanstral 1.5 取得了正式的数学基准测试并捕获了代码中的真正错误

Mistral AI 于 2026 年 7 月 4 日发布了开源模型 Leanstral 1.5,专为 Lean 4 编程语言中的形式化验证而设计。该模型不仅在数学基准测试中达到或接近满分,还在真实代码库中捕获了五个此前未知的软件漏洞。

Mistral 的开源 Leanstral 1.5 取得了正式的数学基准测试并捕获了代码中的真正错误

一句话看懂:Mistral AI 于 2026 年 7 月 4 日发布了开源模型 Leanstral 1.5,专为 Lean 4 编程语言中的形式化验证而设计。该模型不仅在数学基准测试中达到或接近满分,还在真实代码库中捕获了五个此前未知的软件漏洞。

事件核心:发生了什么

Mistral AI 推出了 Leanstral 1.5,这是一个采用 Apache 2.0 许可证的开源模型,专注于 Lean 4 编程语言的形式化验证能力——即用数学逻辑证明软件代码或数学证明的正确性。在测试中,模型在高中数学至奥赛级别的 miniF2F 基准上达到了 100% 的解决率;在包含 672 道 Putnam 数学竞赛题的 PutnamBench 上,解决了 587 道;在面向研究生和博士级代数任务的 FATE-H 和 FATE-X 基准上,分别取得了 87% 和 34% 的当前最高开源成绩。此外,模型在实际代码验证中扫描了 57 个开源仓库,发现了 Rust 库 varinteger 中的溢出错误等五个未公开漏洞。Mistral 通过 Hugging Face 和免费 API 向公众开放该模型,训练过程结合了中期训练、监督微调和强化学习。

为什么重要

Leanstral 1.5 证明了开源模型在形式化验证这一高难度领域可以超越甚至接近闭源方案。在 PutnamBench、FATE-H 和 FATE-X 上,它均处于开源领先位置,仅输给闭源的 Aleph Prover。这标志着形式验证这一传统需要人类专家投入大量精力的任务,开始具备实用级别的自动化能力,尤其对数学研究和关键软件的正确性保障有直接价值。

对用户/开发者/创作者的影响

对开发者和数学研究者来说,Leanstral 1.5 提供了一条低门槛进入形式验证的路径:通过免费 API 或可本地部署的开源模型,他们可以自动检查数学证明的正确性,或在不安全代码提交前发现逻辑漏洞。对企业而言,如果该模型能广泛集成到 CI/CD 流水线中,有望减少因数学函数、加密算法或底层库逻辑错误导致的严重生产事故。不过,目前模型仍以数学验证为主,在复杂工业代码库上的表现还需更多验证。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,Mistral 是否会将形式验证模型推广到更多编程语言和实际工程场景。第二,开源社区是否会基于 Leanstral 1.5 构建更便捷的 IDE 插件或自动化检查工具,从而降低开发者的使用门槛。第三,闭源形式验证服务的竞争态势——如果 Aleph Prover 等商业方案被迫跟进开源,用户可能在成本和质量上获得更多选择。

来源:The Decoder AI News

celebrityanime
celebrityanime
文章: 11443

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注