Leanstral 1.5:人人可用的证明丰富性

Mistral AI 发布了 Leanstral 1.5,一个完全开源(Apache-2.0 许可)、参数量仅 6B 的正式验证模型。它在多个数学推理基准上达到或刷新了最佳成绩,实测中发现了 57 个开源仓库中的 5 个先前未知 Bug,使得严格的形式化证明在真实软件开发中变得实用且廉价。

Leanstral 1.5:人人可用的证明丰富性

一句话看懂:Mistral AI 发布了 Leanstral 1.5,一个完全开源(Apache-2.0 许可)、参数量仅 6B 的正式验证模型。它在多个数学推理基准上达到或刷新了最佳成绩,实测中发现了 57 个开源仓库中的 5 个先前未知 Bug,使得严格的形式化证明在真实软件开发中变得实用且廉价。

事件核心:发生了什么

Leanstral 1.5 由 Mistral AI 团队于 2026 年 7 月 2 日发布,是一个面向 Lean 4 形式化验证的专用模型。模型总参数量 119B,但每次推理只激活 6B 参数,具备高效的运算特性。训练过程分为三个阶段:中期预训练(mid-training)、监督微调(SFT)以及基于 CISPO 算法的强化学习。它使用两个 RL 环境进行训练:一个是多轮定理证明环境,模型根据 Lean 编译器的反馈反复修正证明;另一个是代码代理环境,模型像开发者一样操作文件系统、执行 bash 命令、通过 Lean 语言服务器实时查看目标与错误信息,并能在长任务中主动压缩上下文。

在基准测试中,Leanstral 1.5 完全饱和了 miniF2F(验证集与测试集均达 100%),在 PutnamBench 上解决了 672 道题中的 587 道(远超 Seed-Prover 1.5 的 580 道,且单题成本仅约 4 美元,后者估计在 300 美元以上),在 FATE-H 和 FATE-X 上分别取得 87%(51 道)和 34% 的最新最优成绩。在真实代码验证任务 FLTEval 上,其 pass@1 从 21.9 提升至 28.9,pass@8 从 31.9 提升至 43.2,超越了闭源的 Opus 4.6,且成本仅为后者的七分之一。此外,它在 57 个开源代码仓库的验证中发现了 5 个此前未知的真正 Bug。

为什么重要

Leanstral 1.5 的重要性在于它显著拉低了形式化验证的技术门槛与运行成本。之前,顶尖的自动定理证明器如 Seed-Prover 或 Aleph Prover 需要极高的算力预算(每问题数十乃至上百美元),且通常需要自然语言提示辅助。Leanstral 1.5 以 Apache-2.0 许可完全开源,并通过 Hugging Face 和免费 API 开放使用,意味着任何开发者和研究者都能免费试用、本地部署和二次开发。它实现了测试时推理预算(token budget)与解题能力的平滑单调提升,证明了模型在数百万 token 的长链推理中依然保持稳定,这是该领域此前未见的特性。对于软件工程而言,这意味着形式化验证从学界专属实验迈向“人人可用的 Bug 发现工具”成为可能。

对用户/开发者/创作者的影响

对于开源软件维护者与安全研究者:可以直接使用 Leanstral 1.5 对项目代码进行形式化验证,发现运行时难以触发的、与数学性质相关的深层 Bug。模型支持在原始文件系统中像开发者一样工作,能自动补全不完整的证明、构建辅助引理,降低人工审阅负担。对于数学爱好者和教育者:它验证 Putnam 级别的数学竞赛题,能以极低成本(约 4 美元/题)自动生成严谨证明,可用于辅助教学或题库验证。对于大模型和 AI 研发者:Leanstral 1.5 使用了 MoE(Mixture of Experts)架构,仅激活 6B 参数,资源友好;其训练 pipeline 以及 FLTEval 基准也已开源,可作为复现和开发同类推理模型的重要参考。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

首先,Leanstral 1.5 的开源许可和低算力需求能否真正吸引开发者生态大规模介入形式化验证,例如集成到 CI/CD 管线中?目前公开信息显示,模型已能处理真实仓库中的部分 Pull Request 验证,但全面落地仍需社区贡献更多适配用例。其次,此成绩是否会引发同类模型在数学推理和代码验证赛道上的新一轮竞争?包括 Goedel-Architect、Seed-Prover 等模型可能被迫优化成本或开源策略。最后,免费 API 的稳定性和调用配额是否足够支撑日常实验,以及 Mistral AI 是否会推出付费的商业化版本,值得持续观察。

来源:Hacker News

celebrityanime
celebrityanime
文章: 11407

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注