DeepSeek V4 做数学证明,500 倍成本优势:智能体系统刷新多项纪录

DeepSeek V4 做数学证明,500 倍成本优势:智能体系统刷新多项纪录

DeepSeek V4 做数学证明,500 倍成本优势:智能体系统刷新多项纪录

一句话看懂:普林斯顿大学团队基于DeepSeek-V4-Flash开发的Goedel-Architect智能体,在数学形式化定理证明任务中,以仅294美元的成本完成了此前需17万美元的测试,通过率更高,且首次刷完了MiniF2F-test全部244道题。这标志着AI数学证明的瓶颈从“生成”转向“验证”,而成本和效率的指数级改善正加速这一过程。

事件核心:发生了什么

2026年6月6日,普林斯顿大学语言与智能研究中心(PLI)发布论文,提出名为Goedel-Architect的智能体框架。其核心思路是在证明之前先生成全局证明蓝图(有向无环图),列出所有引理及依赖关系,然后并行验证,失败节点会自动触发蓝图精炼——要么修正错误命题,要么将难证明的引理拆解为子目标。这套系统使用DeepSeek-V4-Flash作为骨干模型,在PutnamBench 672道题测试中,花费294美元、通过率75.6%,而谷歌Gemini驱动的Hilbert花费约17万美元、通过率70.0%,成本相差约500倍且效果更优。借助自然语言辅助后,通过率进一步提升至88.8%,总花费仍低于1000美元。此外,Goedel-Architect还成为首个刷完MiniF2F-test全部244道题的系统,并解决了IMO 2025的4/6题和污染免疫测试USAMO 2026的3/6题。

为什么重要

AI数学证明的核心瓶颈已经从“如何生成证明”转移到“如何验证证明”——AI产出的速度已远超人类消化能力。Goedel-Architect通过蓝图+并行验证+自动精炼的pipeline设计,将形式化定理证明的访问门槛降低了约两个数量级。控制实验显示,在相同骨干模型下,Goedel-Architect在MiniF2F上的通过率为99.2%,而采用递归分解的Hilbert仅为84.4%,证明提升来自架构设计而非模型本身。这意味着,开源模型+高效框架的组合,可以在数学验证这一高门槛领域实现比闭源大模型更优的成本和效果,可能重塑AI数学基础设施的商业化路径。

对用户/开发者/创作者的影响

对AI开发者和研究人员:Goedel-Architect是完全开源的框架,开发者可以直接在自己的数学证明或验证任务中复用其蓝图生成和精炼逻辑。DeepSeek-V4-Flash作为骨干模型的表现表明,在形式化验证任务中,模型能力不是唯一决定因素,好的pipeline设计可以大幅降低对顶级闭源模型的依赖,这为成本敏感的学术团队提供了可行的技术路线。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对数学和科研用户:这套系统可以直接用于自动化验证数学猜想的正确性,例如在Lean环境中检查新引理是否与已知数学库一致。随着形式化数学库的持续积累,研究者可以将更多精力放在提出假设而非手动验证上。

对企业:在需要数学严谨性的领域(如密码学、定理证明、形式化软件验证),该框架提供了一种低成本、高可靠性的自动化验证工具,有望降低相关产品的研发和测试成本。

值得关注的后续

1. 框架普及度:Goedel-Architect的开源能否吸引Lean社区和数学研究团队实际采用?其蓝图精炼机制在更大规模定理库上的表现有待验证。

2. 模型与框架的协同进化:DeepSeek-V4-Flash的表现显示开源模型在形式化验证领域的竞争力,未来其他开源模型(如Llama、Qwen)是否会针对类似任务做专有优化?

3. 成本曲线和商业化:如果成本继续下降,形式化证明验证可能从学术项目走向企业级工具,Lean生态配套的自动化工具链是否会迎来商业化窗口?

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 5928

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注