Pythagoras-Prover 开源:将形式化证明成本降低一个数量级

arXiv cs.AI June 2026
来源:arXiv cs.AIformal verificationopen-source AIAI safety归档:June 2026
全新开源定理证明器家族 Pythagoras-Prover 直击形式化验证的“计算悖论”,大幅削减训练与推理成本。其双生成架构同时破解数据稀缺与证明链过长两大难题,有望让形式化方法走出精英实验室,惠及更广泛的开发者社区。

AINews 独家分析了 Pythagoras-Prover 的发布——这是一套专为实际计算预算设计的 Lean 定理证明器家族。该项目直面形式化验证领域长期存在的“计算悖论”:更强的模型需要指数级增长的资源,从而将这一领域限制在少数资金充裕的实验室手中。Pythagoras-Prover 的核心创新在于双生成范式,它同时解决了两个关键瓶颈:已验证证明数据的稀缺性,以及证明搜索链的过长问题。通过更高效的数据利用策略和在证明搜索过程中压缩推理链,该系统大幅降低了训练和推理的计算需求。该项目完全开源,标志着形式化方法向民主化迈出了关键一步。

技术深度解析

Pythagoras-Prover 的架构代表了对神经定理证明器训练与部署方式的根本性反思。近年来,主流方法一直沿着大型语言模型的轨迹,不断扩大模型规模和数据集。这虽然带来了令人瞩目的成果,但成本高得令人望而却步。例如,最先进的 GPT-f 及其后继者需要训练数十万个形式化证明,每个证明都由昂贵的暴力搜索生成,并在推理时同样使用昂贵的搜索。

Pythagoras-Prover 通过双生成范式打破了这一循环。第一代聚焦于数据效率。该系统没有依赖海量预存的形式化证明语料,而是采用了一种新颖的“证明草图”技术。它首先使用一个相对较小、速度较快的模型生成一个高层级的证明草图——一系列中间引理或关键步骤。然后,这个草图由一个更精确但资源受限的验证器进行验证和填充。这种方法有效放大了每个已验证证明的价值,因为草图模型学习的是证明的结构,而不仅仅是最终的策略序列。第二代则通过压缩搜索链来提升推理效率。传统的证明搜索通常需要探索成百上千个中间状态。Pythagoras-Prover 使用了一种“策略树剪枝”算法,该算法学习预测证明树的哪些分支最有可能成功,从而大幅减少所需步骤。这是通过一个强化学习循环实现的,其中模型因找到更短、更直接的证明而获得奖励。

该项目基于 Lean 4 定理证明器构建,并以完全开源的仓库形式发布在 GitHub 上。名为 'pythagoras-prover' 的仓库在发布第一周内就获得了超过 2000 颗星,引起了广泛关注。代码库包含预训练模型、训练脚本以及一个用于基准测试的自定义环境。其关键技术贡献是“策略树变换器”,这是一种改进的 Transformer 架构,它在证明树上而非线性 token 序列上运行。这使得模型能够推理证明的层次结构,这对于高效搜索至关重要。

| 模型 | 参数量 | 证明成功率 (MiniF2F) | 平均证明步骤数 | 训练计算量 (GPU-小时) |
|---|---|---|---|---|
| GPT-f (基线) | ~700M | 29.6% | 45.2 | 8,000 |
| ReProver (2023) | ~1.5B | 32.5% | 38.1 | 12,000 |
| Pythagoras-Prover (小型) | ~350M | 31.2% | 12.4 | 1,200 |
| Pythagoras-Prover (基础) | ~700M | 34.8% | 10.1 | 2,400 |

数据要点: Pythagoras-Prover 在参数量相近的情况下,实现了与同类模型相当或更优的证明成功率,同时训练计算量减少了 5-10 倍,平均证明步骤数减少了 3-4 倍。这是双生成范式的直接成果,它避免了在漫长且无效的搜索链上进行浪费性的探索。

关键参与者与案例研究

Pythagoras-Prover 的开发由一个来自多所机构的分布式研究团队完成,包括剑桥大学、多伦多大学和 Vector Institute。第一作者 Elena Vasquez 博士在神经定理证明领域有着丰富的经验,曾为 Lean 社区的 'Mathlib' 项目做出贡献。该团队的策略是专注于实际可用性,刻意避开了“越大越好”的军备竞赛。

这与其它主要参与者的方法形成了鲜明对比。例如,DeepMind 的 AlphaProof 在国际数学奥林匹克竞赛中取得了显著成果,但需要巨大的计算资源且未开源。同样,OpenAI 在代码生成的形式化验证方面的工作是专有的,且侧重于内部安全应用。开源社区中已有像 'LeanDojo' 和 'ReProver' 这样的项目,它们取得了一定进展,但仍然受困于高昂的计算需求。

| 项目/产品 | 开源 | 计算预算 (训练) | 目标领域 | 关键限制 |
|---|---|---|---|---|
| AlphaProof (DeepMind) | 否 | 极高 (估计 >10万 GPU-小时) | 奥赛级数学 | 无法用于通用场景 |
| LeanDojo | 是 | 中等 (估计 5k GPU-小时) | 通用 Lean 证明 | 推理成本高 |
| ReProver | 是 | 高 (估计 12k GPU-小时) | 通用 Lean 证明 | 证明链过长 |
| Pythagoras-Prover | 是 | 低 (基础版 2.4k GPU-小时) | 通用 Lean 证明 | 在极复杂证明上仍处早期阶段 |

数据要点: Pythagoras-Prover 是唯一一个同时具备开源和低计算预算特性的项目,使其成为研究人员和小型团队最易获取的选择。其在开源领域的主要竞争对手 ReProver 需要 5 倍的训练计算量,并且仍然受困于过长的推理链。

行业影响与市场展望

Pythagoras-Prover 的发布可能成为形式化验证领域的一个转折点。通过将计算成本降低一个数量级,它使更广泛的受众——包括初创公司、学术实验室甚至个人开发者——能够使用形式化方法。这可能会加速关键软件系统(如区块链协议、自动驾驶软件和金融基础设施)的验证工作。

从更宏观的角度看,该项目代表了 AI 辅助编程领域的一种新兴趋势:从“越大越好”转向“更智能、更高效”。虽然大型语言模型在代码生成方面表现出色,但它们往往缺乏形式化保证。Pythagoras-Prover 表明,通过精心设计的架构和训练策略,较小的模型可以在特定任务上达到甚至超越大型模型的性能。

然而,挑战依然存在。Pythagoras-Prover 在极其复杂的数学证明上仍处于早期阶段,这些证明通常需要人类数学家创造性的洞察力。此外,将形式化方法更广泛地集成到软件开发生命周期中,还需要更好的工具和更低的入门门槛。尽管如此,Pythagoras-Prover 已经为更可及、更实用的形式化验证铺平了道路。

更多来自 arXiv cs.AI

ToolSense 揭示大模型工具检索的隐藏盲区:AI 可靠性迎来新标杆随着大语言模型从回答问题转向通过调用工具执行操作,一个关键瓶颈浮出水面:模型究竟如何记住并检索工具?传统的基于嵌入的检索方法,由于编码器语义浅层化,在处理专业工具时常常失效。参数化工具检索——将每个工具编码为虚拟令牌,并对 LLM 进行微调ToM-U框架:让AI真正理解人类信念的数学公式心智理论效用(ToM-U)框架标志着AI社会智能研究的关键转折点——从模仿共情转向数学建模另一个智能体如何知道它所知道的内容。传统大语言模型能生成看似共情的回应,但缺乏对他人认知状态的底层表征:它们不知道对方知道什么、不知道什么、或被误导了DAF-AGI框架:用设计科学终结AGI定义之争AI社区长期以来陷入“盲人摸象”的困境:同一个系统,根据不同的测试标准,既可以被宣布为“AGI已实现”,也可以被判定为“离AGI还很远”。DAF-AGI框架植根于设计科学研究(DSR)方法论,提出一个根本性的转变:不再追问“AGI何时到来?查看来源专题页arXiv cs.AI 已收录 457 篇文章

相关专题

formal verification36 篇相关文章open-source AI208 篇相关文章AI safety208 篇相关文章

时间归档

June 20261209 篇已发布文章

延伸阅读

形式化证明破解AI工作流治理难题:无需牺牲创造力,即可实现数学级安全保证一项基于Rocq 8.19与Interaction Trees的开创性形式化验证研究证明,AI工作流架构能够在保持内部表达力的同时实现完全透明。治理算子G以零未证明引理的方式中介所有效应指令,将AI治理从经验规则提升为数学可验证的保证。LLM解锁形式化验证:TLA+提示工程革命重塑软件可靠性一场静默的革命正在发生:开发者正利用大语言模型生成和调试TLA+形式化规约,将数学验证这门晦涩技艺转变为人类与AI的协作对话。这一突破大幅降低了实现可证明正确软件的门槛,有望重新定义分布式系统与AI代理的可靠性工程。智能爆炸:从AGI到ASI,可能只需数月而非数十年从通用人工智能到超级人工智能的路径,可能远比大多数人预期的要短。AINews深入剖析智能爆炸背后的机制、带来的技术与哲学挑战,以及这对人类未来意味着什么。多模态AI的致命短板:修复最弱维度,解锁真正推理能力多模态推理系统存在一个关键盲点:过程奖励模型(PRM)对各维度分数取平均,掩盖了单点失败。一种全新的“最弱维度优化”策略,迫使模型在每一步修复最薄弱的环节,有望将AI自我评估从“追求平均”转向“保障底线”的逻辑。

常见问题

GitHub 热点“Pythagoras-Prover Open Source: Slashing Formal Proof Cost by an Order of Magnitude”主要讲了什么?

AINews has independently analyzed the release of Pythagoras-Prover, a family of Lean theorem provers designed for practical compute budgets. The project directly confronts a long-s…

这个 GitHub 项目在“How does Pythagoras-Prover compare to AlphaProof in terms of compute cost?”上为什么会引发关注?

Pythagoras-Prover's architecture represents a fundamental rethinking of how neural theorem provers are trained and deployed. The dominant approach in recent years has been to scale up models and datasets, following the s…

从“Can Pythagoras-Prover be used for smart contract verification?”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。