Pythagoras-Prover 开源：将形式化证明成本降低一个数量级

2026年6月12日 12:04 AINews arXiv cs.AI June 2026

来源：arXiv cs.AI formal verification open-source AI AI safety 归档：June 2026

全新开源定理证明器家族 Pythagoras-Prover 直击形式化验证的“计算悖论”，大幅削减训练与推理成本。其双生成架构同时破解数据稀缺与证明链过长两大难题，有望让形式化方法走出精英实验室，惠及更广泛的开发者社区。

AINews 独家分析了 Pythagoras-Prover 的发布——这是一套专为实际计算预算设计的 Lean 定理证明器家族。该项目直面形式化验证领域长期存在的“计算悖论”：更强的模型需要指数级增长的资源，从而将这一领域限制在少数资金充裕的实验室手中。Pythagoras-Prover 的核心创新在于双生成范式，它同时解决了两个关键瓶颈：已验证证明数据的稀缺性，以及证明搜索链的过长问题。通过更高效的数据利用策略和在证明搜索过程中压缩推理链，该系统大幅降低了训练和推理的计算需求。该项目完全开源，标志着形式化方法向民主化迈出了关键一步。

技术深度解析

Pythagoras-Prover 的架构代表了对神经定理证明器训练与部署方式的根本性反思。近年来，主流方法一直沿着大型语言模型的轨迹，不断扩大模型规模和数据集。这虽然带来了令人瞩目的成果，但成本高得令人望而却步。例如，最先进的 GPT-f 及其后继者需要训练数十万个形式化证明，每个证明都由昂贵的暴力搜索生成，并在推理时同样使用昂贵的搜索。

Pythagoras-Prover 通过双生成范式打破了这一循环。第一代聚焦于数据效率。该系统没有依赖海量预存的形式化证明语料，而是采用了一种新颖的“证明草图”技术。它首先使用一个相对较小、速度较快的模型生成一个高层级的证明草图——一系列中间引理或关键步骤。然后，这个草图由一个更精确但资源受限的验证器进行验证和填充。这种方法有效放大了每个已验证证明的价值，因为草图模型学习的是证明的结构，而不仅仅是最终的策略序列。第二代则通过压缩搜索链来提升推理效率。传统的证明搜索通常需要探索成百上千个中间状态。Pythagoras-Prover 使用了一种“策略树剪枝”算法，该算法学习预测证明树的哪些分支最有可能成功，从而大幅减少所需步骤。这是通过一个强化学习循环实现的，其中模型因找到更短、更直接的证明而获得奖励。

该项目基于 Lean 4 定理证明器构建，并以完全开源的仓库形式发布在 GitHub 上。名为 'pythagoras-prover' 的仓库在发布第一周内就获得了超过 2000 颗星，引起了广泛关注。代码库包含预训练模型、训练脚本以及一个用于基准测试的自定义环境。其关键技术贡献是“策略树变换器”，这是一种改进的 Transformer 架构，它在证明树上而非线性 token 序列上运行。这使得模型能够推理证明的层次结构，这对于高效搜索至关重要。

| 模型 | 参数量 | 证明成功率 (MiniF2F) | 平均证明步骤数 | 训练计算量 (GPU-小时) |
|---|---|---|---|---|
| GPT-f (基线) | ~700M | 29.6% | 45.2 | 8,000 |
| ReProver (2023) | ~1.5B | 32.5% | 38.1 | 12,000 |
| Pythagoras-Prover (小型) | ~350M | 31.2% | 12.4 | 1,200 |
| Pythagoras-Prover (基础) | ~700M | 34.8% | 10.1 | 2,400 |

数据要点： Pythagoras-Prover 在参数量相近的情况下，实现了与同类模型相当或更优的证明成功率，同时训练计算量减少了 5-10 倍，平均证明步骤数减少了 3-4 倍。这是双生成范式的直接成果，它避免了在漫长且无效的搜索链上进行浪费性的探索。

关键参与者与案例研究

Pythagoras-Prover 的开发由一个来自多所机构的分布式研究团队完成，包括剑桥大学、多伦多大学和 Vector Institute。第一作者 Elena Vasquez 博士在神经定理证明领域有着丰富的经验，曾为 Lean 社区的 'Mathlib' 项目做出贡献。该团队的策略是专注于实际可用性，刻意避开了“越大越好”的军备竞赛。

这与其它主要参与者的方法形成了鲜明对比。例如，DeepMind 的 AlphaProof 在国际数学奥林匹克竞赛中取得了显著成果，但需要巨大的计算资源且未开源。同样，OpenAI 在代码生成的形式化验证方面的工作是专有的，且侧重于内部安全应用。开源社区中已有像 'LeanDojo' 和 'ReProver' 这样的项目，它们取得了一定进展，但仍然受困于高昂的计算需求。

| 项目/产品 | 开源 | 计算预算 (训练) | 目标领域 | 关键限制 |
|---|---|---|---|---|
| AlphaProof (DeepMind) | 否 | 极高 (估计 >10万 GPU-小时) | 奥赛级数学 | 无法用于通用场景 |
| LeanDojo | 是 | 中等 (估计 5k GPU-小时) | 通用 Lean 证明 | 推理成本高 |
| ReProver | 是 | 高 (估计 12k GPU-小时) | 通用 Lean 证明 | 证明链过长 |
| Pythagoras-Prover | 是 | 低 (基础版 2.4k GPU-小时) | 通用 Lean 证明 | 在极复杂证明上仍处早期阶段 |

数据要点： Pythagoras-Prover 是唯一一个同时具备开源和低计算预算特性的项目，使其成为研究人员和小型团队最易获取的选择。其在开源领域的主要竞争对手 ReProver 需要 5 倍的训练计算量，并且仍然受困于过长的推理链。

行业影响与市场展望

Pythagoras-Prover 的发布可能成为形式化验证领域的一个转折点。通过将计算成本降低一个数量级，它使更广泛的受众——包括初创公司、学术实验室甚至个人开发者——能够使用形式化方法。这可能会加速关键软件系统（如区块链协议、自动驾驶软件和金融基础设施）的验证工作。

从更宏观的角度看，该项目代表了 AI 辅助编程领域的一种新兴趋势：从“越大越好”转向“更智能、更高效”。虽然大型语言模型在代码生成方面表现出色，但它们往往缺乏形式化保证。Pythagoras-Prover 表明，通过精心设计的架构和训练策略，较小的模型可以在特定任务上达到甚至超越大型模型的性能。

然而，挑战依然存在。Pythagoras-Prover 在极其复杂的数学证明上仍处于早期阶段，这些证明通常需要人类数学家创造性的洞察力。此外，将形式化方法更广泛地集成到软件开发生命周期中，还需要更好的工具和更低的入门门槛。尽管如此，Pythagoras-Prover 已经为更可及、更实用的形式化验证铺平了道路。

时间归档

常见问题

GitHub 热点“Pythagoras-Prover Open Source: Slashing Formal Proof Cost by an Order of Magnitude”主要讲了什么？

AINews has independently analyzed the release of Pythagoras-Prover, a family of Lean theorem provers designed for practical compute budgets. The project directly confronts a long-s…

这个 GitHub 项目在“How does Pythagoras-Prover compare to AlphaProof in terms of compute cost?”上为什么会引发关注？

Pythagoras-Prover's architecture represents a fundamental rethinking of how neural theorem provers are trained and deployed. The dominant approach in recent years has been to scale up models and datasets, following the s…

从“Can Pythagoras-Prover be used for smart contract verification?”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

Pythagoras-Prover 开源：将形式化证明成本降低一个数量级

技术深度解析

关键参与者与案例研究

行业影响与市场展望

更多来自 arXiv cs.AI

相关专题

时间归档

延伸阅读

常见问题