技术深度解析
神经符号证明搜索的核心,是在两种不同AI范式之间实现了一个精密的反馈循环。神经组件通常是一个基于Transformer架构、并在形式数学数据上微调过的大语言模型,它理解证明目标的语义上下文——即“是什么”和“为什么”。符号组件则是一个自动定理证明器或交互式定理证明器,它掌握形式化规则——即逻辑推导的“如何做”。
其架构遵循“搜索-精炼”模式。给定一个形式化规约(待证明的定理),大语言模型会生成一系列证明步骤或策略。这些并非自然语言建议,而是证明器语言中的正式命令(例如 `apply`、`rewrite`、`induction`)。证明器执行这些步骤,其成功或失败状态以及新的证明上下文会反馈给大语言模型。这创造了一个强化学习环境,让大语言模型学习哪些策略对特定的逻辑上下文有效。
关键的算法创新包括:用于证明搜索的检索增强生成——系统从数据库中检索类似且已解决的定理来引导大语言模型;以及为探索证明空间而适配的蒙特卡洛树搜索——树节点代表证明状态,大语言模型引导搜索向有希望的分支扩展。
多个开源代码库正在引领这一领域。`lean-gym`(GitHub)提供了一个OpenAI Gym风格的接口,用于与Lean定理证明器交互,允许AI智能体通过试错学习证明搜索,它已成为标准基准环境。`Prover`(来自Google DeepMind)是一个用于在Isabelle/HOL证明数据上训练大语言模型的代码库,展示了如何为Transformer理解格式化证明状态。`TacticZero`及其后续项目展示了如何将强化学习直接应用于Coq中的策略预测。
性能主要通过证明成功率(在基准测试集中被自动证明的定理百分比)和证明搜索时间来衡量。早期系统在具有挑战性的基准测试中成功率仅为个位数;而当前最先进的系统在精选数据集上已达到30-50%的成功率,其余部分仍需不同程度的人工指导。
| 系统 / 方法 | 核心证明器 | 基准测试 (MiniF2F) | 成功率 | 关键创新 |
|---|---|---|---|---|
| GPT-f (OpenAI, 2020) | Lean | - | ~20% (在其测试集上) | 首个在形式化证明上微调的主要大语言模型 |
| Codex + ITP (后续研究) | Isabelle, Coq | - | 25-30% | 使用Codex进行策略生成 |
| Thor (Google) | HOL Light | MiniF2F | 41.2% | 检索增强语言模型 |
| Lean Copilot | Lean 4 | - | N/A (工具,非基准测试) | 将大语言模型建议直接集成到Lean IDE中 |
数据要点: 从GPT-f到Thor的进展显示出一个清晰趋势:在挑战性数学基准测试上的成功率正稳步攀升,从新奇事物走向实际应用。检索机制的集成(如Thor)似乎是显著的性能助推器,它模仿了人类数学家参考已知定理的方式。
关键参与者与案例研究
该领域正由学术实验室、科技巨头和有雄心的初创公司共同推动,各自策略鲜明。
学术先驱: 卡内基梅隆大学的研究人员,在Marijn Heule教授的领导下,长期致力于SAT求解和形式化方法。他们将机器学习与约束求解相结合的工作提供了基础技术。在麻省理工学院,包括Adam Chlipala在内的Project Everest团队,已使用部分自动化验证构建了经过验证的安全HTTPS协议栈。虽然并非纯粹的神经符号方法,但他们的工作为全自动化创造了高价值目标。
企业研发: Google DeepMind一直是主导力量,拥有如Thor等项目以及早期在用于定理证明的图神经网络上的工作。其策略利用海量计算资源进行预训练,并与他们在强化学习方面的研究深度整合。微软研究院通过参与Lean证明器和Lean Copilot项目,采取了以开发者为中心的方法,旨在将证明辅助直接嵌入到VS Code中程序员的工作流里。Meta AI则通过发布`Prover`代码库以及在证明生成的大规模训练方面的工作做出了贡献。
初创公司与专业机构: `Aesthetic Integration`(已被亚马逊云科技收购)开发了Imandra形式验证平台,该平台使用符号AI,并开始集成类大语言模型能力用于规约编写。专注于智能合约验证的`Certora`使用基于规则的符号执行,但正积极探索利用大语言模型帮助用户编写正确的形式化规约——这是一个主要瓶颈。一波新的初创公司,目前大多处于隐身模式,正试图将神经符号证明搜索作为核心产品,瞄准金融科技、网络安全和嵌入式系统等垂直行业。