神经符号证明搜索崛起:AI开始为关键软件撰写数学保证

arXiv cs.AI March 2026
来源:arXiv cs.AIformal verification归档:March 2026
神经网络与符号逻辑的突破性融合,正将形式验证从一门依赖专家手工操作的技艺,转变为自动化工程流程。通过让大语言模型提出证明策略,并由定理证明器严格验证,AI正从编码助手进化为能为核心软件生成数学保证的认证推理伙伴。

长期以来,对数学意义上正确软件的追求,受限于形式验证劳动密集的本质——需要专家手动编写证明脚本。一种名为“神经符号证明搜索”的新范式,正通过智能分工打破这一瓶颈。在大量代码、规约和数学证明语料上训练的大语言模型,扮演着直觉战略家的角色:它们提出引理、建议证明策略、勾勒潜在解决路径。这些提案随后被送入如Lean、Coq或Isabelle等传统自动定理证明器,后者充当着毫不妥协的验证者,以数学的严谨性检查每一步逻辑。这种“猜想-验证”循环不断迭代,直至生成完整且机器可检查的证明。这一转变标志着软件验证的根本性变革。AI不再仅仅是生成可能正确的代码,而是能协同生成经过数学验证的保证,这对于操作系统、加密协议、自动驾驶系统及区块链智能合约等安全关键领域具有深远意义。它降低了形式验证的高门槛,使其从学术界和特定行业(如航空航天)的专属工具,转变为更广泛软件工程实践中可集成的环节。尽管完全自动化证明复杂定理仍具挑战,但该方向已展现出将人类直觉创造力与机器严格验证能力相结合的强大潜力,为构建高可信软件开辟了新道路。

技术深度解析

神经符号证明搜索的核心,是在两种不同AI范式之间实现了一个精密的反馈循环。神经组件通常是一个基于Transformer架构、并在形式数学数据上微调过的大语言模型,它理解证明目标的语义上下文——即“是什么”和“为什么”。符号组件则是一个自动定理证明器或交互式定理证明器,它掌握形式化规则——即逻辑推导的“如何做”。

其架构遵循“搜索-精炼”模式。给定一个形式化规约(待证明的定理),大语言模型会生成一系列证明步骤或策略。这些并非自然语言建议,而是证明器语言中的正式命令(例如 `apply`、`rewrite`、`induction`)。证明器执行这些步骤,其成功或失败状态以及新的证明上下文会反馈给大语言模型。这创造了一个强化学习环境,让大语言模型学习哪些策略对特定的逻辑上下文有效。

关键的算法创新包括:用于证明搜索的检索增强生成——系统从数据库中检索类似且已解决的定理来引导大语言模型;以及为探索证明空间而适配的蒙特卡洛树搜索——树节点代表证明状态,大语言模型引导搜索向有希望的分支扩展。

多个开源代码库正在引领这一领域。`lean-gym`(GitHub)提供了一个OpenAI Gym风格的接口,用于与Lean定理证明器交互,允许AI智能体通过试错学习证明搜索,它已成为标准基准环境。`Prover`(来自Google DeepMind)是一个用于在Isabelle/HOL证明数据上训练大语言模型的代码库,展示了如何为Transformer理解格式化证明状态。`TacticZero`及其后续项目展示了如何将强化学习直接应用于Coq中的策略预测。

性能主要通过证明成功率(在基准测试集中被自动证明的定理百分比)和证明搜索时间来衡量。早期系统在具有挑战性的基准测试中成功率仅为个位数;而当前最先进的系统在精选数据集上已达到30-50%的成功率,其余部分仍需不同程度的人工指导。

| 系统 / 方法 | 核心证明器 | 基准测试 (MiniF2F) | 成功率 | 关键创新 |
|---|---|---|---|---|
| GPT-f (OpenAI, 2020) | Lean | - | ~20% (在其测试集上) | 首个在形式化证明上微调的主要大语言模型 |
| Codex + ITP (后续研究) | Isabelle, Coq | - | 25-30% | 使用Codex进行策略生成 |
| Thor (Google) | HOL Light | MiniF2F | 41.2% | 检索增强语言模型 |
| Lean Copilot | Lean 4 | - | N/A (工具,非基准测试) | 将大语言模型建议直接集成到Lean IDE中 |

数据要点: 从GPT-f到Thor的进展显示出一个清晰趋势:在挑战性数学基准测试上的成功率正稳步攀升,从新奇事物走向实际应用。检索机制的集成(如Thor)似乎是显著的性能助推器,它模仿了人类数学家参考已知定理的方式。

关键参与者与案例研究

该领域正由学术实验室、科技巨头和有雄心的初创公司共同推动,各自策略鲜明。

学术先驱: 卡内基梅隆大学的研究人员,在Marijn Heule教授的领导下,长期致力于SAT求解和形式化方法。他们将机器学习与约束求解相结合的工作提供了基础技术。在麻省理工学院,包括Adam Chlipala在内的Project Everest团队,已使用部分自动化验证构建了经过验证的安全HTTPS协议栈。虽然并非纯粹的神经符号方法,但他们的工作为全自动化创造了高价值目标。

企业研发: Google DeepMind一直是主导力量,拥有如Thor等项目以及早期在用于定理证明的图神经网络上的工作。其策略利用海量计算资源进行预训练,并与他们在强化学习方面的研究深度整合。微软研究院通过参与Lean证明器和Lean Copilot项目,采取了以开发者为中心的方法,旨在将证明辅助直接嵌入到VS Code中程序员的工作流里。Meta AI则通过发布`Prover`代码库以及在证明生成的大规模训练方面的工作做出了贡献。

初创公司与专业机构: `Aesthetic Integration`(已被亚马逊云科技收购)开发了Imandra形式验证平台,该平台使用符号AI,并开始集成类大语言模型能力用于规约编写。专注于智能合约验证的`Certora`使用基于规则的符号执行,但正积极探索利用大语言模型帮助用户编写正确的形式化规约——这是一个主要瓶颈。一波新的初创公司,目前大多处于隐身模式,正试图将神经符号证明搜索作为核心产品,瞄准金融科技、网络安全和嵌入式系统等垂直行业。

更多来自 arXiv cs.AI

无标题Agentic RAG—the dominant architecture for complex AI reasoning—breaks tasks into sequential steps, each relying on exterTrivium因果记忆:让AI从“遗憾”中学习,而非仅靠奖励当前AI系统存在结构性盲点:它们只针对最终奖励进行优化,从不记录错误发生的“时间”或“原因”。Trivium的突破性成果引入了“长期序列遗憾”作为因果记忆控制器的核心目标。这迫使智能体系统地记录、回放并纠正其决策链中的每一个偏差,将错误纠正AI进入“后果感知”时代:错误不再等价,算力分配迎来革命多年来,AI行业一直默认一个沉默但深远的假设:所有错误都是等价的。无论模型是将猫误判为狗,还是将恶性肿瘤误诊为良性,准确率指标都一视同仁。如今,这一假设正在被颠覆。一种名为“后果感知推理计算分配”的新方法正在兴起:AI系统不再仅仅根据任务难查看来源专题页arXiv cs.AI 已收录 416 篇文章

相关专题

formal verification32 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

BODHI框架:AI像资深系统架构师一样编写内核规范系统研究人员推出的全新AI框架BODHI,彻底改变了操作系统内核规范的编写方式。它将系统调用分解为“规范草图”,让大语言模型填充精确的逻辑约束,在Hyperkernel基准测试中Pass@1达到90%以上,远超此前55%的水平。这标志着AIAI自证其码:归纳-演绎合成开启形式验证新纪元一种名为“归纳-演绎合成”(IDS)的新兴AI技术,正让机器不仅能编写代码,还能从数学上证明其绝对正确。它结合大语言模型与定理证明器,自动验证从分布式数据库到自动驾驶等关键系统,填补了传统测试无法触及的空白。RMA:研究级数学智能体如何将AI转变为科学协作者一种名为Research Math Agents(RMA)的新型AI框架,通过模拟人类数学家的工作流程,正在攻克研究级别的数学难题。与局限于竞赛题目的系统不同,RMA将复杂证明分解为分析、文献检索和迭代优化,标志着从模式匹配到真正长程推理的形式化证明破解AI工作流治理难题:无需牺牲创造力,即可实现数学级安全保证一项基于Rocq 8.19与Interaction Trees的开创性形式化验证研究证明,AI工作流架构能够在保持内部表达力的同时实现完全透明。治理算子G以零未证明引理的方式中介所有效应指令,将AI治理从经验规则提升为数学可验证的保证。

常见问题

这次模型发布“Neural-Symbolic Proof Search Emerges: AI Begins Writing Mathematical Guarantees for Critical Software”的核心内容是什么?

The quest for mathematically correct software has long been constrained by the labor-intensive nature of formal verification, requiring specialized experts to manually craft proof…

从“How does neural symbolic proof search work with Lean theorem prover?”看,这个模型发布为什么重要?

At its core, neural-symbolic proof search implements a sophisticated feedback loop between two distinct AI paradigms. The neural component, typically a transformer-based LLM fine-tuned on formal mathematics, understands…

围绕“What are the limitations of AI for formal verification of smart contracts?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。