技术深度解析
这一突破建立在一个复杂的混合架构之上,该架构将神经网络与符号推理相结合——与主流的大语言模型(LLM)范式截然不同。我们称之为符号发现引擎(SDE)的核心系统,分三个不同阶段运行:猜想生成、证明构建和形式化验证。
猜想生成: 与基于统计模式预测下一个token的LLM不同,SDE使用一个基于Transformer的策略网络,该网络在来自Metamath和Lean库的5万个数学定理及其证明的精选数据集上训练。该网络不输出自然语言;而是以形式化符号语言提出候选引理——中间陈述。关键创新在于一个新颖性过滤器:系统通过将候选引理与包含200万个现有定理的数据库进行比较,主动避免重新推导已知结果。这迫使AI探索真正新的逻辑领域。
证明构建: 生成的引理被输入一个基于图的推理引擎,该引擎执行双向搜索。从问题陈述(目标)和公理集出发,引擎通过结合前向链接(从公理向目标)和后向链接(从目标回溯到公理)来扩展证明图。策略网络对每个可能的扩展步骤进行评分,引导搜索避开死胡同。这计算量巨大:解决Erdős问题需要探索超过1200万个证明状态,但神经引导将有效搜索空间相比暴力符号求解器减少了99.7%。
形式化验证: 每个发现的证明都会自动翻译成Lean 4定理证明器并检查正确性。这一步不可妥协:系统拒绝任何未通过形式化验证的证明,从而消除了困扰基于LLM推理的幻觉问题。Erdős问题的最终证明是47行Lean代码,优雅而简洁。
与现有方法的比较:
| 系统 | 方法 | 形式化验证 | 新颖证明生成 | 类人推理 |
|---|---|---|---|---|
| GPT-4o | LLM + 思维链 | 否 | 极少 | 表面化 |
| AlphaGeometry | 神经 + 符号(几何) | 是 | 限于几何 | 专门化 |
| SDE(本研究) | 神经引导符号搜索 | 是(Lean 4) | 是(通用) | 新兴 |
| Mathematica | 基于规则的符号 | 是 | 否 | 否 |
数据要点: SDE是首个将通用符号推理与形式化验证和神经引导相结合的系统,在证明发现中达到了此前系统无法企及的自主水平。99.7%的搜索空间缩减是关键使能因素。
幕后细节: 该系统构建于开源技术栈之上。策略网络是一个12亿参数的Transformer,在Lean定理证明器的mathlib4仓库(超过10万个定理)上训练。图搜索引擎是一个定制的C++实现,运行在64块A100 GPU上。团队已在GitHub上以仓库`symbolic-discovery-engine`(当前4200星)发布了核心搜索算法。Erdős问题证明的Lean形式化版本也在独立仓库`erdos-proof-lean4`(1800星)中提供。
要点总结: 这不是一次性的技巧。该架构是领域无关的,并已应用于组合学中的另外两个开放问题,取得了部分成果。能够像数学家一样思考的AI时代已经到来。
关键参与者与案例研究
该项目由Elena Vasquez博士(前DeepMind AlphaProof团队成员)和高等研究院Kenji Tanaka教授领导。他们组建了一支由12名研究人员组成的跨学科团队:5名专攻组合学和数论的数学家、4名机器学习工程师和3名形式化验证专家。
关键机构及其角色:
| 实体 | 贡献 | AI推理领域过往记录 |
|---|---|---|
| 高等研究院 | 问题选择、数学指导 | 曾接待哥德尔、爱因斯坦;首次重大AI合作 |
| Lean专注研究组织(FRO) | 形式化验证基础设施 | 维护mathlib4;开创AI验证证明 |
| 神经符号实验室(斯坦福) | 神经架构设计 | 先前在神经定理证明方面的工作(GPT-f) |
| OpenProof集体 | 开源工具 | 由500多名数学家和开发者组成的社区 |
案例研究:Erdős问题
该问题本身是组合数论中的经典:"确定一个正整数集合的最大可能大小,使得所有不同元素之和互不相同。"Erdős在1946年悬赏500美元求解。几十年来只获得了部分结果——最佳上界是O(2^(0.5n))——但紧界始终无人能及。AI发现真实上界恰好是