技术深度解析
AlphaGeometry 的架构堪称将神经网络与符号系统互补优势相结合的典范。其核心创新在于训练数据的生成方式以及推理过程的编排。
数据生成管线: DeepMind 团队创建了一个合成数据生成器,首先从预定义的几何基元集合中随机采样几何配置——点、线、圆及其相互关系。对于每种配置,一个符号推演引擎(前向链接定理证明器)会穷举推导出所有可能的结论。这会产生一个庞大的“前提→结论”步骤图。然后,通过从目标结论出发进行反向搜索,系统可以提取出完整的证明树。最终得到 1 亿个合成证明步骤,每个步骤都配有几何图形和推导序列。整个过程完全不使用人类证明。
神经语言模型: 该语言模型是一个约 10 亿参数的 Transformer,在这些合成证明步骤上训练而成。其输入是几何图形(点、线、角等)和当前证明状态的 token 化表示。输出则是建议的下一步——要么是一个推导(例如“角 ABC = 角 DEF”),要么是一个辅助构造(例如“构造点 M 作为线段 AB 的中点”)。模型使用标准的下一 token 预测目标进行训练,关键在于训练数据完全是合成的,覆盖了极其广阔的几何配置空间。
符号推演引擎: 这是一个经典的、基于规则的定理证明器,运行在一套固定的几何公理和推理规则之上(例如角度追逐、全等、相似、圆内接四边形)。它快速、确定性强,并能保证正确性。在推理过程中,符号引擎尝试使用前向链接来证明目标定理。如果陷入困境,它会调用神经模型来建议一个辅助构造或一条新的推导路径。神经模型的建议随后被反馈回符号引擎,由后者验证该建议是否能导向证明。这个循环会一直持续,直到找到完整的证明或达到时间限制。
推理循环: 整个过程是一个经典的“生成-测试”循环。符号引擎首先运行,尝试直接证明定理。如果在若干步骤后失败,它会向神经模型请求一个“提示”。神经模型生成一个候选辅助点或新的推导。符号引擎随后利用新信息继续运行。这个循环不断重复。系统对神经模型的输出使用束搜索,以并行探索多个候选提示。
基准测试表现: AlphaGeometry 在包含 30 道 IMO 几何题(2000-2020 年)的测试集上进行了评估。结果令人瞩目:
| 指标 | AlphaGeometry | 平均 IMO 金牌得主 | GPT-4(带提示) |
|---|---|---|---|
| 解题数(共 30 道) | 25 | 25.2 | 0 |
| 平均证明长度(步骤数) | 109 | 52 | 不适用 |
| 每道题用时(分钟) | 5-15 | 45-90 | 不适用 |
| 类人可读性 | 中等 | 高 | 不适用 |
数据要点: AlphaGeometry 在原始解题能力上与顶尖人类选手持平,但其证明步骤大约长一倍,表明在优雅性上有所欠缺。然而,它的速度显著更快,只需几分钟而非几小时就能解决问题。GPT-4 尽管知识广博,却无法从零解决任何一道题,这凸显了专用架构的必要性。
GitHub 上的开源仓库(google-deepmind/alphageometry)已获得超过 4800 颗星。代码库包括合成数据生成器、训练好的模型权重以及符号引擎。研究人员正在积极 fork 该项目,尝试将其扩展到代数几何领域,并与 Lean 等交互式定理证明器集成。
关键参与者与案例研究
DeepMind(Google): 主要开发者。AlphaGeometry 是 DeepMind 一系列针对数学推理的项目中的最新成果,紧随 AlphaFold(蛋白质折叠)和 AlphaTensor(矩阵乘法)之后。由 Trieu Trinh 和 Yuhuai Wu 领导的团队在神经符号系统方面有着丰富的经验。Trinh 此前曾在 Google Brain 从事神经定理证明工作。DeepMind 的策略很明确:先证明 AI 能够在受限领域掌握形式化推理,然后再进行泛化。在合成数据生成上的投入是一个关键的差异化因素——它避免了人工标注的瓶颈。
OpenAI(GPT-4, o1): 尽管 GPT-4 在 IMO 几何基准测试中失败,但 OpenAI 更新的 o1 模型(2024 年 9 月发布)使用了思维链推理,并在数学问题上表现出改进。然而,o1 的方法是纯神经的,没有符号引擎。早期基准测试表明,o1 能解出 30 道 IMO 几何题中的约 10-12 道,仍远低于 AlphaGeometry。这一对比凸显了符号推理在形式化数学任务中的价值。