AlphaGeometry：DeepMind 的 AI 攻克奥赛级几何证明，金牌水平触手可及

2026年4月23日 16:13 AINews GitHub April 2026

⭐ 4829

来源：GitHub AI reasoning 归档：April 2026

DeepMind 的 AlphaGeometry 在国际数学奥林匹克几何题上实现了接近金牌选手的表现。它融合了神经语言模型与符号推演引擎，无需任何人类示范即可生成可读的证明过程，标志着 AI 在形式化、结构化推理能力上的重大飞跃。

DeepMind 发布了 AlphaGeometry，一个能够解决复杂几何问题的 AI 系统，其水平堪比国际数学奥林匹克（IMO）金牌得主。与以往依赖海量人类证明数据的方法不同，AlphaGeometry 采用了一种新颖的神经符号架构：一个基于 Transformer 的语言模型，在数十亿个合成几何图形和证明步骤上训练而成，并与经典的符号推演引擎协同工作。语言模型负责生成辅助构造和证明建议，而符号引擎则负责验证并补全逻辑步骤。在 2000 年至 2020 年共 30 道 IMO 几何题的基准测试中，AlphaGeometry 解出了 25 道，与金牌选手的平均水平相当。该系统无需任何人工整理的证明数据，而是通过合成数据生成器自动产生训练样本，从而彻底摆脱了对人类标注的依赖。这一成果不仅展示了 AI 在形式化推理领域的巨大潜力，也为未来将 AI 应用于更广泛的数学和科学推理任务铺平了道路。

技术深度解析

AlphaGeometry 的架构堪称将神经网络与符号系统互补优势相结合的典范。其核心创新在于训练数据的生成方式以及推理过程的编排。

数据生成管线： DeepMind 团队创建了一个合成数据生成器，首先从预定义的几何基元集合中随机采样几何配置——点、线、圆及其相互关系。对于每种配置，一个符号推演引擎（前向链接定理证明器）会穷举推导出所有可能的结论。这会产生一个庞大的“前提→结论”步骤图。然后，通过从目标结论出发进行反向搜索，系统可以提取出完整的证明树。最终得到 1 亿个合成证明步骤，每个步骤都配有几何图形和推导序列。整个过程完全不使用人类证明。

神经语言模型： 该语言模型是一个约 10 亿参数的 Transformer，在这些合成证明步骤上训练而成。其输入是几何图形（点、线、角等）和当前证明状态的 token 化表示。输出则是建议的下一步——要么是一个推导（例如“角 ABC = 角 DEF”），要么是一个辅助构造（例如“构造点 M 作为线段 AB 的中点”）。模型使用标准的下一 token 预测目标进行训练，关键在于训练数据完全是合成的，覆盖了极其广阔的几何配置空间。

符号推演引擎： 这是一个经典的、基于规则的定理证明器，运行在一套固定的几何公理和推理规则之上（例如角度追逐、全等、相似、圆内接四边形）。它快速、确定性强，并能保证正确性。在推理过程中，符号引擎尝试使用前向链接来证明目标定理。如果陷入困境，它会调用神经模型来建议一个辅助构造或一条新的推导路径。神经模型的建议随后被反馈回符号引擎，由后者验证该建议是否能导向证明。这个循环会一直持续，直到找到完整的证明或达到时间限制。

推理循环： 整个过程是一个经典的“生成-测试”循环。符号引擎首先运行，尝试直接证明定理。如果在若干步骤后失败，它会向神经模型请求一个“提示”。神经模型生成一个候选辅助点或新的推导。符号引擎随后利用新信息继续运行。这个循环不断重复。系统对神经模型的输出使用束搜索，以并行探索多个候选提示。

基准测试表现： AlphaGeometry 在包含 30 道 IMO 几何题（2000-2020 年）的测试集上进行了评估。结果令人瞩目：

| 指标 | AlphaGeometry | 平均 IMO 金牌得主 | GPT-4（带提示） |
|---|---|---|---|
| 解题数（共 30 道） | 25 | 25.2 | 0 |
| 平均证明长度（步骤数） | 109 | 52 | 不适用 |
| 每道题用时（分钟） | 5-15 | 45-90 | 不适用 |
| 类人可读性 | 中等 | 高 | 不适用 |

数据要点： AlphaGeometry 在原始解题能力上与顶尖人类选手持平，但其证明步骤大约长一倍，表明在优雅性上有所欠缺。然而，它的速度显著更快，只需几分钟而非几小时就能解决问题。GPT-4 尽管知识广博，却无法从零解决任何一道题，这凸显了专用架构的必要性。

GitHub 上的开源仓库（google-deepmind/alphageometry）已获得超过 4800 颗星。代码库包括合成数据生成器、训练好的模型权重以及符号引擎。研究人员正在积极 fork 该项目，尝试将其扩展到代数几何领域，并与 Lean 等交互式定理证明器集成。

关键参与者与案例研究

DeepMind（Google）： 主要开发者。AlphaGeometry 是 DeepMind 一系列针对数学推理的项目中的最新成果，紧随 AlphaFold（蛋白质折叠）和 AlphaTensor（矩阵乘法）之后。由 Trieu Trinh 和 Yuhuai Wu 领导的团队在神经符号系统方面有着丰富的经验。Trinh 此前曾在 Google Brain 从事神经定理证明工作。DeepMind 的策略很明确：先证明 AI 能够在受限领域掌握形式化推理，然后再进行泛化。在合成数据生成上的投入是一个关键的差异化因素——它避免了人工标注的瓶颈。

OpenAI（GPT-4, o1）： 尽管 GPT-4 在 IMO 几何基准测试中失败，但 OpenAI 更新的 o1 模型（2024 年 9 月发布）使用了思维链推理，并在数学问题上表现出改进。然而，o1 的方法是纯神经的，没有符号引擎。早期基准测试表明，o1 能解出 30 道 IMO 几何题中的约 10-12 道，仍远低于 AlphaGeometry。这一对比凸显了符号推理在形式化数学任务中的价值。

时间归档

常见问题

GitHub 热点“AlphaGeometry: DeepMind's AI Cracks Geometry Proofs at Olympiad Level”主要讲了什么？

DeepMind unveiled AlphaGeometry, an AI system that solves complex geometry problems at a level comparable to an International Mathematical Olympiad (IMO) gold medalist. Unlike prev…

这个 GitHub 项目在“AlphaGeometry vs GPT-4 geometry problem solving comparison”上为什么会引发关注？

AlphaGeometry's architecture is a masterclass in combining the complementary strengths of neural networks and symbolic systems. The core innovation lies in how it generates training data and how it orchestrates inference…

从“How to run AlphaGeometry locally on your own geometry problems”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 4829，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

AlphaGeometry：DeepMind 的 AI 攻克奥赛级几何证明，金牌水平触手可及

技术深度解析

关键参与者与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题