AlphaGeometry:DeepMind 的 AI 攻克奥赛级几何证明,金牌水平触手可及

GitHub April 2026
⭐ 4829
来源:GitHubAI reasoning归档:April 2026
DeepMind 的 AlphaGeometry 在国际数学奥林匹克几何题上实现了接近金牌选手的表现。它融合了神经语言模型与符号推演引擎,无需任何人类示范即可生成可读的证明过程,标志着 AI 在形式化、结构化推理能力上的重大飞跃。

DeepMind 发布了 AlphaGeometry,一个能够解决复杂几何问题的 AI 系统,其水平堪比国际数学奥林匹克(IMO)金牌得主。与以往依赖海量人类证明数据的方法不同,AlphaGeometry 采用了一种新颖的神经符号架构:一个基于 Transformer 的语言模型,在数十亿个合成几何图形和证明步骤上训练而成,并与经典的符号推演引擎协同工作。语言模型负责生成辅助构造和证明建议,而符号引擎则负责验证并补全逻辑步骤。在 2000 年至 2020 年共 30 道 IMO 几何题的基准测试中,AlphaGeometry 解出了 25 道,与金牌选手的平均水平相当。该系统无需任何人工整理的证明数据,而是通过合成数据生成器自动产生训练样本,从而彻底摆脱了对人类标注的依赖。这一成果不仅展示了 AI 在形式化推理领域的巨大潜力,也为未来将 AI 应用于更广泛的数学和科学推理任务铺平了道路。

技术深度解析

AlphaGeometry 的架构堪称将神经网络与符号系统互补优势相结合的典范。其核心创新在于训练数据的生成方式以及推理过程的编排。

数据生成管线: DeepMind 团队创建了一个合成数据生成器,首先从预定义的几何基元集合中随机采样几何配置——点、线、圆及其相互关系。对于每种配置,一个符号推演引擎(前向链接定理证明器)会穷举推导出所有可能的结论。这会产生一个庞大的“前提→结论”步骤图。然后,通过从目标结论出发进行反向搜索,系统可以提取出完整的证明树。最终得到 1 亿个合成证明步骤,每个步骤都配有几何图形和推导序列。整个过程完全不使用人类证明。

神经语言模型: 该语言模型是一个约 10 亿参数的 Transformer,在这些合成证明步骤上训练而成。其输入是几何图形(点、线、角等)和当前证明状态的 token 化表示。输出则是建议的下一步——要么是一个推导(例如“角 ABC = 角 DEF”),要么是一个辅助构造(例如“构造点 M 作为线段 AB 的中点”)。模型使用标准的下一 token 预测目标进行训练,关键在于训练数据完全是合成的,覆盖了极其广阔的几何配置空间。

符号推演引擎: 这是一个经典的、基于规则的定理证明器,运行在一套固定的几何公理和推理规则之上(例如角度追逐、全等、相似、圆内接四边形)。它快速、确定性强,并能保证正确性。在推理过程中,符号引擎尝试使用前向链接来证明目标定理。如果陷入困境,它会调用神经模型来建议一个辅助构造或一条新的推导路径。神经模型的建议随后被反馈回符号引擎,由后者验证该建议是否能导向证明。这个循环会一直持续,直到找到完整的证明或达到时间限制。

推理循环: 整个过程是一个经典的“生成-测试”循环。符号引擎首先运行,尝试直接证明定理。如果在若干步骤后失败,它会向神经模型请求一个“提示”。神经模型生成一个候选辅助点或新的推导。符号引擎随后利用新信息继续运行。这个循环不断重复。系统对神经模型的输出使用束搜索,以并行探索多个候选提示。

基准测试表现: AlphaGeometry 在包含 30 道 IMO 几何题(2000-2020 年)的测试集上进行了评估。结果令人瞩目:

| 指标 | AlphaGeometry | 平均 IMO 金牌得主 | GPT-4(带提示) |
|---|---|---|---|
| 解题数(共 30 道) | 25 | 25.2 | 0 |
| 平均证明长度(步骤数) | 109 | 52 | 不适用 |
| 每道题用时(分钟) | 5-15 | 45-90 | 不适用 |
| 类人可读性 | 中等 | 高 | 不适用 |

数据要点: AlphaGeometry 在原始解题能力上与顶尖人类选手持平,但其证明步骤大约长一倍,表明在优雅性上有所欠缺。然而,它的速度显著更快,只需几分钟而非几小时就能解决问题。GPT-4 尽管知识广博,却无法从零解决任何一道题,这凸显了专用架构的必要性。

GitHub 上的开源仓库(google-deepmind/alphageometry)已获得超过 4800 颗星。代码库包括合成数据生成器、训练好的模型权重以及符号引擎。研究人员正在积极 fork 该项目,尝试将其扩展到代数几何领域,并与 Lean 等交互式定理证明器集成。

关键参与者与案例研究

DeepMind(Google): 主要开发者。AlphaGeometry 是 DeepMind 一系列针对数学推理的项目中的最新成果,紧随 AlphaFold(蛋白质折叠)和 AlphaTensor(矩阵乘法)之后。由 Trieu Trinh 和 Yuhuai Wu 领导的团队在神经符号系统方面有着丰富的经验。Trinh 此前曾在 Google Brain 从事神经定理证明工作。DeepMind 的策略很明确:先证明 AI 能够在受限领域掌握形式化推理,然后再进行泛化。在合成数据生成上的投入是一个关键的差异化因素——它避免了人工标注的瓶颈。

OpenAI(GPT-4, o1): 尽管 GPT-4 在 IMO 几何基准测试中失败,但 OpenAI 更新的 o1 模型(2024 年 9 月发布)使用了思维链推理,并在数学问题上表现出改进。然而,o1 的方法是纯神经的,没有符号引擎。早期基准测试表明,o1 能解出 30 道 IMO 几何题中的约 10-12 道,仍远低于 AlphaGeometry。这一对比凸显了符号推理在形式化数学任务中的价值。

更多来自 GitHub

Stirling PDF:开源工具如何重塑文档管理格局由 stirling-tools 团队开发的 Stirling PDF,已在 GitHub 上获得超过 77,000 个星标,成为该平台最受欢迎的 PDF 应用。该工具提供了一套全面的 PDF 操作功能——合并、拆分、转换、加密和 OCR—微信解密工具浮出水面:数据主权与平台安全的终极角力GitHub仓库 `ylytdeng/wechat-decrypt` 代表了对全球使用最广泛、生态最封闭的通信平台之一的一次精密技术介入。该工具专门针对微信4.0版本,采用先进的内存取证技术,定位并提取微信用于保护本地SQLite数据库的S腾讯云CubeSandbox:争夺AI智能体安全与规模化运行的基础设施之战CubeSandbox标志着腾讯云战略性地切入AI智能体技术栈的基础层。与通用的容器化或虚拟机解决方案不同,它是为AI智能体的独特需求量身打造的。这些需求包括生成和执行代码、调用API,以及以潜在不可预测的方式与外部系统交互。该平台的核心价查看来源专题页GitHub 已收录 955 篇文章

相关专题

AI reasoning15 篇相关文章

时间归档

April 20262158 篇已发布文章

延伸阅读

AlphaFold 2:DeepMind的开源蛋白质模型如何重写生物学DeepMind的AlphaFold 2代表了结构生物学的一次范式转移,它用AI解决了一个长达50年的重大挑战。通过将模型开源,该团队已掀起科学发现的浪潮,但显著的局限性与竞争压力依然存在。DeepMind MeltingPot重塑多智能体强化学习基准:从个体博弈走向社会智能人工智能的竞技场正从单打独斗转向复杂群体互动。谷歌DeepMind推出革命性评估套件MeltingPot,首次将合作博弈与社会动态纳入标准化测试框架,为多智能体系统树立全新衡量标尺。DeepMind PySC2如何将《星际争霸II》铸成AI的终极试炼场DeepMind推出的PySC2开源工具,将暴雪旗下的热门电竞《星际争霸II》转化为人工智能研究的权威基准测试平台。这一环境以前所未有的战略复杂性为研究者提供了沙盒实验室,催生的强化学习突破已远远超越虚拟战场。Stirling PDF:开源工具如何重塑文档管理格局一款名为 Stirling PDF 的开源工具,凭借自托管、零许可费的企业级功能,在 GitHub 上狂揽超 7.7 万星标,成为该平台最受欢迎的 PDF 应用。它正以极简部署和隐私优先的理念,向 Adobe Acrobat 等传统巨头发起

常见问题

GitHub 热点“AlphaGeometry: DeepMind's AI Cracks Geometry Proofs at Olympiad Level”主要讲了什么?

DeepMind unveiled AlphaGeometry, an AI system that solves complex geometry problems at a level comparable to an International Mathematical Olympiad (IMO) gold medalist. Unlike prev…

这个 GitHub 项目在“AlphaGeometry vs GPT-4 geometry problem solving comparison”上为什么会引发关注?

AlphaGeometry's architecture is a masterclass in combining the complementary strengths of neural networks and symbolic systems. The core innovation lies in how it generates training data and how it orchestrates inference…

从“How to run AlphaGeometry locally on your own geometry problems”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 4829,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。