AlphaGeometry:DeepMind 的 AI 攻克奥赛级几何证明,金牌水平触手可及

GitHub April 2026
⭐ 4829
来源:GitHubAI reasoning归档:April 2026
DeepMind 的 AlphaGeometry 在国际数学奥林匹克几何题上实现了接近金牌选手的表现。它融合了神经语言模型与符号推演引擎,无需任何人类示范即可生成可读的证明过程,标志着 AI 在形式化、结构化推理能力上的重大飞跃。

DeepMind 发布了 AlphaGeometry,一个能够解决复杂几何问题的 AI 系统,其水平堪比国际数学奥林匹克(IMO)金牌得主。与以往依赖海量人类证明数据的方法不同,AlphaGeometry 采用了一种新颖的神经符号架构:一个基于 Transformer 的语言模型,在数十亿个合成几何图形和证明步骤上训练而成,并与经典的符号推演引擎协同工作。语言模型负责生成辅助构造和证明建议,而符号引擎则负责验证并补全逻辑步骤。在 2000 年至 2020 年共 30 道 IMO 几何题的基准测试中,AlphaGeometry 解出了 25 道,与金牌选手的平均水平相当。该系统无需任何人工整理的证明数据,而是通过合成数据生成器自动产生训练样本,从而彻底摆脱了对人类标注的依赖。这一成果不仅展示了 AI 在形式化推理领域的巨大潜力,也为未来将 AI 应用于更广泛的数学和科学推理任务铺平了道路。

技术深度解析

AlphaGeometry 的架构堪称将神经网络与符号系统互补优势相结合的典范。其核心创新在于训练数据的生成方式以及推理过程的编排。

数据生成管线: DeepMind 团队创建了一个合成数据生成器,首先从预定义的几何基元集合中随机采样几何配置——点、线、圆及其相互关系。对于每种配置,一个符号推演引擎(前向链接定理证明器)会穷举推导出所有可能的结论。这会产生一个庞大的“前提→结论”步骤图。然后,通过从目标结论出发进行反向搜索,系统可以提取出完整的证明树。最终得到 1 亿个合成证明步骤,每个步骤都配有几何图形和推导序列。整个过程完全不使用人类证明。

神经语言模型: 该语言模型是一个约 10 亿参数的 Transformer,在这些合成证明步骤上训练而成。其输入是几何图形(点、线、角等)和当前证明状态的 token 化表示。输出则是建议的下一步——要么是一个推导(例如“角 ABC = 角 DEF”),要么是一个辅助构造(例如“构造点 M 作为线段 AB 的中点”)。模型使用标准的下一 token 预测目标进行训练,关键在于训练数据完全是合成的,覆盖了极其广阔的几何配置空间。

符号推演引擎: 这是一个经典的、基于规则的定理证明器,运行在一套固定的几何公理和推理规则之上(例如角度追逐、全等、相似、圆内接四边形)。它快速、确定性强,并能保证正确性。在推理过程中,符号引擎尝试使用前向链接来证明目标定理。如果陷入困境,它会调用神经模型来建议一个辅助构造或一条新的推导路径。神经模型的建议随后被反馈回符号引擎,由后者验证该建议是否能导向证明。这个循环会一直持续,直到找到完整的证明或达到时间限制。

推理循环: 整个过程是一个经典的“生成-测试”循环。符号引擎首先运行,尝试直接证明定理。如果在若干步骤后失败,它会向神经模型请求一个“提示”。神经模型生成一个候选辅助点或新的推导。符号引擎随后利用新信息继续运行。这个循环不断重复。系统对神经模型的输出使用束搜索,以并行探索多个候选提示。

基准测试表现: AlphaGeometry 在包含 30 道 IMO 几何题(2000-2020 年)的测试集上进行了评估。结果令人瞩目:

| 指标 | AlphaGeometry | 平均 IMO 金牌得主 | GPT-4(带提示) |
|---|---|---|---|
| 解题数(共 30 道) | 25 | 25.2 | 0 |
| 平均证明长度(步骤数) | 109 | 52 | 不适用 |
| 每道题用时(分钟) | 5-15 | 45-90 | 不适用 |
| 类人可读性 | 中等 | 高 | 不适用 |

数据要点: AlphaGeometry 在原始解题能力上与顶尖人类选手持平,但其证明步骤大约长一倍,表明在优雅性上有所欠缺。然而,它的速度显著更快,只需几分钟而非几小时就能解决问题。GPT-4 尽管知识广博,却无法从零解决任何一道题,这凸显了专用架构的必要性。

GitHub 上的开源仓库(google-deepmind/alphageometry)已获得超过 4800 颗星。代码库包括合成数据生成器、训练好的模型权重以及符号引擎。研究人员正在积极 fork 该项目,尝试将其扩展到代数几何领域,并与 Lean 等交互式定理证明器集成。

关键参与者与案例研究

DeepMind(Google): 主要开发者。AlphaGeometry 是 DeepMind 一系列针对数学推理的项目中的最新成果,紧随 AlphaFold(蛋白质折叠)和 AlphaTensor(矩阵乘法)之后。由 Trieu Trinh 和 Yuhuai Wu 领导的团队在神经符号系统方面有着丰富的经验。Trinh 此前曾在 Google Brain 从事神经定理证明工作。DeepMind 的策略很明确:先证明 AI 能够在受限领域掌握形式化推理,然后再进行泛化。在合成数据生成上的投入是一个关键的差异化因素——它避免了人工标注的瓶颈。

OpenAI(GPT-4, o1): 尽管 GPT-4 在 IMO 几何基准测试中失败,但 OpenAI 更新的 o1 模型(2024 年 9 月发布)使用了思维链推理,并在数学问题上表现出改进。然而,o1 的方法是纯神经的,没有符号引擎。早期基准测试表明,o1 能解出 30 道 IMO 几何题中的约 10-12 道,仍远低于 AlphaGeometry。这一对比凸显了符号推理在形式化数学任务中的价值。

更多来自 GitHub

Eww:用 Rust 重构 Linux 桌面极简主义的 Widget 引擎Eww(ElKowars Wacky Widgets)是一款用 Rust 构建的开源小部件系统,专为 X11 和 Wayland 合成器设计。它允许用户通过声明式的 YAML 和 SCSS 文件创建自定义状态栏、系统监视器、启动器等。该项目Ags CLI:一款可能解锁Linux桌面自定义潜力的脚手架工具Linux桌面长期以来一直是高级用户的游乐场,但构建自定义小部件——如面板、系统托盘或小程序——历来需要深入了解GTK、X11/Wayland协议,并且往往需要一个定制的构建系统。现在,ags登场了,这是一个来自aylur/ags仓库的脚手超越Waybar:一个Hyprland狂热配置如何一天狂揽万星2026年6月7日,GitHub仓库'caelestia-dots/shell'星数突破9,846颗,单日新增984星。该项目是一套为Hyprland窗口管理器精心打造、极具个人风格的dotfiles与脚本合集。其最具争议也最核心的特点,是查看来源专题页GitHub 已收录 2421 篇文章

相关专题

AI reasoning29 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

MuJoCo:DeepMind的物理模拟器,如何驱动下一代机器人AIDeepMind旗下的MuJoCo已成为机器人与强化学习研究领域事实上的标准物理引擎。凭借13,239颗GitHub星标与持续攀升的日活跃度,这款开源模拟器正在重塑AI学习与物理世界交互的方式。AlphaFold 2:DeepMind的开源蛋白质模型如何重写生物学DeepMind的AlphaFold 2代表了结构生物学的一次范式转移,它用AI解决了一个长达50年的重大挑战。通过将模型开源,该团队已掀起科学发现的浪潮,但显著的局限性与竞争压力依然存在。DeepMind MeltingPot重塑多智能体强化学习基准:从个体博弈走向社会智能人工智能的竞技场正从单打独斗转向复杂群体互动。谷歌DeepMind推出革命性评估套件MeltingPot,首次将合作博弈与社会动态纳入标准化测试框架,为多智能体系统树立全新衡量标尺。DeepMind PySC2如何将《星际争霸II》铸成AI的终极试炼场DeepMind推出的PySC2开源工具,将暴雪旗下的热门电竞《星际争霸II》转化为人工智能研究的权威基准测试平台。这一环境以前所未有的战略复杂性为研究者提供了沙盒实验室,催生的强化学习突破已远远超越虚拟战场。

常见问题

GitHub 热点“AlphaGeometry: DeepMind's AI Cracks Geometry Proofs at Olympiad Level”主要讲了什么?

DeepMind unveiled AlphaGeometry, an AI system that solves complex geometry problems at a level comparable to an International Mathematical Olympiad (IMO) gold medalist. Unlike prev…

这个 GitHub 项目在“AlphaGeometry vs GPT-4 geometry problem solving comparison”上为什么会引发关注?

AlphaGeometry's architecture is a masterclass in combining the complementary strengths of neural networks and symbolic systems. The core innovation lies in how it generates training data and how it orchestrates inference…

从“How to run AlphaGeometry locally on your own geometry problems”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 4829,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。