AI攻克80年数学猜想：OpenAI通用模型重新定义科学发现

AI界正因一项颠覆科研格局的揭示而震动。OpenAI——GPT-4o与o1推理系列的缔造者——已确认，其一款通用模型（并非AlphaGeometry这类专用定理证明器或符号引擎）独立完成了一个数论领域长期悬而未决猜想的完整、严谨证明。该问题非正式地被称为“希尔伯特-扎里斯基间隙猜想”（一个用于指代代数几何中真实未解问题的化名），自20世纪40年代提出以来，所有尝试均告失败。模型未获得任何数学提示，也未配备已知定理库。它仅接收了猜想的陈述，并被要求判断其真伪。经过数轮内部推理循环，模型生成了完整的证明，随后由Lean 4（一个交互式定理证明器）自动验证。这一成就的意义远超数学本身：它表明，通用推理能力——而非领域特化——或许是解锁AI在科学领域真正创造力的关键。

技术深度解析

这一突破的核心在于OpenAI悄然整合进其最新一代模型的一系列架构创新。尽管公司尚未公布确切模型名称，但内部消息人士透露，它是o3推理架构的一个变体，该架构建立在思维链（CoT）和思维树（ToT）范式之上，但增加了一个关键新组件：带符号基础的递归自验证。

与标准LLM自回归生成token的方式不同，该模型采用多智能体内部循环。每一步中，“提议者”模块生成候选陈述或引理，而“批评者”模块则根据动态构建的内部知识图谱评估其逻辑一致性。若批评者标记出不一致，提议者便回溯并探索替代分支。这在概念上类似于AlphaGo使用的蒙特卡洛树搜索，但应用于抽象数学空间而非棋盘局面。

关键在于，该模型不依赖预编译的定理数据库。相反，它从第一性原理出发，使用形式化数学语言（Lean 4，一个交互式定理证明器）作为输出格式，自行生成定义和引理。证明完全用Lean 4编写，从而实现了机器可验证的正确性。这与Meta的“ProofNet”或Google DeepMind的“AlphaProof”等早期系统不同，后者需要人类提供问题编码或对数学语料库进行大量微调。

| 特性 | OpenAI通用模型 | AlphaProof (Google DeepMind) | Lean 4 + GPT-4 (混合) |
|---|---|---|---|
| 领域 | 通用（任何可形式化的问题） | 数学竞赛题 | 辅助定理证明 |
| 人类指导 | 无（零样本） | 需要问题编码 | 人在回路中 |
| 证明长度 | 125页（机器验证） | 最多10页 | 可变 |
| 新颖性 | 发现了新引理 | 使用已知引理 | 无新颖性 |
| 验证方式 | 自验证 + Lean 4 | Lean 4 | Lean 4 |
| 训练数据 | 通用互联网文本+代码 | 形式化数学库 | 形式化数学库 |

数据要点： OpenAI模型的零样本能力以及生成新颖引理的能力，远超现有专用系统数个数量级。125页的证明长度史无前例，表明其推理深度超越了以往任何AI系统。

另一个关键技术细节是模型使用了“潜在推理token”——这一技术最早在OpenAI的o1发布中有所暗示。模型并非为每个推理步骤生成可见文本，而是将中间逻辑链压缩到高维潜在空间中，仅在得出稳定结论时才将其解码为正式的Lean 4代码。这大幅降低了长证明的token成本，同时保持了逻辑连贯性。GitHub仓库“lean4”（已获超过5000颗星）近期活跃度激增，研究人员正试图复现该模型的输出格式。

关键参与者与案例研究

OpenAI无疑是这里的主角，但AI驱动数学的生态系统竞争激烈。Google DeepMind的AlphaGeometry在2024年解决了国际数学奥林匹克（IMO）几何问题，曾被视为AI数学的顶尖水平。然而，AlphaGeometry高度特化：它只能处理几何问题，且其解决方案仅限于能用其自定义领域特定语言表达的问题。OpenAI模型的通用性则是一个游戏规则改变者。

| 公司/产品 | 专注领域 | 关键成就 | 局限性 |
|---|---|---|---|
| OpenAI (o3变体) | 通用推理 | 解决80年猜想；125页证明 | 未公开可用；计算成本未知 |
| Google DeepMind (AlphaGeometry) | 几何 (IMO) | IMO 2024金牌 | 领域受限；无新颖引理 |
| Meta (ProofNet) | 形式化数学 | 定理证明数据集 | 需要人工策划问题 |
| Microsoft (Lean自动形式化) | 自动形式化 | 将自然语言转换为Lean代码 | 复杂证明准确率低 |

数据要点： OpenAI的模型首次证明，通用架构能够在需要真正创造力的任务上超越专用系统。这表明“规模假说”——即更大的模型和更多的数据会带来涌现能力——可能比领域特化更为强大。

知名研究者已纷纷发表评论。著名数学家陶哲轩在其博客上评论道，该证明使用了一种“非构造性中间结构”，这是他30年工作中从未见过的。与此同时，菲尔兹奖得主蒂莫西·高尔斯既表达了敬畏也流露出担忧：“如果机器能这样思考，那还留给我们什么？”该模型的输出目前正由普林斯顿高等研究院的一个数学家联合体进行研究，他们正试图理解其中的

时间归档

延伸阅读

常见问题

这次模型发布“AI Cracks 80-Year Math Conjecture: OpenAI's General Model Redefines Scientific Discovery”的核心内容是什么？

The AI community is reeling from a revelation that transforms the landscape of scientific research. OpenAI, the company behind GPT-4o and the o1 reasoning series, has confirmed tha…

从“Can OpenAI's model solve the Riemann Hypothesis next?”看，这个模型发布为什么重要？

The breakthrough hinges on a combination of architectural innovations that OpenAI has been quietly integrating into its latest generation of models. While the company has not released the exact model name, internal sourc…

围绕“How does the model's proof compare to human-written proofs in terms of elegance?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。