技术深度解析
让AI“做数学”的核心创新并非单一模型,而是一种神经符号架构,它将大语言模型的直觉模式匹配与形式化定理证明器的严谨、基于规则的演绎能力相结合。
架构解析:
1. 直觉引擎(LLM): 大语言模型(如GPT-4o、Gemini 2.0,或AlphaProof内部网络等专用模型)生成候选猜想、引理或证明步骤。它操作自然语言或Lean的战术语法等形式语言。这是“创造性”部分,利用从数百万篇论文和证明中习得的模式来探索数学空间。
2. 验证引擎(形式化证明器): 像Lean(由微软研究院开发,现由社区驱动)、Isabelle或Coq这样的系统接收候选证明并尝试验证。这些系统是确定性的:它们对照一组公理检查每个逻辑步骤。如果证明无效,验证器会返回反例或失败点。
3. 反馈循环: 验证器的失败信号被反馈给LLM,然后LLM生成新的尝试。这个循环可以运行数百万次,实际上是在证明空间中进行一次引导式搜索。
关键开源仓库:
- Lean 4 (github.com/leanprover/lean4):定理证明器的最新版本。它经历了爆炸式增长,在GitHub上已获得超过12,000颗星。社区已形式化了超过10万个本科数学定理。
- Mathlib4 (github.com/leanprover-community/mathlib4):形式化数学的配套库。它现在包含超过150万行代码,涵盖了从数论到代数拓扑的各个领域。
- AlphaProof(未开源,但方法论已发表):Google DeepMind的系统使用微调后的Gemini模型在Lean中生成证明战术。
- GPT-f (github.com/openai/gpt-f):OpenAI的一个早期项目,微调GPT-2以为Metamath形式系统生成证明。它证明了LLM能够学会生成有效的形式化证明。
性能基准测试:
| 系统 | 任务 | 结果 | 关键指标 |
|---|---|---|---|
| AlphaProof (2024) | IMO 2024 问题 | 解决4/6(银牌水平) | 100% 形式化验证 |
| GPT-4o + Lean (2025) | Putnam竞赛问题 | 解决3/12 | 10,000次迭代后85%的证明接受率 |
| Meta的LLM (2024) | 组合学定理 | 生成新证明并验证 | 证明长度:47行Lean代码 |
| GPT-f (2020) | Metamath定理 | 证明测试集12.5% | 对未见定理的成功率为40% |
数据要点: 从GPT-f的12.5%到AlphaProof在IMO问题上的67%,这代表了短短四年内5倍的提升。这不是渐进式的,而是指数级的。关键驱动力是反馈循环的规模:AlphaProof运行了数百万次证明尝试,而GPT-f运行了数千次。教训很明确:计算和迭代规模与证明发现能力直接相关。
技术瓶颈: 主要的限制是“搜索空间爆炸”。对于任何非平凡定理,可能的证明步骤数量是天文数字。当前系统依赖LLM学习的启发式方法来剪枝搜索。当启发式方法失败时,系统可能会陷入困境。这就是为什么即使是最好的系统也无法解决所有IMO问题——最难的问题需要真正新颖的洞察,而LLM的模式匹配无法生成。
关键参与者与案例研究
1. Google DeepMind (AlphaProof, AlphaGeometry)
DeepMind是AI数学推理领域的明确领导者。他们的AlphaGeometry系统通过将神经语言模型与符号演绎引擎相结合来解决几何问题,在2023年IMO上达到了银牌水平。AlphaProof将其扩展到一般数学领域。他们的策略是使用大规模计算(数千个TPU小时)来暴力搜索空间,并由微调后的LLM引导。他们没有开源模型,但发表了详细的方法论文。
2. OpenAI (o1系列, GPT-4o与Lean集成)
OpenAI的o1模型经过专门训练,能够“先思考再回答”,使用思维链推理。当与Lean集成时,它们可以生成证明草图,然后由人类进行完善。OpenAI还发布了一个ChatGPT插件,允许用户交互式地编写和检查Lean证明。他们的方法更易访问,但自主性不如DeepMind。
3. Meta AI (ProofNet, Lean Copilot)
Meta专注于为社区构建数据集和工具。他们的ProofNet数据集包含超过15,000个来自本科数学的形式化问题,全部用Lean编写。他们还开发了Lean Copilot,这是一个开源工具,使用LLM来建议Lean证明中的下一步战术。这是一种“副驾驶”而非“自动驾驶”的方法,强调人机协作。
**4.