技术深度解析
该预印本中描述的系统并非单一模型,而是一个专为数学发现设计的多智能体架构。其核心由三个专门智能体组成:猜想生成器、证明探索器和批评智能体。猜想生成器使用一个在数学论文、定理和证明语料库上微调的大型语言模型(LLM),并结合一个奖励新颖性和逻辑一致性的强化学习循环。它以形式语言(如 Lean 或 Isabelle 语法)输出候选猜想,确保机器可验证的陈述。证明探索器随后采用一种树搜索算法——类似于 AlphaGo 中使用的蒙特卡洛树搜索(MCTS)——来导航可能证明步骤的空间。它维护一个部分证明的优先队列,基于一个学习到的启发式模型扩展最有前景的分支,该模型预测证明路径导向有效结论的可能性。批评智能体评估每个完成的证明尝试的逻辑严密性,检查隐藏假设、循环推理或漏洞。这个三智能体循环自主运行,系统定期向人类数学家展示其最高置信度的猜想和证明草图以供审阅。
一个关键的工程创新是使用了课程学习策略。该系统从简单、理解透彻的数学领域(如初等群论)开始,逐步进展到更抽象的领域,如代数拓扑和解析数论。这种分阶段方法防止智能体在可能性的组合爆炸中迷失。该预印本报告称,该系统成功重新发现了几个已知定理(例如,质数的无穷性、√2 的无理性),并在模形式理论中生成了一个随后由人类专家验证的新猜想。
对于对底层技术感兴趣的读者,GitHub 仓库 math-ai-collaborator(最近超过 4,500 颗星)提供了基于 MCTS 的核心证明探索器的开源实现。该仓库包括预训练模型、一个 Lean 接口和一个包含 50,000 个形式化定理的数据集。社区已经对其进行了分支,以尝试不同的 LLM 骨干网络(例如,Llama 3、GPT-4o)和搜索算法。
| 基准 | 传统 CAS(例如,Mathematica) | 本多智能体系统 | 改进倍数 |
|---|---|---|---|
| 重新发现已知定理的时间(中位数) | 2 小时(手动编码) | 12 分钟(自主) | 10 倍 |
| 每 24 小时生成的新猜想数 | 0 | 8(平均) | 不适用 |
| 证明成功率(首次尝试) | 不适用 | 42% | 不适用 |
| 所需人力(小时) | 8(全职研究人员时间) | 0.5(仅审阅) | 16 倍 |
数据要点: 该系统在重新发现任务中展示了 10 倍的速度提升,并以人类无法企及的速度生成新猜想。42% 的首次尝试证明成功率令人瞩目,尽管仍有改进空间。16 倍的人力减少凸显了从工具到伙伴的范式转变。
关键参与者与案例研究
该预印本源自 DeepMind 数学组 与 马克斯·普朗克数学研究所 的合作。主要作者 Elena Voss 博士此前领导了 AlphaTensor 项目,该项目发现了新的矩阵乘法算法。她的团队在强化学习和形式验证方面拥有深厚专长。这项研究建立在 陶哲轩(加州大学洛杉矶分校)关于 AI 辅助猜想生成的早期工作之上,尽管陶的方法更偏手动,自主性较低。
其他几个参与者也在这一领域活跃:
- OpenAI 已在内部尝试使用 GPT-4o 进行定理证明,但其重点仍放在代码生成和通用推理上,而非专门的数学发现。
- Anthropic 开发了 Claude 3.5 Sonnet,该模型在数学基准测试(MMLU 数学:88.3%)上表现强劲,但并非为自主猜想生成而设计。
- Google DeepMind 还有 FunSearch 项目,该项目使用 LLM 搜索组合问题的解决方案。然而,FunSearch 仅限于特定问题类别,缺乏用于开放式探索的多智能体架构。
- Meta AI 发布了 LeanDojo 框架,这是一个用于训练定理证明智能体的开源环境。它已在研究社区中获得关注(GitHub:2,800+ 颗星),但侧重于交互式证明而非自主猜想生成。
| 参与者 | 产品/项目 | 关键特性 | 阶段 |
|---|---|---|---|
| DeepMind + MPI | AI 合作数学家 | 多智能体,自主猜想生成 | 预印本 |
| Google DeepMind | FunSearch | LLM + 针对特定问题的进化搜索 | 研究 |
| Meta AI | LeanDojo | 交互式定理证明环境 | 开源 |
| OpenAI | GPT-4o | 通用推理,非专门化 | 内部实验 |