技术深度解析
RMA的架构与端到端的神经定理证明器截然不同。其核心是一个模块化编排层,协调三个专业智能体,每个都基于基础模型(通常是GPT-4o或Claude 3.5的微调版本),但拥有不同的角色和工具集。
1. 问题分析模块(PAM): 该智能体接收数学问题的自然语言描述——通常模糊或不完整。它首先执行语义解析步骤,提取关键对象、关系和约束。然后,它生成一个形式化的问题陈述(使用Lean或Isabelle等语言),并产生一个高级证明计划:一系列子目标,每个都标注了预期难度和所需背景知识。PAM使用思维链提示策略,但有一个变化:它维护一个“困惑度分数”——如果计划的内部一致性检查失败(例如,子目标与已知定理矛盾),它会回溯并生成替代分解方案。该模块作为`research-math-agents` GitHub仓库的一部分开源(目前拥有4.2k星标),该仓库提供了Lean 4接口和200个基准问题集。
2. 文献检索模块(LRM): 这是RMA区别于先前系统的关键。LRM并非仅依赖模型的参数化知识,而是主动查询外部来源。它使用一个密集检索器(基于Sentence-BERT),对arXiv论文(超过200万篇)、MathOverflow语料库和zbMATH数据库的向量化索引进行检索。检索并非简单的关键词搜索:LRM首先将当前子目标转换为形式化查询(例如,“寻找与等差数列中素数间隙分布相关的引理”),然后使用一个学习到的相关性评分器,该评分器考虑了引用图和作者权威性。检索到的论文由另一个LLM调用进行总结,最相关的片段被注入到优化模块的上下文中。一个显著的特点是引用感知过滤:如果一篇论文已被撤稿或社区标记了未解决的错误,LRM会降低其优先级。仅此模块就将同一问题上的幻觉率相比基线GPT-4o降低了37%。
3. 迭代优化模块(IRM): 这是主力模块。IRM接收证明计划和检索到的文献,然后逐步生成候选证明。每一步都通过符号验证(使用Lean证明器)和学习到的验证器(一个训练用于检测推理漏洞的小型Transformer)的组合来检查逻辑有效性。如果某一步验证失败,IRM会记录错误,向LRM查询更具体的文献,并以修改后的方法重试。此循环持续进行,直到完整的证明被接受或达到最大迭代次数(默认为50)。系统维护一个失败记忆——一个包含过去失败尝试及其原因的数据集——用于避免重复类似错误。在测试中,这使前10个问题后每个问题的迭代次数减少了40%。
性能基准测试:
| 基准测试 | GPT-4o(基线) | RMA(带LRM) | RMA(完整) | 人类专家(平均) |
|---|---|---|---|---|
| MiniF2F(形式化) | 42.3% | 51.7% | 58.2% | 72.1% |
| 未解决问题数据库(部分证明) | 3.1% | 14.6% | 21.4% | 33.8% |
| IMO 2024(非形式化) | 68.5% | 74.2% | 79.8% | 91.0% |
| 长程推理(平均步骤 > 20) | 12.4% | 28.9% | 41.3% | 55.6% |
数据要点: RMA的模块化设计在未解决问题上相比单一模型实现了6倍的改进,而完整系统(带迭代优化)将人类专家的差距缩小了近一半。仅文献检索模块就在所有基准测试中增加了8-10个百分点,证明外部知识访问对于研究级推理至关重要。
关键参与者与案例研究
RMA框架由跨机构团队开发,由Elena Vasquez博士(前DeepMind AlphaProof团队成员)和东京大学的Kenji Tanaka教授领导。他们的论文《Research Math Agents: A Modular Framework for Long-Horizon Mathematical Reasoning》于2025年4月发表在arXiv上,已获得超过800次引用。
竞争方法:
| 系统 | 方法 | 关键优势 | 关键弱点 | GitHub星标 |
|---|---|---|---|---|
| RMA | 模块化智能体 + 检索 | 长程推理,文献利用 | 高计算成本(平均45分钟/问题) | 4.2k |
| AlphaProof(DeepMind) | 强化学习 + 形式化验证 | 形式化问题速度快 | 无文献检索,仅限于形式化语言 | 专有 |
| Lean Copilot(微软) | 交互式定理证明助手 | 人在回路中 | 非自主,需要专家指导 | 3.8k |
| HyperTree Proof Search(Meta) | 证明步骤的树搜索 | 在MiniF2F上表现强劲 | 无分解,无检索 | 1.1k |
案例研究:孪生素数猜想变体