技术深度解析
ImProver 2 建立在上一代 ImProver 的基础之上,但引入了一项全新的核心能力:形式化证明的迭代自我优化。其架构是一个经典的神经符号循环,但在奖励建模方面有一个关键性的创新。
核心架构:
1. 神经生成器: 一个大型语言模型(例如,GPT类或LLaMA类模型的微调变体)生成用 Lean 4 等语言编写的初始形式化证明。
2. 符号评估器: 证明被传递给一个符号引擎,该引擎首先检查其正确性(通过 Lean 内核),然后根据一个多目标奖励函数对其进行评估。这个函数不是一个单一的标量,而是一个指标向量:
* 正确性: 来自 Lean 内核的二元通过/失败。
* 可读性: 通过一个在人工标注的证明可读性分数上训练的代理模型来衡量,或者通过启发式方法(如证明长度、嵌套深度和变量命名一致性)来衡量。
* 简洁性: 行数、使用的策略数量,或通过压缩比近似的柯尔莫哥洛夫复杂度等复杂度度量。
* 结构优雅性: 一个新颖的指标,奖励使用高级策略(例如 `ring`、`omega`、`simp`)而非低级的 `apply` 链,并惩罚冗余步骤。
3. 批评与重写: 符号评估器生成结构化的批评意见(例如,“证明正确,但使用了15个 `apply` 步骤,而一个 `ring` 策略就足够了;考虑重构第23-45行”)。这个批评被反馈给LLM,然后LLM尝试重写。
4. 迭代自我对弈: 该框架运行数千个这样的循环。关键在于,它通过获取一个正确的证明,故意引入低效(例如,将一个策略分解成许多步骤),然后训练模型逆转这种退化,从而生成自己的训练数据。这种自我对弈机制是克服数据稀缺的关键。
相关开源工作:
虽然 ImProver 2 本身可能没有完全开源,但其技术脉络与 Lean 社区紧密相连。`leanprover-community/mathlib4` 仓库(拥有超过150万行形式化数学代码,2000多名贡献者)是主要的试验场。`openai/lean-gym` 仓库(一个用于 Lean 定理证明的基准测试环境)和 `jesse-michael-han/lean-step`(一个逐步 Lean 证明的数据集)是基础性工作。自我对弈技术呼应了 `google-deepmind/alphageometry` 中的方法,后者使用合成数据生成进行几何定理证明。
基准测试表现:
下表比较了 ImProver 2 在 miniF2F 基准测试(一个标准的形式化定理证明测试)上相对于先前系统的性能,重点关注证明质量指标。
| 模型 | miniF2F Pass@1 | 证明质量评分 (0-100) | 平均证明长度 (行) | 自我优化循环次数 |
|---|---|---|---|---|
| GPT-4o (零样本) | 38.2% | 42 | 28.4 | 0 |
| ImProver 1 | 45.1% | 55 | 22.1 | 0 |
| ImProver 2 (无自我对弈) | 47.3% | 61 | 19.7 | 1 |
| ImProver 2 (完整, 5次循环) | 51.8% | 78 | 14.2 | 5 |
| 人类专家 (中位数) | — | 85 | 11.5 | — |
数据要点: ImProver 2 的自我优化循环使证明质量评分提高了10分,证明长度比基础模型减少了28%,缩小了与人类专家的差距。通过率也有所提高,这表明优化过程有助于发现更稳健的证明结构。
关键参与者与案例研究
ImProver 2 的开发处于几个关键研究小组和产品生态系统的交汇点。主要贡献者可能来自拥有强大形式化方法小组的学术机构,如卡内基梅隆大学、麻省理工学院和马克斯·普朗克软件系统研究所,并与 Google DeepMind 和 OpenAI 等行业实验室合作。
案例研究:Lean 社区集成
由微软研究院的 Leonardo de Moura 创建的 Lean 定理证明器,已成为形式化数学的事实标准。`mathlib4` 社区已经集成了自动化证明助手,但人工重构仍然是一个瓶颈。ImProver 2 自动重构证明的能力可以极大地加速该库的增长。例如,一个目前需要人类专家30分钟来重构以提高可读性的证明,ImProver 2 可以在几秒钟内完成。
竞争方法:
| 系统 | 方法 | 关键优势 | 关键弱点 |
|---|---|---|---|
| ImProver 2 | 神经符号自我对弈 | 迭代优化,多目标 | 需要微调LLM;计算密集 |
| GPT-4o + Lean Copilot | 直接生成 | 易于使用,无需微调 | 无优化;证明通常冗长 |
| Coq Hammer | 自动推理 | 在特定策略序列上表现强劲 | 仅限于 Coq;无可读性优化 |
| AlphaProof (DeepMind) | 强化学习 | 在IMO问题上通过率高 | 黑盒;无显式可解释性 |