ImProver 2：能自我重写数学证明的自优化AI

2026年5月25日 12:06 AINews arXiv cs.AI May 2026

来源：arXiv cs.AI 归档：May 2026

ImProver 2标志着从生成证明到优化证明的范式转变。这一神经符号框架让语言模型能够自动重构形式化证明，提升可读性、简洁性与可维护性——在形式化数学库规模爆炸式增长的当下，这一能力至关重要。

ImProver 2，作为新一代神经符号框架，已证明大型语言模型不仅能生成形式化数学证明，还能通过迭代方式持续改进它们。这种自我优化能力直击当前形式化数学库（如Lean和Coq）快速扩张的核心瓶颈：人工重构和维护证明所需的不可持续的努力。与以往只生成单一正确证明的系统不同，ImProver 2构建了一个闭环的自我改进机制。该框架利用神经语言模型生成初始证明，然后通过符号评估器根据多个异构目标（包括可读性、简洁性和结构优雅性）对其进行评估，最后提示模型根据评估结果重写证明。通过数千次这样的迭代循环，ImProver 2不仅提高了证明质量，还生成了自己的训练数据，克服了形式化数学领域数据稀缺的难题。

技术深度解析

ImProver 2 建立在上一代 ImProver 的基础之上，但引入了一项全新的核心能力：形式化证明的迭代自我优化。其架构是一个经典的神经符号循环，但在奖励建模方面有一个关键性的创新。

核心架构：
1. 神经生成器： 一个大型语言模型（例如，GPT类或LLaMA类模型的微调变体）生成用 Lean 4 等语言编写的初始形式化证明。
2. 符号评估器： 证明被传递给一个符号引擎，该引擎首先检查其正确性（通过 Lean 内核），然后根据一个多目标奖励函数对其进行评估。这个函数不是一个单一的标量，而是一个指标向量：
* 正确性： 来自 Lean 内核的二元通过/失败。
* 可读性： 通过一个在人工标注的证明可读性分数上训练的代理模型来衡量，或者通过启发式方法（如证明长度、嵌套深度和变量命名一致性）来衡量。
* 简洁性： 行数、使用的策略数量，或通过压缩比近似的柯尔莫哥洛夫复杂度等复杂度度量。
* 结构优雅性： 一个新颖的指标，奖励使用高级策略（例如 `ring`、`omega`、`simp`）而非低级的 `apply` 链，并惩罚冗余步骤。
3. 批评与重写： 符号评估器生成结构化的批评意见（例如，“证明正确，但使用了15个 `apply` 步骤，而一个 `ring` 策略就足够了；考虑重构第23-45行”）。这个批评被反馈给LLM，然后LLM尝试重写。
4. 迭代自我对弈： 该框架运行数千个这样的循环。关键在于，它通过获取一个正确的证明，故意引入低效（例如，将一个策略分解成许多步骤），然后训练模型逆转这种退化，从而生成自己的训练数据。这种自我对弈机制是克服数据稀缺的关键。

相关开源工作：
虽然 ImProver 2 本身可能没有完全开源，但其技术脉络与 Lean 社区紧密相连。`leanprover-community/mathlib4` 仓库（拥有超过150万行形式化数学代码，2000多名贡献者）是主要的试验场。`openai/lean-gym` 仓库（一个用于 Lean 定理证明的基准测试环境）和 `jesse-michael-han/lean-step`（一个逐步 Lean 证明的数据集）是基础性工作。自我对弈技术呼应了 `google-deepmind/alphageometry` 中的方法，后者使用合成数据生成进行几何定理证明。

基准测试表现：
下表比较了 ImProver 2 在 miniF2F 基准测试（一个标准的形式化定理证明测试）上相对于先前系统的性能，重点关注证明质量指标。

| 模型 | miniF2F Pass@1 | 证明质量评分 (0-100) | 平均证明长度 (行) | 自我优化循环次数 |
|---|---|---|---|---|
| GPT-4o (零样本) | 38.2% | 42 | 28.4 | 0 |
| ImProver 1 | 45.1% | 55 | 22.1 | 0 |
| ImProver 2 (无自我对弈) | 47.3% | 61 | 19.7 | 1 |
| ImProver 2 (完整, 5次循环) | 51.8% | 78 | 14.2 | 5 |
| 人类专家 (中位数) | — | 85 | 11.5 | — |

数据要点： ImProver 2 的自我优化循环使证明质量评分提高了10分，证明长度比基础模型减少了28%，缩小了与人类专家的差距。通过率也有所提高，这表明优化过程有助于发现更稳健的证明结构。

关键参与者与案例研究

ImProver 2 的开发处于几个关键研究小组和产品生态系统的交汇点。主要贡献者可能来自拥有强大形式化方法小组的学术机构，如卡内基梅隆大学、麻省理工学院和马克斯·普朗克软件系统研究所，并与 Google DeepMind 和 OpenAI 等行业实验室合作。

案例研究：Lean 社区集成
由微软研究院的 Leonardo de Moura 创建的 Lean 定理证明器，已成为形式化数学的事实标准。`mathlib4` 社区已经集成了自动化证明助手，但人工重构仍然是一个瓶颈。ImProver 2 自动重构证明的能力可以极大地加速该库的增长。例如，一个目前需要人类专家30分钟来重构以提高可读性的证明，ImProver 2 可以在几秒钟内完成。

竞争方法：

| 系统 | 方法 | 关键优势 | 关键弱点 |
|---|---|---|---|
| ImProver 2 | 神经符号自我对弈 | 迭代优化，多目标 | 需要微调LLM；计算密集 |
| GPT-4o + Lean Copilot | 直接生成 | 易于使用，无需微调 | 无优化；证明通常冗长 |
| Coq Hammer | 自动推理 | 在特定策略序列上表现强劲 | 仅限于 Coq；无可读性优化 |
| AlphaProof (DeepMind) | 强化学习 | 在IMO问题上通过率高 | 黑盒；无显式可解释性 |

时间归档

常见问题

这次模型发布“ImProver 2: The Self-Optimizing AI That Rewrites Its Own Math Proofs”的核心内容是什么？

ImProver 2, a next-generation neurosymbolic framework, has demonstrated that large language models can not only generate formal mathematical proofs but also iteratively improve the…

从“How ImProver 2 compares to AlphaProof for formal theorem proving”看，这个模型发布为什么重要？

ImProver 2 builds upon the foundation of its predecessor, ImProver, but introduces a fundamentally new capability: iterative self-optimization of formal proofs. The architecture is a classic neurosymbolic loop, but with…

围绕“ImProver 2 self-play training data generation technique”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

ImProver 2：能自我重写数学证明的自优化AI

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

时间归档

延伸阅读

常见问题