ImProver 2:能自我重写数学证明的自优化AI

arXiv cs.AI May 2026
来源:arXiv cs.AI归档:May 2026
ImProver 2标志着从生成证明到优化证明的范式转变。这一神经符号框架让语言模型能够自动重构形式化证明,提升可读性、简洁性与可维护性——在形式化数学库规模爆炸式增长的当下,这一能力至关重要。

ImProver 2,作为新一代神经符号框架,已证明大型语言模型不仅能生成形式化数学证明,还能通过迭代方式持续改进它们。这种自我优化能力直击当前形式化数学库(如Lean和Coq)快速扩张的核心瓶颈:人工重构和维护证明所需的不可持续的努力。与以往只生成单一正确证明的系统不同,ImProver 2构建了一个闭环的自我改进机制。该框架利用神经语言模型生成初始证明,然后通过符号评估器根据多个异构目标(包括可读性、简洁性和结构优雅性)对其进行评估,最后提示模型根据评估结果重写证明。通过数千次这样的迭代循环,ImProver 2不仅提高了证明质量,还生成了自己的训练数据,克服了形式化数学领域数据稀缺的难题。

技术深度解析

ImProver 2 建立在上一代 ImProver 的基础之上,但引入了一项全新的核心能力:形式化证明的迭代自我优化。其架构是一个经典的神经符号循环,但在奖励建模方面有一个关键性的创新。

核心架构:
1. 神经生成器: 一个大型语言模型(例如,GPT类或LLaMA类模型的微调变体)生成用 Lean 4 等语言编写的初始形式化证明。
2. 符号评估器: 证明被传递给一个符号引擎,该引擎首先检查其正确性(通过 Lean 内核),然后根据一个多目标奖励函数对其进行评估。这个函数不是一个单一的标量,而是一个指标向量:
* 正确性: 来自 Lean 内核的二元通过/失败。
* 可读性: 通过一个在人工标注的证明可读性分数上训练的代理模型来衡量,或者通过启发式方法(如证明长度、嵌套深度和变量命名一致性)来衡量。
* 简洁性: 行数、使用的策略数量,或通过压缩比近似的柯尔莫哥洛夫复杂度等复杂度度量。
* 结构优雅性: 一个新颖的指标,奖励使用高级策略(例如 `ring`、`omega`、`simp`)而非低级的 `apply` 链,并惩罚冗余步骤。
3. 批评与重写: 符号评估器生成结构化的批评意见(例如,“证明正确,但使用了15个 `apply` 步骤,而一个 `ring` 策略就足够了;考虑重构第23-45行”)。这个批评被反馈给LLM,然后LLM尝试重写。
4. 迭代自我对弈: 该框架运行数千个这样的循环。关键在于,它通过获取一个正确的证明,故意引入低效(例如,将一个策略分解成许多步骤),然后训练模型逆转这种退化,从而生成自己的训练数据。这种自我对弈机制是克服数据稀缺的关键。

相关开源工作:
虽然 ImProver 2 本身可能没有完全开源,但其技术脉络与 Lean 社区紧密相连。`leanprover-community/mathlib4` 仓库(拥有超过150万行形式化数学代码,2000多名贡献者)是主要的试验场。`openai/lean-gym` 仓库(一个用于 Lean 定理证明的基准测试环境)和 `jesse-michael-han/lean-step`(一个逐步 Lean 证明的数据集)是基础性工作。自我对弈技术呼应了 `google-deepmind/alphageometry` 中的方法,后者使用合成数据生成进行几何定理证明。

基准测试表现:
下表比较了 ImProver 2 在 miniF2F 基准测试(一个标准的形式化定理证明测试)上相对于先前系统的性能,重点关注证明质量指标。

| 模型 | miniF2F Pass@1 | 证明质量评分 (0-100) | 平均证明长度 (行) | 自我优化循环次数 |
|---|---|---|---|---|
| GPT-4o (零样本) | 38.2% | 42 | 28.4 | 0 |
| ImProver 1 | 45.1% | 55 | 22.1 | 0 |
| ImProver 2 (无自我对弈) | 47.3% | 61 | 19.7 | 1 |
| ImProver 2 (完整, 5次循环) | 51.8% | 78 | 14.2 | 5 |
| 人类专家 (中位数) | — | 85 | 11.5 | — |

数据要点: ImProver 2 的自我优化循环使证明质量评分提高了10分,证明长度比基础模型减少了28%,缩小了与人类专家的差距。通过率也有所提高,这表明优化过程有助于发现更稳健的证明结构。

关键参与者与案例研究

ImProver 2 的开发处于几个关键研究小组和产品生态系统的交汇点。主要贡献者可能来自拥有强大形式化方法小组的学术机构,如卡内基梅隆大学、麻省理工学院和马克斯·普朗克软件系统研究所,并与 Google DeepMind 和 OpenAI 等行业实验室合作。

案例研究:Lean 社区集成
由微软研究院的 Leonardo de Moura 创建的 Lean 定理证明器,已成为形式化数学的事实标准。`mathlib4` 社区已经集成了自动化证明助手,但人工重构仍然是一个瓶颈。ImProver 2 自动重构证明的能力可以极大地加速该库的增长。例如,一个目前需要人类专家30分钟来重构以提高可读性的证明,ImProver 2 可以在几秒钟内完成。

竞争方法:

| 系统 | 方法 | 关键优势 | 关键弱点 |
|---|---|---|---|
| ImProver 2 | 神经符号自我对弈 | 迭代优化,多目标 | 需要微调LLM;计算密集 |
| GPT-4o + Lean Copilot | 直接生成 | 易于使用,无需微调 | 无优化;证明通常冗长 |
| Coq Hammer | 自动推理 | 在特定策略序列上表现强劲 | 仅限于 Coq;无可读性优化 |
| AlphaProof (DeepMind) | 强化学习 | 在IMO问题上通过率高 | 黑盒;无显式可解释性 |

更多来自 arXiv cs.AI

基准测试幻象:为何高分AI模型在真实知识工作中频频翻车AI行业长期以来一直以模型在MMLU、HumanEval和GSM8K等基准测试排行榜上名列前茅为荣。但一项由多机构研究人员联合开展的新研究指出,这些指标与真实知识工作的需求存在根本性错位。研究认为,当前基准测试仍遵循传统NLP任务的逻辑——战略推理盲区:为何大语言模型在真实经济博弈中频频翻车大语言模型作为经济智能体的部署——在广告拍卖中出价、谈判合同、交易资产——其速度已远超我们评估其战略能力的能力。AINews的深度分析指出,现有基于固定博弈论模型(如囚徒困境、最后通牒博弈)的基准测试,正随着模型能力的提升而迅速饱和。这制造Foundation Protocol:为智能体社会打造的隐藏操作系统孤立的AI智能体时代正在终结。随着自主系统从单一用途工具演变为数字社会的基础设施,一个关键瓶颈浮出水面:协调。一篇新论文介绍了Foundation Protocol,这是一个专为智能体间协调而构建的协议层。它解决了建立可靠关系、组织多智能体查看来源专题页arXiv cs.AI 已收录 380 篇文章

时间归档

May 20262708 篇已发布文章

延伸阅读

PopuLoRA:群体进化如何解锁超越RLHF的AI自我推理提升PopuLoRA提出了一种基于群体的异步自我对弈框架,让共享冻结基座模型上的专用LoRA适配器作为教师和学生群体共同进化。通过用交叉评估取代自我校准,它构建了一个自我强化的循环,不断生成更具挑战性的问题和更优的解决方案,从而打破了传统自我对ICRL:当AI学会“内化批评”,自我进化的智能体时代来了一项名为ICRL(内化批评强化学习)的突破性框架,正在教会AI智能体永久性地吸收反馈,使其从被动的错误修正者转变为能够自我进化的系统。这或许将终结昂贵的外部监督循环,开启真正自主智能体的新纪元。基准测试幻象:为何高分AI模型在真实知识工作中频频翻车一项突破性研究揭露了AI评估中的致命缺陷:基准测试分数对真实知识工作具有误导性。AINews深度解析提出的三步框架——任务分解、动态评估与部署模拟——旨在为医学、法律和软件工程等高 stakes 领域重建对AI的信任。战略推理盲区:为何大语言模型在真实经济博弈中频频翻车大语言模型正被越来越多地部署为自主经济智能体,参与广告竞价、合同谈判与资产交易。然而,它们的战略推理能力仍是一个黑箱。全新的GENSTRAT框架揭示,现有基准测试正在制造危险的“能力幻觉”,业界亟需建立一套关于AI经济行为的新科学。

常见问题

这次模型发布“ImProver 2: The Self-Optimizing AI That Rewrites Its Own Math Proofs”的核心内容是什么?

ImProver 2, a next-generation neurosymbolic framework, has demonstrated that large language models can not only generate formal mathematical proofs but also iteratively improve the…

从“How ImProver 2 compares to AlphaProof for formal theorem proving”看,这个模型发布为什么重要?

ImProver 2 builds upon the foundation of its predecessor, ImProver, but introduces a fundamentally new capability: iterative self-optimization of formal proofs. The architecture is a classic neurosymbolic loop, but with…

围绕“ImProver 2 self-play training data generation technique”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。