技术深度解析
硬核模式框架的核心是构建于Lean 4定理证明器与编程语言之上的智能体架构。Lean的元编程能力和高效内核使其完美适配“猜想发现→证明形式化”的两阶段流程。该框架通常实现一个基于搜索的智能体,通过与Lean的`Tactic`状态交互来运作。
第一阶段:猜想发现。 智能体启动于由导入理论(如基础数论、群定义)定义的环境中,没有预设的`theorem ... := by ...`目标。取而代之的是策略性探索:
1. 前向推理: 应用现有引理和定义,从已知条件生成新事实。
2. 带元变量的后向链推理: 提出包含占位符的潜在定理陈述(例如`∀ (a b : ℕ), a + b = ?x`),然后通过统一和约束求解尝试解出`?x`。
3. LLM引导的启发式搜索: 紧密集成的大语言模型(如GPT-4或Claude 3)充当启发式生成器。根据当前证明状态和上下文,它提出合理的猜想或富有成效的探索方向。关键在于,LLM的建议不被视为绝对真理,而是需要形式化系统检验的假设。
第二阶段:证明构建。 一旦生成候选猜想并被判定为有价值(例如非平凡、未被反例搜索立即证伪),智能体便切换到更传统的ATP模式。此时它有了具体目标,可以使用`simp`、`ring`、`omega`等策略及自身学习的证明搜索策略来构建可验证的证明。
该框架的关键在于关注点分离:启发式(通常基于神经网络)的猜想提议器与健全的符号验证器各司其职。这符合“神经-符号”范式,但设定了严格关卡:任何猜想都必须通过符号过滤器才能进入下一阶段。展示早期原理的相关开源项目是`lean-step`(GitHub: `lean-step`),这是一个用于训练强化学习智能体与Lean交互的工具包。虽然未完全实现硬核模式,但它为智能体学习证明搜索策略提供了基础架构,可扩展至猜想搜索。
简易模式与硬核模式之间的性能差距极为显著。该框架基准测试套件的初步结果显示,当前最先进智能体的成功率出现断崖式下跌。
| 智能体 / 模型 | 简易模式(MiniF2F)成功率 | 硬核模式(提议基准)成功率 | 备注 |
|---|---|---|---|
| GPT-4 + Lean Copilot | ~42% | <5% | 极度依赖给定的定理陈述。 |
| Claude 3 Opus + 证明搜索 | ~38% | ~3% | 模式相似;形式化能力强,发现能力弱。 |
| 专用ATP系统(Vampire, E) | 在适用问题上成功率很高 | ~0% | 非为开放式猜想生成设计。 |
| 硬核模式框架 (v0.1) | 不适用 | ~12% | 在精选发现问题上的基线性能。 |
数据启示: 上表揭示,当答案不预先嵌入问题时,性能出现灾难性下滑。即使在简易模式下通过率接近40-50%的最先进LLM,在真正的发现任务中也跌至近乎零。专用的硬核模式框架虽然绝对成功率尚低,却为这项此前几乎无法测量的能力建立了非零基线。
关键参与者与案例研究
推动硬核模式评估的是一批专注于LLM与形式化方法交叉领域的学术研究员和开源开发者联盟。关键人物包括谷歌的Christian Szegedy,他在形式化数学和`LeanDojo`项目上的工作,凸显了简易模式基准测试中数据集污染的问题。来自OpenAI前数学团队的Stanislas Polu和Katherine Crowson,为理解LLM在形式推理中的局限性做出了贡献。由Albert Q. Jiang、Sean Welleck等研究者创建的`ProofNet`基准测试,是早期创建更干净、抗污染数据集的尝试,尽管它仍主要在简易模式范式下运行。
主要的案例研究是围绕Lean 4和Lean社区的开发生态系统。诸如`mathlib4`(庞大的协作数学形式化项目)这样的项目,提供了任何推理智能体都必须接受测试的核心库。从许多方面看,硬核模式框架正是对`mathlib4`贡献者需求的直接回应——他们大部分时间花在思考“接下来形式化什么”,而不仅仅是“如何形式化”。
一种竞争且互补的方法来自Meta的`Code Llama`及其在代码和数学上微调的相关模型。虽然它们在上下文学习和代码生成方面能力强大,但其评估主要基于HumanEval或MATH,这些在其领域内本质上仍属简易模式。