技术深度解析
MA-ProofBench 并非又一个静态数据集。其架构设计刻意旨在分离数学分析所需的特定认知需求。该基准测试包含 1200 个问题,均匀分布在两个层级。第一层问题是“计算型”的——它们要求应用标准定理(例如极限的乘积法则)或为线性函数构建简单的 epsilon-delta 证明。第二层问题是“结构型”的——它们要求从基本原理出发构建证明,通常涉及嵌套量词、反例或非构造性论证。
从算法角度来看,其失败模式颇具启发性。当 LLM 尝试解决第二层问题,例如“证明闭区间上的连续函数必能达到其最大值”时,它不仅要回忆极值定理,还必须构建一个利用序列紧致性、Bolzano-Weierstrass 性质和连续性定义的证明。当前的 Transformer 模型缺乏在超过 5-7 步的推理中维持连贯逻辑链的能力,而不会产生幻觉或引入循环论证。该基准测试的作者发布了一份详细的错误分类:34% 的失败源于“定义误用”(例如混淆逐点连续性与一致连续性),28% 是“逻辑跳跃”(跳过关键步骤),22% 是“反例盲区”(未能识别命题为假),16% 是“量词错误”(错误排序存在量词和全称量词)。
一个相关的开源项目是“Lean-LLM”仓库(github.com/lean-dojo/Lean-LLM,约 2300 星),该项目在 Lean 4 证明轨迹上微调 LLM。然而,即使是 Lean-LLM 的最佳模型在 MA-ProofBench 第二层也仅达到 27%,而在 miniF2F 等代数基准测试上则为 51%。这一差距凸显了一个根本性局限:大多数 LLM 的训练数据严重偏向代数和组合问题,这些问题在教科书和在线论坛中更为丰富。相比之下,数学分析证明更为罕见且结构更复杂。
数据表:模型在 MA-ProofBench 与现有基准测试上的表现
| 模型 | MA-ProofBench 第一层 (%) | MA-ProofBench 第二层 (%) | miniF2F (代数) (%) | GSM8K (小学数学) (%) |
|---|---|---|---|---|
| GPT-4o | 62 | 38 | 84 | 96 |
| Claude 3.5 Sonnet | 58 | 33 | 81 | 94 |
| Gemini 1.5 Pro | 55 | 29 | 78 | 92 |
| Llama 3 70B | 41 | 18 | 72 | 88 |
| DeepSeek-Math 7B | 35 | 12 | 68 | 85 |
| Lean-LLM (微调) | 44 | 27 | 51 | — |
数据要点: 所有模型在第一层和第二层之间的性能差距(平均下降 24 个百分点)远大于代数基准与小学数学基准之间的差距。这表明数学分析需要一种当前 LLM 架构无法稳健支持的、性质不同的推理能力。
关键参与者与案例研究
MA-ProofBench 计划由清华大学和上海人工智能实验室的团队牵头,并得到了麻省理工学院和剑桥大学研究人员的贡献。主要作者李伟博士此前曾参与 LeanDojo 项目,并公开表示“分析是 AI 定理证明的最后前沿”。该基准测试的发布已引发主要 AI 实验室的回应。
OpenAI 尚未正式置评,但内部消息人士透露,GPT-5 的训练流程现已包含从 arXiv 和教科书中抓取的更大比例的分析问题。以关注宪法 AI 而闻名的 Anthropic 的 Claude 团队已发表一项初步研究,表明带有明确“定义提醒”的思维链提示可将第二层得分提高 8-12 个百分点——但仍远低于人类专家水平(人类博士生在第二层得分约为 85%)。Google DeepMind 的 AlphaProof 团队近期在国际数学奥林匹克竞赛问题上达到了银牌级别的表现,据报道正在调整其强化学习方法以应用于分析。AlphaProof 的优势在于能够生成数千次证明尝试并通过自我对弈进行优化——这一策略可能对分析有效,因为其搜索空间更大,但正确性标准定义明确。
一个值得注意的案例研究是开源项目“ProofNet-Analysis”(github.com/ProofNet/analysis,约 1100 星),该项目整理了 5000 个带有 Lean 形式化证明的分析问题。该项目的维护者、卡内基梅隆大学的一位博士后告诉 AINews:“社区早就知道分析对 AI 来说更难,但 MA-ProofBench 提供了第一个系统性证据。”ProofNet 数据集现已被多家初创公司使用,其中包括一家名为“Axiom AI”的隐形模式公司,其目标是为研究数学家构建一个定理证明助手。
数据表:AI 定理证明方法比较
| 方法 | 示例系统 | 优势 | 劣势 | MA-ProofBench 第二层得分 |
|---|---|---|---|