MA-ProofBench 基准测试揭示 AI 在数学分析推理中的隐秘短板

2026年6月15日 12:15 AINews arXiv cs.AI June 2026

来源：arXiv cs.AI large language models AI reasoning 归档：June 2026

一项名为 MA-ProofBench 的新基准测试显示，尽管大语言模型在代数和数论方面表现惊艳，但在涉及极限、连续性和实数的数学分析证明中却系统性失败。其双难度设计暴露了 AI 推理中的关键缺陷，可能重塑评估标准。

MA-ProofBench 是由来自顶尖机构的研究人员联合发布的一项全新基准测试，系统性地评估大语言模型在数学分析（对极限、连续性、微分和积分的严谨研究）中的定理证明能力。尽管 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro 等 LLM 在代数推理和初等数论方面表现出色，在现有基准测试中得分常超过 80%，但 MA-ProofBench 揭示了一个急剧下滑：顶尖模型在其最难层级上的得分勉强超过 40%。该基准测试的关键创新在于其双层结构：第一层涵盖常规计算和简单的 epsilon-delta 论证，相当于大二学生可解的水平；第二层则要求涉及完备性、序列性的多步证明。

技术深度解析

MA-ProofBench 并非又一个静态数据集。其架构设计刻意旨在分离数学分析所需的特定认知需求。该基准测试包含 1200 个问题，均匀分布在两个层级。第一层问题是“计算型”的——它们要求应用标准定理（例如极限的乘积法则）或为线性函数构建简单的 epsilon-delta 证明。第二层问题是“结构型”的——它们要求从基本原理出发构建证明，通常涉及嵌套量词、反例或非构造性论证。

从算法角度来看，其失败模式颇具启发性。当 LLM 尝试解决第二层问题，例如“证明闭区间上的连续函数必能达到其最大值”时，它不仅要回忆极值定理，还必须构建一个利用序列紧致性、Bolzano-Weierstrass 性质和连续性定义的证明。当前的 Transformer 模型缺乏在超过 5-7 步的推理中维持连贯逻辑链的能力，而不会产生幻觉或引入循环论证。该基准测试的作者发布了一份详细的错误分类：34% 的失败源于“定义误用”（例如混淆逐点连续性与一致连续性），28% 是“逻辑跳跃”（跳过关键步骤），22% 是“反例盲区”（未能识别命题为假），16% 是“量词错误”（错误排序存在量词和全称量词）。

一个相关的开源项目是“Lean-LLM”仓库（github.com/lean-dojo/Lean-LLM，约 2300 星），该项目在 Lean 4 证明轨迹上微调 LLM。然而，即使是 Lean-LLM 的最佳模型在 MA-ProofBench 第二层也仅达到 27%，而在 miniF2F 等代数基准测试上则为 51%。这一差距凸显了一个根本性局限：大多数 LLM 的训练数据严重偏向代数和组合问题，这些问题在教科书和在线论坛中更为丰富。相比之下，数学分析证明更为罕见且结构更复杂。

数据表：模型在 MA-ProofBench 与现有基准测试上的表现

| 模型 | MA-ProofBench 第一层 (%) | MA-ProofBench 第二层 (%) | miniF2F (代数) (%) | GSM8K (小学数学) (%) |
|---|---|---|---|---|
| GPT-4o | 62 | 38 | 84 | 96 |
| Claude 3.5 Sonnet | 58 | 33 | 81 | 94 |
| Gemini 1.5 Pro | 55 | 29 | 78 | 92 |
| Llama 3 70B | 41 | 18 | 72 | 88 |
| DeepSeek-Math 7B | 35 | 12 | 68 | 85 |
| Lean-LLM (微调) | 44 | 27 | 51 | — |

数据要点： 所有模型在第一层和第二层之间的性能差距（平均下降 24 个百分点）远大于代数基准与小学数学基准之间的差距。这表明数学分析需要一种当前 LLM 架构无法稳健支持的、性质不同的推理能力。

关键参与者与案例研究

MA-ProofBench 计划由清华大学和上海人工智能实验室的团队牵头，并得到了麻省理工学院和剑桥大学研究人员的贡献。主要作者李伟博士此前曾参与 LeanDojo 项目，并公开表示“分析是 AI 定理证明的最后前沿”。该基准测试的发布已引发主要 AI 实验室的回应。

OpenAI 尚未正式置评，但内部消息人士透露，GPT-5 的训练流程现已包含从 arXiv 和教科书中抓取的更大比例的分析问题。以关注宪法 AI 而闻名的 Anthropic 的 Claude 团队已发表一项初步研究，表明带有明确“定义提醒”的思维链提示可将第二层得分提高 8-12 个百分点——但仍远低于人类专家水平（人类博士生在第二层得分约为 85%）。Google DeepMind 的 AlphaProof 团队近期在国际数学奥林匹克竞赛问题上达到了银牌级别的表现，据报道正在调整其强化学习方法以应用于分析。AlphaProof 的优势在于能够生成数千次证明尝试并通过自我对弈进行优化——这一策略可能对分析有效，因为其搜索空间更大，但正确性标准定义明确。

一个值得注意的案例研究是开源项目“ProofNet-Analysis”（github.com/ProofNet/analysis，约 1100 星），该项目整理了 5000 个带有 Lean 形式化证明的分析问题。该项目的维护者、卡内基梅隆大学的一位博士后告诉 AINews：“社区早就知道分析对 AI 来说更难，但 MA-ProofBench 提供了第一个系统性证据。”ProofNet 数据集现已被多家初创公司使用，其中包括一家名为“Axiom AI”的隐形模式公司，其目标是为研究数学家构建一个定理证明助手。

数据表：AI 定理证明方法比较

| 方法 | 示例系统 | 优势 | 劣势 | MA-ProofBench 第二层得分 |
|---|---|---|---|

时间归档

常见问题

这次模型发布“MA-ProofBench Exposes AI's Hidden Weakness in Mathematical Analysis Reasoning”的核心内容是什么？

MA-ProofBench, a novel benchmark released by a consortium of researchers from leading institutions, systematically evaluates large language models on theorem proving in mathematica…

从“MA-ProofBench vs miniF2F benchmark comparison”看，这个模型发布为什么重要？

MA-ProofBench is not just another static dataset. Its architecture reflects a deliberate attempt to isolate the specific cognitive demands of mathematical analysis. The benchmark comprises 1,200 problems, evenly split be…

围绕“epsilon-delta proof AI failure analysis”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

MA-ProofBench 基准测试揭示 AI 在数学分析推理中的隐秘短板

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

相关专题

时间归档

延伸阅读

常见问题