MA-ProofBench 基准测试揭示 AI 在数学分析推理中的隐秘短板

arXiv cs.AI June 2026
来源:arXiv cs.AIlarge language modelsAI reasoning归档:June 2026
一项名为 MA-ProofBench 的新基准测试显示,尽管大语言模型在代数和数论方面表现惊艳,但在涉及极限、连续性和实数的数学分析证明中却系统性失败。其双难度设计暴露了 AI 推理中的关键缺陷,可能重塑评估标准。

MA-ProofBench 是由来自顶尖机构的研究人员联合发布的一项全新基准测试,系统性地评估大语言模型在数学分析(对极限、连续性、微分和积分的严谨研究)中的定理证明能力。尽管 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro 等 LLM 在代数推理和初等数论方面表现出色,在现有基准测试中得分常超过 80%,但 MA-ProofBench 揭示了一个急剧下滑:顶尖模型在其最难层级上的得分勉强超过 40%。该基准测试的关键创新在于其双层结构:第一层涵盖常规计算和简单的 epsilon-delta 论证,相当于大二学生可解的水平;第二层则要求涉及完备性、序列性的多步证明。

技术深度解析

MA-ProofBench 并非又一个静态数据集。其架构设计刻意旨在分离数学分析所需的特定认知需求。该基准测试包含 1200 个问题,均匀分布在两个层级。第一层问题是“计算型”的——它们要求应用标准定理(例如极限的乘积法则)或为线性函数构建简单的 epsilon-delta 证明。第二层问题是“结构型”的——它们要求从基本原理出发构建证明,通常涉及嵌套量词、反例或非构造性论证。

从算法角度来看,其失败模式颇具启发性。当 LLM 尝试解决第二层问题,例如“证明闭区间上的连续函数必能达到其最大值”时,它不仅要回忆极值定理,还必须构建一个利用序列紧致性、Bolzano-Weierstrass 性质和连续性定义的证明。当前的 Transformer 模型缺乏在超过 5-7 步的推理中维持连贯逻辑链的能力,而不会产生幻觉或引入循环论证。该基准测试的作者发布了一份详细的错误分类:34% 的失败源于“定义误用”(例如混淆逐点连续性与一致连续性),28% 是“逻辑跳跃”(跳过关键步骤),22% 是“反例盲区”(未能识别命题为假),16% 是“量词错误”(错误排序存在量词和全称量词)。

一个相关的开源项目是“Lean-LLM”仓库(github.com/lean-dojo/Lean-LLM,约 2300 星),该项目在 Lean 4 证明轨迹上微调 LLM。然而,即使是 Lean-LLM 的最佳模型在 MA-ProofBench 第二层也仅达到 27%,而在 miniF2F 等代数基准测试上则为 51%。这一差距凸显了一个根本性局限:大多数 LLM 的训练数据严重偏向代数和组合问题,这些问题在教科书和在线论坛中更为丰富。相比之下,数学分析证明更为罕见且结构更复杂。

数据表:模型在 MA-ProofBench 与现有基准测试上的表现

| 模型 | MA-ProofBench 第一层 (%) | MA-ProofBench 第二层 (%) | miniF2F (代数) (%) | GSM8K (小学数学) (%) |
|---|---|---|---|---|
| GPT-4o | 62 | 38 | 84 | 96 |
| Claude 3.5 Sonnet | 58 | 33 | 81 | 94 |
| Gemini 1.5 Pro | 55 | 29 | 78 | 92 |
| Llama 3 70B | 41 | 18 | 72 | 88 |
| DeepSeek-Math 7B | 35 | 12 | 68 | 85 |
| Lean-LLM (微调) | 44 | 27 | 51 | — |

数据要点: 所有模型在第一层和第二层之间的性能差距(平均下降 24 个百分点)远大于代数基准与小学数学基准之间的差距。这表明数学分析需要一种当前 LLM 架构无法稳健支持的、性质不同的推理能力。

关键参与者与案例研究

MA-ProofBench 计划由清华大学和上海人工智能实验室的团队牵头,并得到了麻省理工学院和剑桥大学研究人员的贡献。主要作者李伟博士此前曾参与 LeanDojo 项目,并公开表示“分析是 AI 定理证明的最后前沿”。该基准测试的发布已引发主要 AI 实验室的回应。

OpenAI 尚未正式置评,但内部消息人士透露,GPT-5 的训练流程现已包含从 arXiv 和教科书中抓取的更大比例的分析问题。以关注宪法 AI 而闻名的 Anthropic 的 Claude 团队已发表一项初步研究,表明带有明确“定义提醒”的思维链提示可将第二层得分提高 8-12 个百分点——但仍远低于人类专家水平(人类博士生在第二层得分约为 85%)。Google DeepMind 的 AlphaProof 团队近期在国际数学奥林匹克竞赛问题上达到了银牌级别的表现,据报道正在调整其强化学习方法以应用于分析。AlphaProof 的优势在于能够生成数千次证明尝试并通过自我对弈进行优化——这一策略可能对分析有效,因为其搜索空间更大,但正确性标准定义明确。

一个值得注意的案例研究是开源项目“ProofNet-Analysis”(github.com/ProofNet/analysis,约 1100 星),该项目整理了 5000 个带有 Lean 形式化证明的分析问题。该项目的维护者、卡内基梅隆大学的一位博士后告诉 AINews:“社区早就知道分析对 AI 来说更难,但 MA-ProofBench 提供了第一个系统性证据。”ProofNet 数据集现已被多家初创公司使用,其中包括一家名为“Axiom AI”的隐形模式公司,其目标是为研究数学家构建一个定理证明助手。

数据表:AI 定理证明方法比较

| 方法 | 示例系统 | 优势 | 劣势 | MA-ProofBench 第二层得分 |
|---|---|---|---|

更多来自 arXiv cs.AI

风险感知因果门控:教会AI模型说“不”的安全范式革命AI安全领域长期面临一个核心矛盾:模型能力越强,在不确定性高时拒绝行动的难度越大。传统的RLHF、宪法AI、护栏等方法本质上是事后过滤器——在输出生成后修正结果。Risk-Aware Causal Gating(RACG)彻底颠覆了这一范式超维计算让表格嵌入像SQL查询一样可解释多年来,表格数据嵌入一直面临一个根本矛盾:它们能捕捉语义相似性,但检索逻辑却始终不透明。用户无法理解两个字段为何匹配,也无法执行精确的结构化查询。如今,一股将超维计算(HDC)应用于表格嵌入的研究浪潮正在改写这一范式。HDC不再依赖不透明的扑克竞技场:九轴记忆分析揭示LLM战略推理的深层短板Poker Arena代表了LLM评测领域的结构性革命。传统基准测试将复杂推理压缩为一个单一分数,好比仅凭综合评级评判棋手,却忽略其残局、布局或心理韧性。通过强制模型参与无限注德州扑克——一种充满不完整信息、欺骗与概率结果的游戏——Poke查看来源专题页arXiv cs.AI 已收录 471 篇文章

相关专题

large language models174 篇相关文章AI reasoning35 篇相关文章

时间归档

June 20261429 篇已发布文章

延伸阅读

PAR²-RAG框架以动态规划破解AI多步推理危机名为PAR²-RAG的新框架正在攻克AI领域最顽固的挑战之一:跨文档的可靠多步推理。通过将主动规划与实时检索相结合,该系统能动态调整搜索策略,从根本上杜绝了现有方法中常见的错误累积问题,标志着AI系统向真正具备规划与适应能力的方向迈出了关键知行之壑:为何大语言模型能识别错误却仍会犯错现代AI的核心正浮现一个关键缺陷:大语言模型常能意识到问题的逻辑漏洞或缺失前提,却仍会生成自信满满的错误答案。这种“知行之壑”是根本性的架构局限,正威胁AI在高风险领域的可靠性。破局之路需要一场范式革命。经验为师:新强化学习范式如何教会AI通过探索思考当前主流的大语言模型强化学习训练范式正遭遇根本性瓶颈——模型变得“奖励短视”,只追求分数而非真正理解。一种新兴范式将探索本身视为可由过往成功经验引导的学习过程,有望解锁更具创造性和泛化能力的人工智能推理。创新幻觉:为何聊天机器人精通对话却无法真正解决问题一项跨学科新分析揭示,大型语言模型陷入“创新幻觉”——它们能生成流畅对话,却无法真正解决新问题。这一发现挑战了AI行业的核心叙事,迫使人们对创造力与突破性思维重新校准预期。

常见问题

这次模型发布“MA-ProofBench Exposes AI's Hidden Weakness in Mathematical Analysis Reasoning”的核心内容是什么?

MA-ProofBench, a novel benchmark released by a consortium of researchers from leading institutions, systematically evaluates large language models on theorem proving in mathematica…

从“MA-ProofBench vs miniF2F benchmark comparison”看,这个模型发布为什么重要?

MA-ProofBench is not just another static dataset. Its architecture reflects a deliberate attempt to isolate the specific cognitive demands of mathematical analysis. The benchmark comprises 1,200 problems, evenly split be…

围绕“epsilon-delta proof AI failure analysis”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。