OpenAI推出MiniF2F：可能重塑AI推理的形式数学基准

2026年4月21日 05:08 AINews GitHub April 2026

⭐ 422

来源：GitHub 归档：April 2026

OpenAI悄然发布专用于评估AI系统形式数学推理能力的基准测试MiniF2F。该数据集挑战模型在人类直觉数学与机器可验证证明之间架设桥梁，标志着AI向严谨逻辑演绎迈出关键一步。其多语言支持与精选问题集，正瞄准当前AI推理的核心瓶颈。

MiniF2F基准测试由OpenAI在GitHub上开源发布，是一个精心构建的数据集，包含数论、代数和组合数学领域的488个形式数学命题及证明。与传统测试解题能力的数学基准不同，MiniF2F专门评估系统将教科书或奥赛中的非形式数学陈述，转化为Lean 4、Isabelle等证明助手中完全形式化语句的能力。每个问题均包含自然语言描述、多种证明助手语言的形式化陈述以及参考证明，为自动定理证明（ATP）和神经定理证明（NTP）研究建立了标准化测试平台。

其重要意义在于直面研究者所称的“形式化鸿沟”——即人类直观的数学表达与计算机可严格验证的形式语言之间的转换障碍。该基准支持Lean和Isabelle双语言，确保评估结果不受单一形式系统特性的干扰，迫使模型必须理解底层数学概念而非仅仅掌握语法。数据集按机器学习标准划分为训练集（244题）、验证集（122题）和测试集（122题），为比较神经符号混合系统提供了统一标尺。

当前最先进的系统如Google DeepMind的AlphaGeometry与Meta的Hypertree Proof Search，虽在特定领域取得突破，但在MiniF2F上的整体成功率仍低于40%，凸显出当前AI与稳健形式推理间存在的显著差距。该基准已迅速成为ATP/NTP领域论文的必测项目，并催生了Lean-gym、ProofNet等开源生态，虽仓库仅获422星标，却对AI推理研究产生了远超其热度的影响力。

技术深度解析

MiniF2F的架构看似简单：实为一系列将自然语言问题映射到形式化表述的JSON文件。其技术精妙之处在于严谨的 curation 过程以及多形式语言的双重表述。每个条目包含：
- `informal_statement`：人类可读的数学问题。
- `formal_statement_lean`：用Lean依赖类型理论编码的问题。
- `formal_statement_isabelle`：用Isabelle/HOL高阶逻辑编码的同一问题。
- `proof_lean` / `proof_isabelle`：对应语言的参考证明。

这种多语言方法至关重要。它确保基准测试结果不会受单一形式系统特殊性的干扰。一个表现优异的模型必须理解底层数学概念，而不仅仅是Lean或Isabelle的语法。数据集遵循标准机器学习实践，划分为训练集（244题）、验证集（122题）和测试集（122题）。

MiniF2F揭示的核心技术挑战是神经符号集成。纯符号ATP系统（如Vampire或E）已存在数十年，但在高层数学的巨大搜索空间中举步维艰。相反，神经模型缺乏严谨的逻辑根基。最有前景的方法以OpenAI自身先前在GPT-f（为形式数学微调的GPT-3）上的工作为例，结合了两者：语言模型提出证明策略或中间步骤（“直觉飞跃”），而符号验证器（证明助手）检查每一步的有效性。

近期攻克形式数学的最先进系统，如Google DeepMind的AlphaGeometry（解决了30道IMO几何题中的25道）和Meta的Hypertree Proof Search，都依赖类似的混合架构。它们使用神经生成器提出证明扩展，并用符号验证器修剪无效路径。MiniF2F为在几何之外更广泛的数学领域比较这些架构提供了共同基础。

| 系统/模型 | 架构 | 报告的MiniF2F测试得分（证明成功率%） | 关键技术 |
|---|---|---|---|
| GPT-f (OpenAI, 2021) | Transformer + 策略 | ~29%（基于早期版本） | 基于Lean证明的监督微调 |
| Codex (微调版) | 大语言模型 | ~21% | 形式代码的少样本提示 |
| Thor (ETH Zurich) | 图神经网络 + ATP | ~35%（预估） | 证明状态的图表示 |
| Hypertree Proof Search (Meta) | Transformer + MCTS | ~38%（初步结果） | 证明空间上的蒙特卡洛树搜索 |

*数据启示*：MiniF2F的性能天花板仍然很低，即使是先进的混合系统也难以解决超过40%的问题。这凸显了基准的难度以及当前AI与稳健形式推理之间的巨大差距。专用系统相对于Codex等微调通用LLM约10个百分点的领先优势，突显了专用推理架构的必要性。

围绕此基准已涌现出相关的开源项目。Lean-gym仓库为在Lean定理上训练RL智能体提供了交互式环境，而ProofNet是另一个基于MiniF2F概念扩展的社区构建数据集。MiniF2F仓库相对温和的422个星标掩盖了其超常的影响力；它已成为任何严肃的ATP/NTP研究论文的必测项目。

关键参与者与案例研究

MiniF2F的发布催化了三大类参与者的活动：基础AI实验室、学术研究小组以及构建形式化验证工具的初创公司。

OpenAI的战略布局：OpenAI在此并不仅仅是基准发布者，更是主要竞争者。他们之前的GPT-f项目已表明其持续的兴趣。MiniF2F作为一个公共基准，与OpenAI内部提升o1或未来迭代模型推理能力的路线图相一致。通过设定评估标准，他们塑造了研究社区的目标。OpenAI的研究人员如Stanislas Polu和Jesse Michael Han在这项工作中发挥了关键作用，倡导将形式化验证集成到LLM训练循环中。

Google DeepMind的竞争愿景：DeepMind的优势在于强化学习和搜索。由Trieu H. Trinh领导的AlphaGeometry系统，通过使用专为几何图定制的神经符号方法，完全绕过了形式语言。MiniF2F挑战他们将此成功推广到没有自然图表表示的领域。DeepMind的Gopher和Chinchilla论文也探索了数学推理，但主要针对非形式化问题。MiniF2F代表了一个更严谨、也可能更具对抗性的与OpenAI竞争的舞台。

Meta AI的开源攻势：Meta通过其FAIR团队，已大力投资于Lean等开源证明助手。研究员Sebastian Ullrich

时间归档

常见问题

GitHub 热点“OpenAI's MiniF2F: The Formal Math Benchmark That Could Reshape AI Reasoning”主要讲了什么？

The MiniF2F benchmark, hosted on GitHub under OpenAI's organization, is a carefully constructed dataset of 488 formal mathematical statements and proofs across number theory, algeb…

这个 GitHub 项目在“OpenAI MiniF2F benchmark download and setup tutorial”上为什么会引发关注？

MiniF2F's architecture is deceptively simple: a collection of JSON files mapping natural language problem statements to their formal counterparts. The technical sophistication lies in the curation process and the dual re…

从“How to contribute problems to the MiniF2F dataset”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 422，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

OpenAI推出MiniF2F：可能重塑AI推理的形式数学基准

技术深度解析

关键参与者与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题