AI证明定理、撰写论文:当数学出错时,谁来担责?

Hacker News May 2026
来源:Hacker Newsformal verification归档:May 2026
AI系统如今不仅能生成原创数学猜想,还能借助Lean、Isabelle等形式化验证工具完成复杂证明。这一突破引发了一个关键伦理问题:当AI成为论文合著者,若证明存在缺陷,责任该由谁承担?

大语言模型与形式化验证引擎的融合已跨越了一道分水岭。Google DeepMind的AlphaProof、OpenAI的o1系列模型,在与Lean、Isabelle等定理证明器结合后,已不再是简单的计算工具——它们成为了合作者。它们能提出新颖猜想,在浩瀚的数学结构空间中搜索,并生成机器可验证的证明。这并非未来场景,而是正在发生的现实。2024年,AlphaProof解决了国际数学奥林匹克六道题中的四道,达到银牌水平。更近一些,Meta与剑桥大学的研究人员使用微调后的LLM为组合学中一个已知定理生成了新证明,并在Lean中完成了形式化验证。这一进展的影响深远,它重新定义了数学研究的边界,也引发了关于学术诚信、责任归属和人类创造力的深刻讨论。

技术深度解析

让AI“做数学”的核心创新并非单一模型,而是一种神经符号架构,它将大语言模型的直觉模式匹配与形式化定理证明器的严谨、基于规则的演绎能力相结合。

架构解析:
1. 直觉引擎(LLM): 大语言模型(如GPT-4o、Gemini 2.0,或AlphaProof内部网络等专用模型)生成候选猜想、引理或证明步骤。它操作自然语言或Lean的战术语法等形式语言。这是“创造性”部分,利用从数百万篇论文和证明中习得的模式来探索数学空间。
2. 验证引擎(形式化证明器):Lean(由微软研究院开发,现由社区驱动)、IsabelleCoq这样的系统接收候选证明并尝试验证。这些系统是确定性的:它们对照一组公理检查每个逻辑步骤。如果证明无效,验证器会返回反例或失败点。
3. 反馈循环: 验证器的失败信号被反馈给LLM,然后LLM生成新的尝试。这个循环可以运行数百万次,实际上是在证明空间中进行一次引导式搜索。

关键开源仓库:
- Lean 4 (github.com/leanprover/lean4):定理证明器的最新版本。它经历了爆炸式增长,在GitHub上已获得超过12,000颗星。社区已形式化了超过10万个本科数学定理。
- Mathlib4 (github.com/leanprover-community/mathlib4):形式化数学的配套库。它现在包含超过150万行代码,涵盖了从数论到代数拓扑的各个领域。
- AlphaProof(未开源,但方法论已发表):Google DeepMind的系统使用微调后的Gemini模型在Lean中生成证明战术。
- GPT-f (github.com/openai/gpt-f):OpenAI的一个早期项目,微调GPT-2以为Metamath形式系统生成证明。它证明了LLM能够学会生成有效的形式化证明。

性能基准测试:

| 系统 | 任务 | 结果 | 关键指标 |
|---|---|---|---|
| AlphaProof (2024) | IMO 2024 问题 | 解决4/6(银牌水平) | 100% 形式化验证 |
| GPT-4o + Lean (2025) | Putnam竞赛问题 | 解决3/12 | 10,000次迭代后85%的证明接受率 |
| Meta的LLM (2024) | 组合学定理 | 生成新证明并验证 | 证明长度:47行Lean代码 |
| GPT-f (2020) | Metamath定理 | 证明测试集12.5% | 对未见定理的成功率为40% |

数据要点: 从GPT-f的12.5%到AlphaProof在IMO问题上的67%,这代表了短短四年内5倍的提升。这不是渐进式的,而是指数级的。关键驱动力是反馈循环的规模:AlphaProof运行了数百万次证明尝试,而GPT-f运行了数千次。教训很明确:计算和迭代规模与证明发现能力直接相关。

技术瓶颈: 主要的限制是“搜索空间爆炸”。对于任何非平凡定理,可能的证明步骤数量是天文数字。当前系统依赖LLM学习的启发式方法来剪枝搜索。当启发式方法失败时,系统可能会陷入困境。这就是为什么即使是最好的系统也无法解决所有IMO问题——最难的问题需要真正新颖的洞察,而LLM的模式匹配无法生成。

关键参与者与案例研究

1. Google DeepMind (AlphaProof, AlphaGeometry)
DeepMind是AI数学推理领域的明确领导者。他们的AlphaGeometry系统通过将神经语言模型与符号演绎引擎相结合来解决几何问题,在2023年IMO上达到了银牌水平。AlphaProof将其扩展到一般数学领域。他们的策略是使用大规模计算(数千个TPU小时)来暴力搜索空间,并由微调后的LLM引导。他们没有开源模型,但发表了详细的方法论文。

2. OpenAI (o1系列, GPT-4o与Lean集成)
OpenAI的o1模型经过专门训练,能够“先思考再回答”,使用思维链推理。当与Lean集成时,它们可以生成证明草图,然后由人类进行完善。OpenAI还发布了一个ChatGPT插件,允许用户交互式地编写和检查Lean证明。他们的方法更易访问,但自主性不如DeepMind。

3. Meta AI (ProofNet, Lean Copilot)
Meta专注于为社区构建数据集和工具。他们的ProofNet数据集包含超过15,000个来自本科数学的形式化问题,全部用Lean编写。他们还开发了Lean Copilot,这是一个开源工具,使用LLM来建议Lean证明中的下一步战术。这是一种“副驾驶”而非“自动驾驶”的方法,强调人机协作。

**4.

更多来自 Hacker News

AI-Mirror:终于能解释用户为何挣扎的UX调试器AINews发现了一款有望改变开发者和设计师理解用户行为方式的新工具。AI-Mirror是一款轻量级、客户端分析引擎,它不仅记录点击和页面浏览——它还会解读用户与Web应用交互时的情绪和认知状态。通过检测犹豫、死点击、愤怒点击和重复失败尝试CoreMem:终结AI上下文碎片化的可移植内存层AINews独家揭秘CoreMem——一个旨在消除当前AI代理生态系统中最棘手痛点——上下文失忆症——的可移植上下文系统。当用户在Claude、Cursor、自定义代理或任何AI工具之间切换时,他们必须反复重新解释项目细节、编码约定和个人偏微软叫停Claude Code:自主AI代理的隐性成本黑洞微软被迫关闭内部部署的Anthropic旗下AI编程代理Claude Code,该工具的自主行为导致严重预算超支,在企AI界引发震动。该代理被授权迭代优化自身代码后,陷入无休止的优化循环——每次重试和扩展都消耗指数级云算力资源。原本前景光明查看来源专题页Hacker News 已收录 3818 篇文章

相关专题

formal verification27 篇相关文章

时间归档

May 20262491 篇已发布文章

延伸阅读

Formal正式发布:LLM能否弥合编程直觉与数学证明之间的鸿沟?开源项目Formal近日正式亮相,其目标极具野心:利用大语言模型帮助开发者构建关于代码正确性的形式化数学证明。通过将LLM与严谨的Lean 4定理证明器及其Mathlib库相连接,Formal标志着形式化验证迈向主流软件工程领域的重要一步。用Lean形式化验证Move借用检查器:AI赋能,开启智能合约安全新范式一项开创性研究成功利用Lean定理证明器,对Move编程语言的核心安全机制——借用检查器——进行了形式化验证。这项实验标志着AI辅助形式化方法在编程语言理论应用上的重大飞跃,有望为智能合约及系统安全提供前所未有的数学级保障。LLM解锁形式化验证:TLA+提示工程革命重塑软件可靠性一场静默的革命正在发生:开发者正利用大语言模型生成和调试TLA+形式化规约,将数学验证这门晦涩技艺转变为人类与AI的协作对话。这一突破大幅降低了实现可证明正确软件的门槛,有望重新定义分布式系统与AI代理的可靠性工程。Haskell函数式编程将AI智能体Token成本削减60%一种基于Haskell函数式编程范式的新方法,在复杂多智能体场景中,将AI智能体的Token使用量压缩40%-60%。通过将状态转换编码为纯函数并利用惰性求值,该方法在不损失语义的前提下大幅削减冗余上下文,同时为智能体行为解锁了形式化验证能

常见问题

这次模型发布“AI Proves Theorems, Writes Papers: Who Takes the Blame When Math Goes Wrong?”的核心内容是什么?

The fusion of large language models with formal verification engines has crossed a Rubicon. Systems like Google DeepMind's AlphaProof and OpenAI's o1-series models, when coupled wi…

从“AI co-author responsibility in mathematical papers”看,这个模型发布为什么重要?

The core innovation enabling AI to 'do math' is not a single model but a neural-symbolic architecture that marries the intuitive pattern-matching of large language models with the rigorous, rule-based deduction of formal…

围绕“Lean theorem prover vs Isabelle for AI proof verification”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。