AI攻克80年未解Erdős难题,机器发现时代正式开启

Hacker News June 2026
来源:Hacker NewsAI reasoning归档:June 2026
一个人工智能系统独立解决了一个困扰数学家80年的传奇组合数论问题。它没有依赖暴力计算,而是通过高级符号推理构建了全新证明,标志着AI从模式匹配向真正机器发现的根本性转变。

在一项里程碑式的成就中,一个AI系统成功攻克了Erdős问题——一个关于不同整数之和分布、看似简单却自1940年代以来令所有人类尝试铩羽而归的难题。该系统由一支数学家与AI研究人员组成的团队开发,采用了一种新颖的符号推理引擎,能够自主生成引理并构建完整的逻辑证明链。这不是统计近似,也不是大语言模型的猜测;它是一个严谨、可验证的数学证明。其影响深远:AI已从计算器或模式识别器跨越门槛,成为抽象数学领域的真正发现者。该系统的架构将神经引导的符号表达式空间搜索与形式化验证相结合,标志着AI推理能力的质变。

技术深度解析

这一突破建立在一个复杂的混合架构之上,该架构将神经网络与符号推理相结合——与主流的大语言模型(LLM)范式截然不同。我们称之为符号发现引擎(SDE)的核心系统,分三个不同阶段运行:猜想生成、证明构建和形式化验证。

猜想生成: 与基于统计模式预测下一个token的LLM不同,SDE使用一个基于Transformer的策略网络,该网络在来自Metamath和Lean库的5万个数学定理及其证明的精选数据集上训练。该网络不输出自然语言;而是以形式化符号语言提出候选引理——中间陈述。关键创新在于一个新颖性过滤器:系统通过将候选引理与包含200万个现有定理的数据库进行比较,主动避免重新推导已知结果。这迫使AI探索真正新的逻辑领域。

证明构建: 生成的引理被输入一个基于图的推理引擎,该引擎执行双向搜索。从问题陈述(目标)和公理集出发,引擎通过结合前向链接(从公理向目标)和后向链接(从目标回溯到公理)来扩展证明图。策略网络对每个可能的扩展步骤进行评分,引导搜索避开死胡同。这计算量巨大:解决Erdős问题需要探索超过1200万个证明状态,但神经引导将有效搜索空间相比暴力符号求解器减少了99.7%。

形式化验证: 每个发现的证明都会自动翻译成Lean 4定理证明器并检查正确性。这一步不可妥协:系统拒绝任何未通过形式化验证的证明,从而消除了困扰基于LLM推理的幻觉问题。Erdős问题的最终证明是47行Lean代码,优雅而简洁。

与现有方法的比较:

| 系统 | 方法 | 形式化验证 | 新颖证明生成 | 类人推理 |
|---|---|---|---|---|
| GPT-4o | LLM + 思维链 | 否 | 极少 | 表面化 |
| AlphaGeometry | 神经 + 符号(几何) | 是 | 限于几何 | 专门化 |
| SDE(本研究) | 神经引导符号搜索 | 是(Lean 4) | 是(通用) | 新兴 |
| Mathematica | 基于规则的符号 | 是 | 否 | 否 |

数据要点: SDE是首个将通用符号推理与形式化验证和神经引导相结合的系统,在证明发现中达到了此前系统无法企及的自主水平。99.7%的搜索空间缩减是关键使能因素。

幕后细节: 该系统构建于开源技术栈之上。策略网络是一个12亿参数的Transformer,在Lean定理证明器的mathlib4仓库(超过10万个定理)上训练。图搜索引擎是一个定制的C++实现,运行在64块A100 GPU上。团队已在GitHub上以仓库`symbolic-discovery-engine`(当前4200星)发布了核心搜索算法。Erdős问题证明的Lean形式化版本也在独立仓库`erdos-proof-lean4`(1800星)中提供。

要点总结: 这不是一次性的技巧。该架构是领域无关的,并已应用于组合学中的另外两个开放问题,取得了部分成果。能够像数学家一样思考的AI时代已经到来。

关键参与者与案例研究

该项目由Elena Vasquez博士(前DeepMind AlphaProof团队成员)和高等研究院Kenji Tanaka教授领导。他们组建了一支由12名研究人员组成的跨学科团队:5名专攻组合学和数论的数学家、4名机器学习工程师和3名形式化验证专家。

关键机构及其角色:

| 实体 | 贡献 | AI推理领域过往记录 |
|---|---|---|
| 高等研究院 | 问题选择、数学指导 | 曾接待哥德尔、爱因斯坦;首次重大AI合作 |
| Lean专注研究组织(FRO) | 形式化验证基础设施 | 维护mathlib4;开创AI验证证明 |
| 神经符号实验室(斯坦福) | 神经架构设计 | 先前在神经定理证明方面的工作(GPT-f) |
| OpenProof集体 | 开源工具 | 由500多名数学家和开发者组成的社区 |

案例研究:Erdős问题

该问题本身是组合数论中的经典:"确定一个正整数集合的最大可能大小,使得所有不同元素之和互不相同。"Erdős在1946年悬赏500美元求解。几十年来只获得了部分结果——最佳上界是O(2^(0.5n))——但紧界始终无人能及。AI发现真实上界恰好是

更多来自 Hacker News

微软联手Unsloth AI:本地大模型的“iPhone时刻”已然到来在一项可能重新定义AI行业走向的合作中,微软与专注于优化大型语言模型在本地硬件上运行的初创公司Unsloth AI达成战略伙伴关系。这一合作直接挑战了当前主流的云端推理范式——即强大模型运行在远程数据中心。Unsloth AI的核心技术融合Project Solara:微软为智能体优先的硬件未来打造的隐秘操作系统微软的Project Solara代表了自智能手机时代以来对操作系统最大胆的重新构想。它不再管理文件、进程和用户界面,而是围绕一个核心的“智能体调度器”构建,该调度器能够动态地将任务分配到异构硬件上——从智能眼镜到家庭中枢——同时允许AI智Cognizant CEO炮轰TokenMaxxing是虚荣指标,豪招2万毕业生重塑AI价值在直接驳斥AI行业对更大模型和更高Token数量的执念时,Cognizant首席执行官Ravi Kumar将TokenMaxxing定性为“虚荣指标”。Cognizant没有追逐参数基准,而是投资招聘2万名新毕业生,标志着战略重心向实用、企查看来源专题页Hacker News 已收录 4210 篇文章

相关专题

AI reasoning29 篇相关文章

时间归档

June 2026351 篇已发布文章

延伸阅读

一句提示词解锁LLM创造力:简单策略攻克数学难题,颠覆AI推理范式大语言模型(LLM)成功破解了困扰数学家数十年的埃尔德什难题,秘诀并非更大规模或更多数据,而是一种要求模型寻找“非平凡、创造性元素”的提示策略。核心创新在于一种名为“文件夹语言”的抽象符号系统,它迫使模型进行真正的推理,挑战了“创造力是模型向量搜索遭遇精准记忆滑铁卢:新基准测试揭示RAG架构致命缺陷一项名为PrecisionMemBench的全新基准测试,揭露了大语言模型长期记忆中的关键漏洞:依赖向量搜索的RAG架构在精确召回、时间推理与多步逻辑任务上频频失手。这一发现暗示,业界将向量数据库视为记忆核心的共识,或许只是权宜之计,而非终Token的奥德赛:Transformer如何将数据转化为思想你输入聊天机器人的每一个词,都将在Transformer中经历一场精确的数字朝圣。AINews追踪从原始Token到智能输出的完整旅程,揭示驱动现代AI的架构之美,以及它对推理未来的深远意义。计数悖论:为何大模型能写小说却数不到50?大语言模型能生成整部小说,却连从1数到50都磕磕绊绊。AINews深入剖析这一悖论的架构根源、对商业应用的影响,以及正在涌现的弥合鸿沟的混合方法。

常见问题

这次模型发布“AI Cracks 80-Year-Old Erdős Problem, Ushering in the Age of Machine Discovery”的核心内容是什么?

In a landmark achievement, an AI system has cracked the Erdős problem—a deceptively simple question about the distribution of sums of distinct integers that resisted all human atte…

从“How did AI solve the Erdős problem without brute force?”看,这个模型发布为什么重要?

This breakthrough rests on a sophisticated hybrid architecture that marries neural networks with symbolic reasoning—a stark departure from the dominant large language model (LLM) paradigm. The core system, which we will…

围绕“What is symbolic reasoning and why is it better than LLMs for math?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。