AI推翻30年离散几何猜想:OpenAI模型重新定义数学发现

Hacker News May 2026
来源:Hacker NewsOpenAI归档:May 2026
OpenAI推理模型独立推翻了一个长期悬而未决的离散几何猜想,标志着AI首次在无人干预下证伪经典数学猜想。这一突破从AI辅助验证转向AI主导发现,对数学及更广泛的科学方法具有深远影响。

在人工智能领域的一项里程碑式成就中,OpenAI推理模型成功推翻了一个核心离散几何猜想,该猜想三十多年来无人能证。这个被视为领域基础的猜想,曾有多位数学家尝试寻找反例却均告失败。OpenAI模型利用符号推理与组合搜索的新颖结合,构建了一个优雅的反例,最终确凿证伪了该猜想。这是有记录以来首次AI系统独立且结论性地证伪经典数学猜想,无需人类对证明策略或反例性质进行任何指导。这一事件打破了长久以来认为AI仅是模式识别工具的认知,标志着数学发现范式的根本转变。

技术深度解析

这一突破的关键在于OpenAI推理模型处理数学问题时的根本架构转变。与早期主要依赖海量文本语料进行下一个词预测的模型不同,该模型集成了专用符号推理模块与学习型搜索策略。核心创新是一种混合架构,将基于Transformer的语言模型与专为组合空间优化的蒙特卡洛树搜索引擎相结合。

模型分三个阶段运行:
1. 猜想分解: 语言模型将猜想解析为形式逻辑约束,并识别底层组合结构。对于离散几何猜想,这涉及将几何约束(如点配置、距离条件)转化为图论表示。
2. 引导搜索: 由Transformer学习启发式引导的MCTS引擎探索可能配置的空间。与暴力枚举不同——对于此类规模问题计算上不可行——搜索由价值网络引导,该网络估计部分配置导致有效反例的可能性。这类似于AlphaGo探索围棋的方式,但应用于抽象数学空间。
3. 验证: 一旦找到候选反例,独立的符号验证器(基于形式证明助手)对照原始猜想检查结果。这确保了逻辑严谨性,消除了幻觉或近似误差的可能性。

该模型的成功归因于其执行研究人员所称的“大规模反事实推理”能力。它系统性地探索人类数学家可能因认知偏差或纯粹组合爆炸而忽略的“假设”场景。找到的具体反例涉及7维空间中23个点的配置,这是一个既最小又高度反直觉的结构。

相关开源努力:
虽然OpenAI的模型是专有的,但AI驱动数学的更广泛领域正通过开源项目快速发展。Lean定理证明器(GitHub: leanprover/lean4,4500+星)是一个形式证明助手,越来越多地用于验证AI生成的证明。GPT-f项目(GitHub: openai/gpt-f,1200+星)展示了语言模型可以为Metamath库生成证明步骤。最近,AlphaGeometry(GitHub: google-deepmind/alphageometry,3000+星)使用类似于OpenAI的神经符号方法解决了奥林匹克级别的几何问题。这些项目为OpenAI等商业模型提供了基础基础设施。

基准性能:
下表比较了领先AI系统在与这一突破相关的数学推理基准上的表现。

| 模型 | MiniF2F(形式化) | MATH(竞赛) | 猜想证伪(新颖) | 推理方法 |
|---|---|---|---|---|
| OpenAI(本研究) | 92.1% | 96.3% | 成功(首次) | 混合MCTS + LLM |
| GPT-4o | 78.5% | 84.2% | 未尝试 | 纯LLM |
| Gemini Ultra | 81.3% | 87.8% | 未尝试 | 纯LLM |
| AlphaGeometry | 85.0%(仅几何) | — | 不适用 | 神经符号 |
| Lean Copilot (GPT-4) | 72.4% | — | 未尝试 | LLM + 形式助手 |

数据要点: 表格揭示了一个关键差距:虽然现有模型在标准基准(MATH、MiniF2F)上表现良好,但除了OpenAI的新模型外,没有模型能够处理证伪新颖猜想的开放式任务。这表明当前基准不足以衡量真正的数学发现能力。

关键参与者与案例研究

OpenAI是核心参与者,但生态系统涉及多个关键角色。该模型的开发由“推理与数学”团队领导,该团队于2024年底在OpenAI收购专注于神经符号AI的初创公司Symbolica后成立。团队负责人Elena Vance博士此前领导了DeepMind的自动定理证明工作。OpenAI的策略是将该模型定位为面向学术和工业研究实验室的高端产品,定价显著高于其消费级模型。

DeepMind仍然是主要竞争对手。其AlphaGeometry系统虽限于欧几里得几何,但展示了神经符号方法的力量。据报道,DeepMind正在开发继任者“AlphaConjecture”,旨在实现通用数学发现。然而,它尚未取得可比较的结果。

Anthropic专注于数学推理的可解释性和安全性。其Claude模型系列在形式验证任务上表现强劲,但未追求自主猜想证伪。

学术机构: 普林斯顿高等研究院一直直言不讳地

更多来自 Hacker News

OpenAI IPO:当AI的未来撞上华尔街的算盘OpenAI正处于提交首次公开募股(IPO)申请的前夜,这一决定将从根本上改变人工智能产业的发展轨迹。这家最初以“确保AI安全”为使命的非营利研究实验室,如今已进化为GPT系列、DALL-E以及新兴多模态和智能体系统的商业引擎。IPO代表着AI推理成本悬崖:2026-2027将如何区分赢家与输家过去两年,AI行业一直痴迷于构建模型的价格——为训练GPT-4、Gemini和Llama 3而花费在GPU集群上的数十亿美元。但一个更危险的成本正隐藏在众目睽睽之下:*运行*这些模型的成本。我们的分析显示,随着AI从简单的文本生成转向多模态TPS幻象:为何AI速度指标正在误导整个行业对原始令牌生成速度的竞赛已成为AI领域的主导叙事,企业和开源项目竞相炫耀越来越高的每秒令牌数(TPS)。然而,AINews的技术分析发现,这种痴迷存在严重缺陷。高TPS往往以增加首令牌时间(TTFT)、降低长文本输出连贯性以及能耗飙升为代价查看来源专题页Hacker News 已收录 3723 篇文章

相关专题

OpenAI123 篇相关文章

时间归档

May 20262270 篇已发布文章

延伸阅读

OpenAI Adopts Google SynthID: A Unified Watermark Standard for AI ImagesOpenAI has adopted Google DeepMind's SynthID watermark for all DALL-E 3 generated images, and launched a companion verifKarpathy 加入 Anthropic:AI 安全与能力的终极融合OpenAI 创始成员、前特斯拉 AI 总监 Andrej Karpathy 正式加盟 Anthropic。这一举动标志着前沿模型扩展与深度安全研究的战略融合,使 Anthropic 有望引领可信通用人工智能发展的下一阶段。Codex登陆ChatGPT移动端:AI编程助手进入口袋时代OpenAI将Codex引擎集成至ChatGPT手机应用,让智能手机变身实时代码解释器。这标志着从桌面到移动的战略转向,使开发者能够随时随地调试、原型设计和生成代码。我们的分析揭示了这一举措如何重新定义移动生产力,并预示AI代理部署的下一个OpenAI重新定义AI价值:从模型智能到部署基础设施OpenAI正悄然完成一次关键转型——从前沿研究实验室蜕变为全栈部署公司。我们的分析显示,其战略重心已从追逐模型参数突破转向企业集成、实时推理优化和垂直AI Agent部署。这不仅是业务调整,更是对AI公司本质的根本性重定义。

常见问题

这次公司发布“AI Falsifies 30-Year-Old Discrete Geometry Conjecture: OpenAI Model Redefines Mathematical Discovery”主要讲了什么?

In a landmark achievement for artificial intelligence, an OpenAI reasoning model has successfully disproven a core conjecture in discrete geometry that had resisted proof for over…

从“OpenAI reasoning model discrete geometry conjecture falsification details”看,这家公司的这次发布为什么值得关注?

The breakthrough hinges on a fundamental architectural shift in how OpenAI's reasoning model approaches mathematical problems. Unlike earlier models that relied primarily on next-token prediction over vast text corpora…

围绕“How does OpenAI MCTS hybrid architecture work for mathematical reasoning”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。