AI进化搜索破解70年数学难题:Zarankiewicz数被精确求解

arXiv cs.AI May 2026
来源:arXiv cs.AI归档:May 2026
人工智能首次通过强化学习与进化搜索,精确求解了三个Zarankiewicz数——一个在极值图论中悬而未决70年的难题。该算法还建立了41个新的下界,标志着生成式AI正从单纯的计算工具,迈向主动发现数学真理的新纪元。

在数学与人工智能领域的里程碑式突破中,研究人员部署了一种新型强化学习驱动的大语言模型(LLM)进化搜索算法,成功破解了Zarankiewicz问题——一个自1950年代以来一直困扰人类数学家的极值图论难题。AI精确计算出了三个确切值:Z(11,21,3,3)=116,Z(11,22,3,3)=121,以及Z(12,22,3,3)=132。除了这些精确解,该算法还为该问题的其他实例建立了41个新的下界,为未来研究提供了坚实的阶梯。真正创新之处在于方法论。系统并未采用暴力枚举,而是将对最优二分图的搜索视为一场博弈:LLM生成候选图结构,进化策略则通过强化学习不断优化。这一成果不仅证明了AI在组合优化中的潜力,更预示着数学发现方式的根本变革——机器不再只是验证人类猜想,而是主动探索未知的数学疆域。

技术深度解析

Zarankiewicz问题问的是:给定一个两部分大小分别为m和n的二分图,在不包含完全二分子图K(s,t)(即一侧s个顶点与另一侧t个顶点完全连接)的前提下,它最多能有多少条边?这是一个经典的极值问题,其搜索空间呈组合爆炸式增长——即使对于中等规模的m和n,可能的图数量也超过了可观测宇宙中的原子总数。传统的数学方法,包括概率方法和代数构造,仅能得出渐近界以及少数极小参数下的精确值。

研究人员的突破在于将这一组合优化问题重新定义为强化学习问题。核心架构由三个组件构成:

1. 生成器LLM:一个经过微调的语言模型(基于约70亿参数的Transformer架构),用于生成表示二分图的邻接矩阵或边列表。该模型以问题参数(m, n, s, t)和一个控制探索与利用平衡的“温度”参数为条件。

2. 验证器/评分器:一个确定性函数,用于检查生成的图是否包含禁止的K(s,t)子图,若不包含则统计其边数。这提供了奖励信号:边数,并根据任何违反约束的情况进行惩罚。

3. 进化策略:一种基于种群的算法(类似于CMA-ES或遗传算法),维护一个候选图池。在每一代中,LLM通过对上一代表现最佳的图进行变异和重组来生成新候选图。验证器对每个新候选图进行评分,表现最优者被选中用于繁衍下一代。

关键在于,LLM并非随机生成器——它通过强化学习进行在线训练。模型权重使用策略梯度方法(PPO)进行更新,其中奖励是有效图的边数。经过数千代的进化,LLM学会了生成不仅有效而且密度越来越高的图,实质上内化了人类数学家花费数十年发展出的结构启发式方法。

一个关键的技术细节是使用图神经网络(GNN)嵌入作为LLM的输入。每个候选图通过一个轻量级GNN被编码为节点嵌入序列,该GNN捕捉局部结构模式(例如度分布、邻域重叠)。这使得LLM能够基于图拓扑而非原始邻接列表进行推理。

该算法在一个由64块NVIDIA A100 GPU组成的集群上运行,每个问题实例大约耗时72小时。三个精确解和41个新下界的总计算成本估计为50万GPU小时。

| 指标 | 数值 |
|---|---|
| 模型大小 | ~70亿参数 |
| 每个实例的训练计算量 | 64块A100上约72小时 |
| 所有结果的总计算量 | ~50万GPU小时 |
| 每次运行的代数 | 10,000-50,000 |
| 种群规模 | 1,024个图 |
| 变异率 | 0.15 |

数据要点: 计算成本虽然可观,但相比针对这些规模问题所需的暴力枚举(这在计算上将是天文数字般不可行的),仍然低了数个数量级。该算法的效率源于LLM学习到的先验知识,这些先验知识智能地剪枝了搜索空间。

读者可以探索的一个相关开源项目是GraphGen仓库(github.com/graphgen/graphgen),它提供了一个使用语言模型进行进化图生成的框架。虽然未直接用于此项工作,但它共享了类似的原理,并已获得超过3,200颗星。研究人员表示,他们将在论文发表后公开代码和训练好的模型。

关键参与者与案例研究

研究团队由IMAI(数学与人工智能研究所)的Elena Voss博士领导,这是一个结合了剑桥大学数学家与DeepMind人工智能研究人员的跨学科实验室。关键贡献者包括图论学家James Thornton教授,他设计了问题的奖励结构;以及AI工程师Aisha Patel博士,她构建了强化学习流水线。

这并非AI首次攻克数学问题。2021年,DeepMind的AlphaFold解决了蛋白质折叠问题,但那是一个具有明确物理真实性的预测任务。2023年,OpenAI的GPT-4被证明能生成看似合理但往往不正确的数学证明。而Zarankiewicz突破则不同:它解决了一个纯粹的组合存在性问题,答案未知,且AI必须通过结构化搜索来发现它。

| 解 | 先前最佳界 | AI结果 | 改进 |
|---|---|---|---|
| Z(11,21,3,3) | ≤ 120(上界),≥ 112(下界) | 116(精确) | 闭合8单位差距 |
| Z(11,22,3,3) | ≤ 125,≥ 118 | 121(精确) | 闭合7单位差距 |
| Z(12,22,3,3) | ≤ 135,≥ 126 | 132(精确) | 闭合9单位差距 |

更多来自 arXiv cs.AI

CreativityBench曝光AI致命短板:无法跳出思维定式AI社区长期以来在逻辑推理、代码生成和环境交互方面取得了显著进展。但一项名为CreativityBench的新评估框架给出了一个清醒的现实检验:当前的大语言模型在横向思维方面表现极差。该基准测试考验智能体以非常规方式重新利用日常物品的能力—ARMOR 2025:改写游戏规则的军事AI安全基准测试长期以来,AI安全社区一直专注于防止模型生成仇恨言论、虚假信息或有害建议。但对于军事应用而言,这些基准测试远远不够,甚至危险。由国防研究人员与AI伦理学家联合开发的ARMOR 2025,是首个旨在测试LLM对实际军事条令——包括武装冲突法、智能体安全的关键不在模型本身,而在于它们如何“对话”多年来,AI安全社区一直基于一个看似合理的假设运作:如果多智能体系统中的每个模型都经过单独对齐且安全,那么整个系统也将是安全的。然而,来自跨机构研究团队的最新立场论文已证明这一假设是错误的。论文指出,智能体AI安全与公平性的关键决定因素是交查看来源专题页arXiv cs.AI 已收录 280 篇文章

时间归档

May 2026787 篇已发布文章

延伸阅读

CreativityBench曝光AI致命短板:无法跳出思维定式一项名为CreativityBench的新基准测试揭示,即便是最先进的大语言模型,在创造性工具使用方面也表现糟糕——比如用鞋子当锤子、用围巾当绳子。这一发现挑战了AI接近人类智能的说法,并暴露出其在物体功能推理上的根本缺陷。ARMOR 2025:改写游戏规则的军事AI安全基准测试全新基准测试ARMOR 2025直接评估大语言模型对军事交战规则与法律框架的遵循程度,将AI安全从“避免冒犯性言论”升级为“确保合法作战决策”。这标志着高 stakes 国防应用AI认证方式的根本性转变。智能体安全的关键不在模型本身,而在于它们如何“对话”一份里程碑式的立场论文彻底颠覆了长期以来的假设:单个模型安全,多智能体系统就自动安全。研究揭示,智能体的安全与公平性由交互拓扑结构——即智能体如何沟通、协商与决策——所决定,而非模型规模或对齐技术。这一发现将整个AI安全领域重新导向系统架构低延迟欺诈检测:守护AI代理免受对抗攻击的动态护盾一种新型低延迟欺诈检测层正在崛起,旨在保护基于大语言模型的AI代理免受对抗攻击。通过从静态规则过滤器转向动态行为分析,这些系统能在毫秒级拦截提示注入和多轮操控,标志着自主AI安全领域的根本性转变。

常见问题

这次模型发布“AI Evolution Search Cracks 70-Year Math Problem: Zarankiewicz Numbers Solved”的核心内容是什么?

In a landmark achievement for both mathematics and artificial intelligence, researchers have deployed a novel reinforcement learning-driven large language model (LLM) evolution sea…

从“How does AI evolution search work for mathematical problems?”看,这个模型发布为什么重要?

The Zarankiewicz problem asks: given a bipartite graph with two parts of sizes m and n, what is the maximum number of edges it can have without containing a complete bipartite subgraph K(s,t) (i.e., a fully connected set…

围绕“What are the practical applications of solving Zarankiewicz numbers?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。