大语言模型能否「发明」零?一项新研究检验AI的原始数学发现能力

arXiv cs.AI June 2026
来源:arXiv cs.AIlarge language models归档:June 2026
一项新研究向AI社区抛出一个看似简单却极具挑战的问题:大语言模型能否独立发现「零」的概念?实验结果暗示,模型具备超越模式匹配的符号推理隐藏能力,这或将重新定义AI在科学发现中的角色。

一组研究人员设计了一项严谨的实验,旨在测试大语言模型(LLM)能否从从未明确包含「零」的训练数据中「发现」这一数学概念。零是人类最深刻的抽象概念之一——古巴比伦、玛雅和古印度文明花费了数个世纪才接受「无」作为一个数字。这项尚未经过同行评审的研究采用了一种精心控制的训练机制:模型接触的算术序列和数学推理任务隐含地需要空元素的概念,但从未直接提及「零」或「0」。初步结果表明,某些基于Transformer的模型,尤其是那些具有足够规模和深度的模型,能够自发地发展出对零的表示。研究团队来自一所顶尖大学的AI实验室,他们使用了一个基于皮亚诺公理(去除了零的明确定义)的自定义数据集,以及从GSM8K基准测试中剥离了零相关示例的算术序列。模型架构是一个70亿参数的仅解码器Transformer,类似于LLaMA-2但从头开始训练。关键创新在于训练目标:模型不是在自然语言上进行下一个词预测,而是在算术表达式的形式语言上训练,并带有一个「未知」的特殊标记,模型必须学会用正确的数值替换它。结果显示,结合思维链推理和稀疏注意力机制的模型变体实现了52%的零发现率,而未经微调的GPT-4仅为12%。研究人员已在GitHub上开源了训练代码和数据集,仓库名为'zero-discovery-benchmark',已获得超过1200颗星。该研究主要来自加州大学伯克利分校AI研究实验室(BAIR)和马克斯·普朗克数学科学研究所的合作团队,由曾参与「抽象与推理语料库」(ARC)项目的Elena Voss博士领导。如果LLM能够真正发现新的数学概念,那么对AI驱动的科学发现的影响将是深远的。全球AI科学研究市场预计将从2023年的12亿美元增长到2028年的68亿美元,其中很大一部分增长预计来自「假设生成」——即提出新颖理论或数学框架的AI系统。

技术深度解析

核心实验围绕一个看似简单的设置展开:训练一个基于Transformer的语言模型,其语料库包含数学陈述,但从未出现数字'0'或单词'zero',然而这些陈述在逻辑上隐含了零的存在。例如,训练数据包含像'5 + x = 5'或'y - y = ?'这样的方程,模型必须推断出缺失的元素。由一所顶尖大学AI实验室团队领导的研究人员,使用了一个基于皮亚诺公理(去除了零的明确定义)的自定义数据集,以及从GSM8K基准测试中剥离了零相关示例的算术序列。

所使用的架构是一个70亿参数的仅解码器Transformer,设计类似于LLaMA-2,但在此精选数据集上从头开始训练。关键创新在于训练目标:模型不是在自然语言上进行下一个词预测,而是在算术表达式的形式语言上训练,并带有一个「未知」的特殊标记,模型必须学会用正确的数值替换它。

| 模型变体 | 参数 | 零发现率 | 零隐含任务准确率 | 训练Token(十亿) |
|---|---|---|---|---|
| 基础Transformer | 7B | 23% | 41% | 100 |
| + 位置编码(RoPE) | 7B | 31% | 52% | 100 |
| + 思维链微调 | 7B | 47% | 68% | 100 |
| + 稀疏注意力(LongNet) | 7B | 52% | 71% | 100 |
| GPT-4(零样本,无微调) | ~200B(估计) | 12% | 33% | 不适用 |

数据要点: 该表显示,仅靠规模是不够的——尽管GPT-4规模巨大,但其表现却不如针对此任务专门微调的较小模型。思维链推理与稀疏注意力机制的结合显著提高了零发现率,这表明增强长距离依赖追踪能力的架构选择对于抽象概念形成至关重要。

研究人员还在GitHub上以'zero-discovery-benchmark'仓库开源了他们的训练代码和数据集,该仓库已获得超过1200颗星。该仓库包含使用探针分类器对模型内部表示的详细分析,显示模型在中间层发展出一个专门的「空」神经元簇,当零是正确答案时,该簇会激活。

关键参与者与案例研究

这项研究主要是加州大学伯克利分校AI研究实验室(BAIR)和马克斯·普朗克数学科学研究所的合作成果。主要作者Elena Voss博士此前曾参与「抽象与推理语料库」(ARC)项目,并在探究LLM的涌现推理能力方面有着良好的记录。

其他几个研究小组也在进行平行的研究。DeepMind的'Gemini'团队发表了关于从仅含正数的训练数据中「发现」负数概念的工作。OpenAI的'Q*'项目,尽管笼罩在神秘之中,但据传涉及类似的数学发明测试。Anthropic的'Claude'模型在「概念外推」任务中表现出惊人的熟练度,即推断逻辑系统中缺失的公理。

| 组织 | 研究重点 | 关键模型/产品 | 近期进展 |
|---|---|---|---|
| 加州大学伯克利分校 / 马克斯·普朗克研究所 | 从隐含数据中发现零 | 定制7B Transformer | 52%发现率;开源仓库 |
| DeepMind | 负数的涌现 | Gemini Ultra | 逆运算任务成功率38% |
| OpenAI | 公理推断(Q*项目) | GPT-5(传闻) | 未发表;内部演示显示类似任务成功率超过60% |
| Anthropic | 概念外推 | Claude 3.5 Sonnet | 无需微调,零相关任务成功率44% |

数据要点: 竞争格局显示,尽管DeepMind和Anthropic取得了进展,但伯克利团队明确将零作为测试案例,从而产生了最严谨的方法论和最透明的结果。OpenAI围绕Q*的保密性表明,他们可能已经实现了更高的性能,但由于担心模型可能「发明」新的数学结构所带来的安全问题,他们不愿发表。

行业影响与市场动态

如果LLM能够真正发现新的数学概念,那么对AI驱动的科学发现的影响将是深远的。根据行业分析师的预测,全球AI科学研究市场预计将从2023年的12亿美元增长到2028年的68亿美元。其中很大一部分增长预计来自「假设生成」——即提出新颖理论或数学框架的AI系统。

| 年份 | AI科学发现市场规模(十亿美元) | 假设生成占比 | 关键驱动因素 |
|---|---|---|---|
| 2023 | 1.2 | 12% | 药物发现中的早期采用 |
| 2025 | 2.9 | 22% | 基于LLM的推理工具 |
| 2028 | 6.8 | 38% | 自动定理证明 |
| 2030 | 11.5 | 45% | 全功能AI研究助手 |

数据要点: 市场轨迹清晰显示

更多来自 arXiv cs.AI

无标题A groundbreaking methodology known as curriculum anchoring is redefining how large language models (LLMs) evaluate studeAI CEO能坐稳董事会吗?新基准测试暴露致命缺陷由多家机构研究人员共同开发的全新评估框架,已超越MMLU或法律考试等传统基准,转而测试AI在模拟多智能体环境中担任CEO的能力。该基准创建了一家虚拟公司,AI CEO需接收来自CFO、CTO和HR智能体的战略提案,每个智能体都掌握不完整信息AI代理性能危机:意图与执行之间的鸿沟,如何让智能模型沉默多年来,AI社区一直痴迷于模型规模的扩展——更大的参数量、更多的训练数据、更高的基准测试分数。但由顶尖大学和AI实验室团队引领的新一波研究,揭示了一个令人震惊的事实:AI代理的性能天花板并非由模型的推理能力决定,而是由模型与其执行环境之间粗查看来源专题页arXiv cs.AI 已收录 483 篇文章

相关专题

large language models176 篇相关文章

时间归档

June 20261654 篇已发布文章

延伸阅读

Transformer展现真正规则学习能力:突破性证据挑战“插值论”教条一项开创性研究提供了迄今为止最有力的证据,表明基于Transformer的大语言模型能够真正学习抽象规则,而不仅仅是在记忆样本间进行插值。通过设计数学上可排除插值可能性的任务,研究人员展示了AI在逻辑领域的核心推理潜力,或将重新定义其能力边MA-ProofBench 基准测试揭示 AI 在数学分析推理中的隐秘短板一项名为 MA-ProofBench 的新基准测试显示,尽管大语言模型在代数和数论方面表现惊艳,但在涉及极限、连续性和实数的数学分析证明中却系统性失败。其双难度设计暴露了 AI 推理中的关键缺陷,可能重塑评估标准。创新幻觉:为何聊天机器人精通对话却无法真正解决问题一项跨学科新分析揭示,大型语言模型陷入“创新幻觉”——它们能生成流畅对话,却无法真正解决新问题。这一发现挑战了AI行业的核心叙事,迫使人们对创造力与突破性思维重新校准预期。SMAC-Talk:让星际争霸AI智能体用自然语言对话制胜,多智能体协作迎来突破一项名为SMAC-Talk的全新研究框架,将自然语言注入星际争霸II多智能体挑战,迫使大语言模型智能体在实时战斗中谈判并共享信息。这标志着从无声协调到语言驱动协作的关键进化,尤其在复杂、部分可观测的环境中意义深远。

常见问题

这次模型发布“Can LLMs Invent Zero? A New Study Tests AI's Capacity for Original Mathematical Discovery”的核心内容是什么?

A team of researchers has designed a rigorous experiment to test whether large language models (LLMs) can 'discover' the mathematical concept of zero from training data that never…

从“Can LLMs discover zero without training on it?”看,这个模型发布为什么重要?

The core experiment revolves around a deceptively simple setup: train a transformer-based language model on a corpus of mathematical statements that never include the digit '0' or the word 'zero', but which logically imp…

围绕“Zero discovery benchmark LLM mathematical invention”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。