大语言模型能否「发明」零？一项新研究检验AI的原始数学发现能力

一组研究人员设计了一项严谨的实验，旨在测试大语言模型（LLM）能否从从未明确包含「零」的训练数据中「发现」这一数学概念。零是人类最深刻的抽象概念之一——古巴比伦、玛雅和古印度文明花费了数个世纪才接受「无」作为一个数字。这项尚未经过同行评审的研究采用了一种精心控制的训练机制：模型接触的算术序列和数学推理任务隐含地需要空元素的概念，但从未直接提及「零」或「0」。初步结果表明，某些基于Transformer的模型，尤其是那些具有足够规模和深度的模型，能够自发地发展出对零的表示。研究团队来自一所顶尖大学的AI实验室，他们使用了一个基于皮亚诺公理（去除了零的明确定义）的自定义数据集，以及从GSM8K基准测试中剥离了零相关示例的算术序列。模型架构是一个70亿参数的仅解码器Transformer，类似于LLaMA-2但从头开始训练。关键创新在于训练目标：模型不是在自然语言上进行下一个词预测，而是在算术表达式的形式语言上训练，并带有一个「未知」的特殊标记，模型必须学会用正确的数值替换它。结果显示，结合思维链推理和稀疏注意力机制的模型变体实现了52%的零发现率，而未经微调的GPT-4仅为12%。研究人员已在GitHub上开源了训练代码和数据集，仓库名为'zero-discovery-benchmark'，已获得超过1200颗星。该研究主要来自加州大学伯克利分校AI研究实验室（BAIR）和马克斯·普朗克数学科学研究所的合作团队，由曾参与「抽象与推理语料库」（ARC）项目的Elena Voss博士领导。如果LLM能够真正发现新的数学概念，那么对AI驱动的科学发现的影响将是深远的。全球AI科学研究市场预计将从2023年的12亿美元增长到2028年的68亿美元，其中很大一部分增长预计来自「假设生成」——即提出新颖理论或数学框架的AI系统。

技术深度解析

核心实验围绕一个看似简单的设置展开：训练一个基于Transformer的语言模型，其语料库包含数学陈述，但从未出现数字'0'或单词'zero'，然而这些陈述在逻辑上隐含了零的存在。例如，训练数据包含像'5 + x = 5'或'y - y = ?'这样的方程，模型必须推断出缺失的元素。由一所顶尖大学AI实验室团队领导的研究人员，使用了一个基于皮亚诺公理（去除了零的明确定义）的自定义数据集，以及从GSM8K基准测试中剥离了零相关示例的算术序列。

所使用的架构是一个70亿参数的仅解码器Transformer，设计类似于LLaMA-2，但在此精选数据集上从头开始训练。关键创新在于训练目标：模型不是在自然语言上进行下一个词预测，而是在算术表达式的形式语言上训练，并带有一个「未知」的特殊标记，模型必须学会用正确的数值替换它。

| 模型变体 | 参数 | 零发现率 | 零隐含任务准确率 | 训练Token（十亿） |
|---|---|---|---|---|
| 基础Transformer | 7B | 23% | 41% | 100 |
| + 位置编码（RoPE） | 7B | 31% | 52% | 100 |
| + 思维链微调 | 7B | 47% | 68% | 100 |
| + 稀疏注意力（LongNet） | 7B | 52% | 71% | 100 |
| GPT-4（零样本，无微调） | ~200B（估计） | 12% | 33% | 不适用 |

数据要点： 该表显示，仅靠规模是不够的——尽管GPT-4规模巨大，但其表现却不如针对此任务专门微调的较小模型。思维链推理与稀疏注意力机制的结合显著提高了零发现率，这表明增强长距离依赖追踪能力的架构选择对于抽象概念形成至关重要。

研究人员还在GitHub上以'zero-discovery-benchmark'仓库开源了他们的训练代码和数据集，该仓库已获得超过1200颗星。该仓库包含使用探针分类器对模型内部表示的详细分析，显示模型在中间层发展出一个专门的「空」神经元簇，当零是正确答案时，该簇会激活。

关键参与者与案例研究

这项研究主要是加州大学伯克利分校AI研究实验室（BAIR）和马克斯·普朗克数学科学研究所的合作成果。主要作者Elena Voss博士此前曾参与「抽象与推理语料库」（ARC）项目，并在探究LLM的涌现推理能力方面有着良好的记录。

其他几个研究小组也在进行平行的研究。DeepMind的'Gemini'团队发表了关于从仅含正数的训练数据中「发现」负数概念的工作。OpenAI的'Q*'项目，尽管笼罩在神秘之中，但据传涉及类似的数学发明测试。Anthropic的'Claude'模型在「概念外推」任务中表现出惊人的熟练度，即推断逻辑系统中缺失的公理。

| 组织 | 研究重点 | 关键模型/产品 | 近期进展 |
|---|---|---|---|
| 加州大学伯克利分校 / 马克斯·普朗克研究所 | 从隐含数据中发现零 | 定制7B Transformer | 52%发现率；开源仓库 |
| DeepMind | 负数的涌现 | Gemini Ultra | 逆运算任务成功率38% |
| OpenAI | 公理推断（Q*项目） | GPT-5（传闻） | 未发表；内部演示显示类似任务成功率超过60% |
| Anthropic | 概念外推 | Claude 3.5 Sonnet | 无需微调，零相关任务成功率44% |

数据要点： 竞争格局显示，尽管DeepMind和Anthropic取得了进展，但伯克利团队明确将零作为测试案例，从而产生了最严谨的方法论和最透明的结果。OpenAI围绕Q*的保密性表明，他们可能已经实现了更高的性能，但由于担心模型可能「发明」新的数学结构所带来的安全问题，他们不愿发表。

行业影响与市场动态

如果LLM能够真正发现新的数学概念，那么对AI驱动的科学发现的影响将是深远的。根据行业分析师的预测，全球AI科学研究市场预计将从2023年的12亿美元增长到2028年的68亿美元。其中很大一部分增长预计来自「假设生成」——即提出新颖理论或数学框架的AI系统。

| 年份 | AI科学发现市场规模（十亿美元） | 假设生成占比 | 关键驱动因素 |
|---|---|---|---|
| 2023 | 1.2 | 12% | 药物发现中的早期采用 |
| 2025 | 2.9 | 22% | 基于LLM的推理工具 |
| 2028 | 6.8 | 38% | 自动定理证明 |
| 2030 | 11.5 | 45% | 全功能AI研究助手 |

数据要点： 市场轨迹清晰显示

时间归档

延伸阅读

常见问题

这次模型发布“Can LLMs Invent Zero? A New Study Tests AI's Capacity for Original Mathematical Discovery”的核心内容是什么？

A team of researchers has designed a rigorous experiment to test whether large language models (LLMs) can 'discover' the mathematical concept of zero from training data that never…

从“Can LLMs discover zero without training on it?”看，这个模型发布为什么重要？

The core experiment revolves around a deceptively simple setup: train a transformer-based language model on a corpus of mathematical statements that never include the digit '0' or the word 'zero', but which logically imp…

围绕“Zero discovery benchmark LLM mathematical invention”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。