下一个Token预测触及天花板：为什么更大的模型救不了AI

Q: 围绕“Diffusion language models vs autoregressive models”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

2026年5月27日 11:32 AINews Hacker News May 2026

来源：Hacker News large language models AI architecture 归档：May 2026

AI行业正为不断膨胀的模型规模欢呼，但AINews发现一个根本性缺陷：作为GPT-4和Llama 3核心训练目标的下一个Token预测，正遭遇结构性天花板。这一范式优化的是局部连贯性而非全局推理，导致模型在多步数学、长程规划和因果理解中频频崩溃。真正的突破，或许不会来自更大的模型。

多年来，AI社区通过规模化下一个Token预测——这一大语言模型事实上的训练目标——取得了惊人成果。GPT-4、Llama 3和Claude 3.5等模型能生成流畅文本、回忆海量知识，甚至通过专业考试。然而，越来越多的证据揭示了一个令人不安的模式：这些模型在需要深度推理、因果推断和多步规划的任务上系统性失败。它们能写十四行诗，却无法可靠地解决一道需要回溯的小学五年级数学应用题；它们能总结一本书，却在规划一个带约束条件的七天行程时失去连贯性。

这不是一个可以通过更多数据或更大参数修复的bug。这是一个深植于训练目标本身的架构性局限。下一个Token预测本质上是一种局部贪婪优化：模型从未接触序列的全局结构，从未学会句子的结尾应与开头一致，也从未理解计划的最终步骤依赖于早期决策。这与人类的推理方式截然不同——我们常常从期望的结果出发逆向工作，并在头脑中维护整个问题空间的模型。

实证数据证实了这一点。在GSM8K（小学数学）、MATH（高阶数学）和ARC（抽象与推理语料库，测试因果理解）等基准上，从GPT-3.5到GPT-4的规模扩展带来了GSM8K 35个百分点的提升，但MATH仅提升30个百分点，ARC更是只有15.7个百分点。所有模型在ARC上的得分均低于50%，表明它们本质上是在猜测——缺乏真正的因果理解。

行业必须正视这一局限。替代方案正在涌现：扩散语言模型允许同时考虑整个序列，实现全局连贯性；潜在变量规划方法如“思维树”显式建模中间推理步骤；因果奖励训练则用结构因果模型定义奖励函数，惩罚违反因果依赖的预测。下一个Token预测范式并未死亡，但作为通往通用智能的路径，它已经耗尽。

技术深度剖析

问题的核心在于自回归目标：给定一个token序列 \(x_1, x_2, ..., x_{t-1}\)，模型学习预测 \(x_t\)。这是一种局部贪婪优化。模型从未接触序列的全局结构——它从未学会句子的结尾应与开头一致，也从未理解计划的最终步骤依赖于早期决策。这与人类的推理方式截然不同：我们常常从期望的结果出发逆向工作，并在头脑中维护整个问题空间的模型。

天花板背后的数学

标准语言模型的目标函数为：

\[ \mathcal{L} = -\sum_{t=1}^{T} \log P(x_t | x_{<t}) \]

这是一个条件概率的乘积。模型因每个正确的下一个token而获得奖励，无论整个序列是否有意义。这导致了一种称为“暴露偏差”的现象——训练时模型看到的是真实前缀，但推理时它必须基于自己可能错误的输出进行条件化，导致错误累积。更关键的是，模型没有动力去学习跨越数百或数千个token的长程依赖，因为来自单个token的梯度信号既弱又局部。

实证证据：推理鸿沟

最近的基准测试揭示了严峻的局限。以下数据来自GSM8K（小学数学）和MATH数据集，以及新引入的ARC（抽象与推理语料库，测试因果理解）：

| 模型 | 参数规模 | GSM8K (5-shot) | MATH (4-shot) | ARC (0-shot) |
|---|---|---|---|---|
| GPT-4 | ~1.8T (估计) | 92.0% | 42.5% | 34.2% |
| Llama 3 70B | 70B | 83.0% | 30.0% | 25.1% |
| Claude 3.5 Sonnet | — | 91.5% | 38.9% | 31.8% |
| Gemini Ultra | — | 90.0% | 40.0% | 33.0% |
| GPT-3.5 | 175B | 57.1% | 12.0% | 18.5% |

数据要点： 从GPT-3.5扩展到GPT-4，GSM8K提升了35个百分点，但MATH（更难的推理基准）仅提升30个百分点，而ARC（因果推理）更是只有15.7个百分点。推理能力的回报正在急剧递减。所有模型在ARC上的得分均低于50%，表明它们本质上是在猜测——缺乏真正的因果理解。

为什么规模化失败

Kaplan等人（2020）和Hoffmann等人（2022）提出的缩放定律表明，下一个Token预测损失的性能随计算量呈幂律增长。但这一损失是推理能力的糟糕代理指标。一个模型可以拥有低困惑度（高流畅性）却仍然在推理上失败。这就是“困惑度-推理鸿沟”。例如，一个训练用于预测维基百科文章下一个词的模型可能学会“法国首都是巴黎”这样的统计模式，但无法推断出如果巴黎是首都，那么法国一定是一个国家。模型缺乏因果图。

正在涌现的替代方案

几个研究方向正在挑战下一个Token预测的霸权：

1. 扩散语言模型（DLMs）： 受图像生成启发，Diffusion-LM（Li等人，2022）和SSD-LM（Han等人，2022）等DLM通过迭代去噪损坏的序列来生成文本。这允许模型同时考虑整个序列，实现全局连贯性。关键GitHub仓库是`google-research/ssd-lm`（星标：~1.2k），它实现了一个半自回归扩散过程。Meta（2024）的最新工作表明，DLM在流畅性上可以匹配自回归模型，同时在文档摘要等长程任务上表现更优。

2. 潜在变量规划： “思维树”（Yao等人，2023）和“思维图”（Besta等人，2023）等模型显式建模中间推理步骤。`princeton-nlp/tree-of-thought-llm`仓库（星标：~4.5k）展示了如何引导LLM进行有意识的规划。更激进的是，Yann LeCun在Meta的团队提出的“JEPA”（联合嵌入预测架构）学习世界状态的潜在表示，并在该潜在空间（而非token空间）中预测未来状态。这允许分层规划。

3. 因果奖励训练： 模型不再预测下一个token，而是训练以最大化衡量因果理解的奖励。例如，“CausalLM”框架（Zhang等人，2024）使用结构因果模型（SCM）定义奖励函数，惩罚违反因果依赖的预测。`causallm/causallm`仓库（星标：~800）提供了PyTorch实现。初步结果显示，在CLADDER等因果推理基准上提升了15%。

编辑判断： 下一个Token预测范式并未死亡，但作为通往通用智能的路径，它已经耗尽。行业必须投资于显式建模全局结构、因果关系和规划的训练目标。本应用于10万亿参数模型的计算资源，将更好地用于一个1000亿参数的扩散模型，该模型配备因果奖励训练和潜在规划能力。

时间归档

常见问题

这次模型发布“Next-Token Prediction Hits Its Ceiling: Why Bigger Models Won't Save AI”的核心内容是什么？

For years, the AI community has scaled next-token prediction—the de facto training objective for large language models—with remarkable results. Models like GPT-4, Llama 3, and Clau…

从“Why LLMs fail at math reasoning”看，这个模型发布为什么重要？

The core of the problem lies in the autoregressive objective: given a sequence of tokens \(x_1, x_2, ..., x_{t-1}\), the model learns to predict \(x_t\). This is a local, greedy optimization. The model is never exposed t…

围绕“Diffusion language models vs autoregressive models”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

下一个Token预测触及天花板：为什么更大的模型救不了AI

技术深度剖析

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题