技术深度剖析
问题的核心在于自回归目标:给定一个token序列 \(x_1, x_2, ..., x_{t-1}\),模型学习预测 \(x_t\)。这是一种局部贪婪优化。模型从未接触序列的全局结构——它从未学会句子的结尾应与开头一致,也从未理解计划的最终步骤依赖于早期决策。这与人类的推理方式截然不同:我们常常从期望的结果出发逆向工作,并在头脑中维护整个问题空间的模型。
天花板背后的数学
标准语言模型的目标函数为:
\[ \mathcal{L} = -\sum_{t=1}^{T} \log P(x_t | x_{<t}) \]
这是一个条件概率的乘积。模型因每个正确的下一个token而获得奖励,无论整个序列是否有意义。这导致了一种称为“暴露偏差”的现象——训练时模型看到的是真实前缀,但推理时它必须基于自己可能错误的输出进行条件化,导致错误累积。更关键的是,模型没有动力去学习跨越数百或数千个token的长程依赖,因为来自单个token的梯度信号既弱又局部。
实证证据:推理鸿沟
最近的基准测试揭示了严峻的局限。以下数据来自GSM8K(小学数学)和MATH数据集,以及新引入的ARC(抽象与推理语料库,测试因果理解):
| 模型 | 参数规模 | GSM8K (5-shot) | MATH (4-shot) | ARC (0-shot) |
|---|---|---|---|---|
| GPT-4 | ~1.8T (估计) | 92.0% | 42.5% | 34.2% |
| Llama 3 70B | 70B | 83.0% | 30.0% | 25.1% |
| Claude 3.5 Sonnet | — | 91.5% | 38.9% | 31.8% |
| Gemini Ultra | — | 90.0% | 40.0% | 33.0% |
| GPT-3.5 | 175B | 57.1% | 12.0% | 18.5% |
数据要点: 从GPT-3.5扩展到GPT-4,GSM8K提升了35个百分点,但MATH(更难的推理基准)仅提升30个百分点,而ARC(因果推理)更是只有15.7个百分点。推理能力的回报正在急剧递减。所有模型在ARC上的得分均低于50%,表明它们本质上是在猜测——缺乏真正的因果理解。
为什么规模化失败
Kaplan等人(2020)和Hoffmann等人(2022)提出的缩放定律表明,下一个Token预测损失的性能随计算量呈幂律增长。但这一损失是推理能力的糟糕代理指标。一个模型可以拥有低困惑度(高流畅性)却仍然在推理上失败。这就是“困惑度-推理鸿沟”。例如,一个训练用于预测维基百科文章下一个词的模型可能学会“法国首都是巴黎”这样的统计模式,但无法推断出如果巴黎是首都,那么法国一定是一个国家。模型缺乏因果图。
正在涌现的替代方案
几个研究方向正在挑战下一个Token预测的霸权:
1. 扩散语言模型(DLMs): 受图像生成启发,Diffusion-LM(Li等人,2022)和SSD-LM(Han等人,2022)等DLM通过迭代去噪损坏的序列来生成文本。这允许模型同时考虑整个序列,实现全局连贯性。关键GitHub仓库是`google-research/ssd-lm`(星标:~1.2k),它实现了一个半自回归扩散过程。Meta(2024)的最新工作表明,DLM在流畅性上可以匹配自回归模型,同时在文档摘要等长程任务上表现更优。
2. 潜在变量规划: “思维树”(Yao等人,2023)和“思维图”(Besta等人,2023)等模型显式建模中间推理步骤。`princeton-nlp/tree-of-thought-llm`仓库(星标:~4.5k)展示了如何引导LLM进行有意识的规划。更激进的是,Yann LeCun在Meta的团队提出的“JEPA”(联合嵌入预测架构)学习世界状态的潜在表示,并在该潜在空间(而非token空间)中预测未来状态。这允许分层规划。
3. 因果奖励训练: 模型不再预测下一个token,而是训练以最大化衡量因果理解的奖励。例如,“CausalLM”框架(Zhang等人,2024)使用结构因果模型(SCM)定义奖励函数,惩罚违反因果依赖的预测。`causallm/causallm`仓库(星标:~800)提供了PyTorch实现。初步结果显示,在CLADDER等因果推理基准上提升了15%。
编辑判断: 下一个Token预测范式并未死亡,但作为通往通用智能的路径,它已经耗尽。行业必须投资于显式建模全局结构、因果关系和规划的训练目标。本应用于10万亿参数模型的计算资源,将更好地用于一个1000亿参数的扩散模型,该模型配备因果奖励训练和潜在规划能力。