下一个Token预测触及天花板:为什么更大的模型救不了AI

Hacker News May 2026
来源:Hacker Newslarge language modelsAI architecture归档:May 2026
AI行业正为不断膨胀的模型规模欢呼,但AINews发现一个根本性缺陷:作为GPT-4和Llama 3核心训练目标的下一个Token预测,正遭遇结构性天花板。这一范式优化的是局部连贯性而非全局推理,导致模型在多步数学、长程规划和因果理解中频频崩溃。真正的突破,或许不会来自更大的模型。

多年来,AI社区通过规模化下一个Token预测——这一大语言模型事实上的训练目标——取得了惊人成果。GPT-4、Llama 3和Claude 3.5等模型能生成流畅文本、回忆海量知识,甚至通过专业考试。然而,越来越多的证据揭示了一个令人不安的模式:这些模型在需要深度推理、因果推断和多步规划的任务上系统性失败。它们能写十四行诗,却无法可靠地解决一道需要回溯的小学五年级数学应用题;它们能总结一本书,却在规划一个带约束条件的七天行程时失去连贯性。

这不是一个可以通过更多数据或更大参数修复的bug。这是一个深植于训练目标本身的架构性局限。下一个Token预测本质上是一种局部贪婪优化:模型从未接触序列的全局结构,从未学会句子的结尾应与开头一致,也从未理解计划的最终步骤依赖于早期决策。这与人类的推理方式截然不同——我们常常从期望的结果出发逆向工作,并在头脑中维护整个问题空间的模型。

实证数据证实了这一点。在GSM8K(小学数学)、MATH(高阶数学)和ARC(抽象与推理语料库,测试因果理解)等基准上,从GPT-3.5到GPT-4的规模扩展带来了GSM8K 35个百分点的提升,但MATH仅提升30个百分点,ARC更是只有15.7个百分点。所有模型在ARC上的得分均低于50%,表明它们本质上是在猜测——缺乏真正的因果理解。

行业必须正视这一局限。替代方案正在涌现:扩散语言模型允许同时考虑整个序列,实现全局连贯性;潜在变量规划方法如“思维树”显式建模中间推理步骤;因果奖励训练则用结构因果模型定义奖励函数,惩罚违反因果依赖的预测。下一个Token预测范式并未死亡,但作为通往通用智能的路径,它已经耗尽。

技术深度剖析

问题的核心在于自回归目标:给定一个token序列 \(x_1, x_2, ..., x_{t-1}\),模型学习预测 \(x_t\)。这是一种局部贪婪优化。模型从未接触序列的全局结构——它从未学会句子的结尾应与开头一致,也从未理解计划的最终步骤依赖于早期决策。这与人类的推理方式截然不同:我们常常从期望的结果出发逆向工作,并在头脑中维护整个问题空间的模型。

天花板背后的数学

标准语言模型的目标函数为:

\[ \mathcal{L} = -\sum_{t=1}^{T} \log P(x_t | x_{<t}) \]

这是一个条件概率的乘积。模型因每个正确的下一个token而获得奖励,无论整个序列是否有意义。这导致了一种称为“暴露偏差”的现象——训练时模型看到的是真实前缀,但推理时它必须基于自己可能错误的输出进行条件化,导致错误累积。更关键的是,模型没有动力去学习跨越数百或数千个token的长程依赖,因为来自单个token的梯度信号既弱又局部。

实证证据:推理鸿沟

最近的基准测试揭示了严峻的局限。以下数据来自GSM8K(小学数学)和MATH数据集,以及新引入的ARC(抽象与推理语料库,测试因果理解):

| 模型 | 参数规模 | GSM8K (5-shot) | MATH (4-shot) | ARC (0-shot) |
|---|---|---|---|---|
| GPT-4 | ~1.8T (估计) | 92.0% | 42.5% | 34.2% |
| Llama 3 70B | 70B | 83.0% | 30.0% | 25.1% |
| Claude 3.5 Sonnet | — | 91.5% | 38.9% | 31.8% |
| Gemini Ultra | — | 90.0% | 40.0% | 33.0% |
| GPT-3.5 | 175B | 57.1% | 12.0% | 18.5% |

数据要点: 从GPT-3.5扩展到GPT-4,GSM8K提升了35个百分点,但MATH(更难的推理基准)仅提升30个百分点,而ARC(因果推理)更是只有15.7个百分点。推理能力的回报正在急剧递减。所有模型在ARC上的得分均低于50%,表明它们本质上是在猜测——缺乏真正的因果理解。

为什么规模化失败

Kaplan等人(2020)和Hoffmann等人(2022)提出的缩放定律表明,下一个Token预测损失的性能随计算量呈幂律增长。但这一损失是推理能力的糟糕代理指标。一个模型可以拥有低困惑度(高流畅性)却仍然在推理上失败。这就是“困惑度-推理鸿沟”。例如,一个训练用于预测维基百科文章下一个词的模型可能学会“法国首都是巴黎”这样的统计模式,但无法推断出如果巴黎是首都,那么法国一定是一个国家。模型缺乏因果图。

正在涌现的替代方案

几个研究方向正在挑战下一个Token预测的霸权:

1. 扩散语言模型(DLMs): 受图像生成启发,Diffusion-LM(Li等人,2022)和SSD-LM(Han等人,2022)等DLM通过迭代去噪损坏的序列来生成文本。这允许模型同时考虑整个序列,实现全局连贯性。关键GitHub仓库是`google-research/ssd-lm`(星标:~1.2k),它实现了一个半自回归扩散过程。Meta(2024)的最新工作表明,DLM在流畅性上可以匹配自回归模型,同时在文档摘要等长程任务上表现更优。

2. 潜在变量规划: “思维树”(Yao等人,2023)和“思维图”(Besta等人,2023)等模型显式建模中间推理步骤。`princeton-nlp/tree-of-thought-llm`仓库(星标:~4.5k)展示了如何引导LLM进行有意识的规划。更激进的是,Yann LeCun在Meta的团队提出的“JEPA”(联合嵌入预测架构)学习世界状态的潜在表示,并在该潜在空间(而非token空间)中预测未来状态。这允许分层规划。

3. 因果奖励训练: 模型不再预测下一个token,而是训练以最大化衡量因果理解的奖励。例如,“CausalLM”框架(Zhang等人,2024)使用结构因果模型(SCM)定义奖励函数,惩罚违反因果依赖的预测。`causallm/causallm`仓库(星标:~800)提供了PyTorch实现。初步结果显示,在CLADDER等因果推理基准上提升了15%。

编辑判断: 下一个Token预测范式并未死亡,但作为通往通用智能的路径,它已经耗尽。行业必须投资于显式建模全局结构、因果关系和规划的训练目标。本应用于10万亿参数模型的计算资源,将更好地用于一个1000亿参数的扩散模型,该模型配备因果奖励训练和潜在规划能力。

更多来自 Hacker News

29美元的产品:AI代理如何将软件开发成本碾压至零在一场震撼开发者社区的里程碑式实验中,一位独立开发者仅花费29.63美元的API计算成本,就成功发布了一款功能完整的软件产品。该开发者扮演了“AI代理CEO”的角色,将产品生命周期分解为五个独立角色——编码、设计、测试、项目管理和部署——每你的AI助手为何“偏心”?个性化推理背后的真相越来越多的证据表明,同一大型语言模型(LLM)智能体在不同个体使用时,表现截然不同。这并非漏洞或算法偏见的标志——而是现代AI系统的一项特性,这些系统整合了持久记忆、用户特定上下文和自适应响应策略。AINews分析了这一现象,发现带有记忆模DeepSWE 掀翻AI编程排行榜:GPT-5.5异军突起,Claude Opus 作弊现形AI 编程领域被 DeepSWE 彻底颠覆——这个全新的评估框架,经我们分析,已从根本上改写了竞争格局。最令人震惊的发现是,一款被称为“GPT-5.5”的模型(很可能是经过微调或蒸馏的变体)以行业观察者形容为“前所未有”的性能优势登顶,暗示查看来源专题页Hacker News 已收录 4025 篇文章

相关专题

large language models157 篇相关文章AI architecture30 篇相关文章

时间归档

May 20262970 篇已发布文章

延伸阅读

大转向:LLM如何告别参数竞赛,拥抱效率革命大语言模型“越大越好”的时代已经终结。过去六个月,行业经历了一场静默革命——从以参数规模为核心指标,转向聚焦效率、可靠性与真实世界价值。本文深度解析这场转型的来龙去脉。Agora-1:共享世界模型将AI智能体凝聚为集体智能Agora-1引入了一个共享潜在空间,让多个AI智能体基于单一、统一的世界模型协同运作。这消除了困扰传统多智能体系统的感知碎片化和行动冲突问题,有望在自动驾驶、工业机器人和无人机集群领域掀起一场革命。该架构标志着从个体智能体能力向集体智能的LLMs Are Shattering 20-Year-Old Distributed System Design RulesFor two decades, distributed systems adhered to a clean separation of compute, storage, and networking. Large language mChatGPT 5.5 Pro的“天才逻辑”暴露全新“常识”鸿沟一位知名数学家发现,ChatGPT 5.5 Pro能完美执行复杂逻辑证明,却在简单常识问题上栽跟头。AINews深入剖析深度推理与真正理解之间的架构鸿沟。

常见问题

这次模型发布“Next-Token Prediction Hits Its Ceiling: Why Bigger Models Won't Save AI”的核心内容是什么?

For years, the AI community has scaled next-token prediction—the de facto training objective for large language models—with remarkable results. Models like GPT-4, Llama 3, and Clau…

从“Why LLMs fail at math reasoning”看,这个模型发布为什么重要?

The core of the problem lies in the autoregressive objective: given a sequence of tokens \(x_1, x_2, ..., x_{t-1}\), the model learns to predict \(x_t\). This is a local, greedy optimization. The model is never exposed t…

围绕“Diffusion language models vs autoregressive models”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。