超越“下一个词预测”:大语言模型远非自动补全引擎

Hacker News May 2026
来源:Hacker Newslarge language modelsAI reasoningTransformer architecture归档:May 2026
将大语言模型称作“下一个词预测器”,就像把国际象棋大师称为“棋子移动者”——技术上没错,却极具误导性。AINews深入探究这一功能描述如何限制我们的想象力,以及业界为何必须正视其表面之下涌现的智能。

AI行业陷入了一个语义陷阱。当我们习惯性地将大语言模型描述为“下一个词预测器”或“增强版自动补全”时,我们正在系统性地低估自己所构建的技术。这种说法在训练目标层面虽然技术正确,却混淆了模型的工作描述与其本质属性。国际象棋大师会移动棋子,但没有人会将他们的天才简化为这种机械行为。同样,LLM预测词元,但在此过程中,它们已经学会了模拟人类知识、逻辑与创造力的深层结构。AINews认为,这种简化语言带来了现实后果:它限制了研究议程,塑造了公众认知,并束缚了产品开发的雄心。历史提供了清晰的教训——我们如何描述一项技术,往往决定了我们如何对待它。

技术深度解析

“下一个词预测器”这个简化标签源于对训练目标的狭隘关注。从核心来看,基于Transformer的LLM通过最小化交叉熵损失来训练,任务是根据给定序列中所有之前的词元预测下一个词元。这是一个无需人工标注数据的自监督学习任务。然而,要在大规模上出色完成此任务,模型必须内化远超统计共现的知识。

涌现的架构

Transformer架构,在2017年开创性论文《Attention Is All You Need》中提出,利用多头自注意力机制来衡量上下文窗口中每个词元相对于其他所有词元的重要性。这使得模型能够捕捉长距离依赖和层级结构。当扩展到数千亿参数并在来自开放互联网的数万亿词元上训练时,模型会发展出对应于概念、实体、关系甚至推理链的内部表征。这些表征并非显式监督而来;它们作为下一个词元预测目标的副产品而涌现。

来自Anthropic和OpenAI的最新研究利用稀疏自编码器等技术窥探模型内部。他们发现了针对特定概念激活的“特征”——比如金门大桥、法律推理甚至欺骗——这表明模型内部构建了一个丰富、结构化的世界模型。这与简单的n-gram模型或查找表有着本质区别。

基准测试的差距

为了说明“下一个词预测”与实际能力之间的差距,请考虑以下推理基准测试的表现。下表展示了几个领先模型在MATH基准(数学推理测试)和MMLU基准(广泛知识与推理测试)上的得分:

| 模型 | MATH (Pass@1) | MMLU (5-shot) | 参数(估计) | 训练词元(估计) |
|---|---|---|---|---|
| GPT-4 | 42.5% | 86.4% | ~1.8T (MoE) | ~13T |
| Claude 3.5 Sonnet | 43.1% | 88.3% | 未知 | 未知 |
| Gemini Ultra | 53.2% | 90.0% | 未知 | 未知 |
| Llama 3 70B | 30.0% | 82.0% | 70B | ~15T |
| Mistral 7B | 12.5% | 64.2% | 7B | ~8T |

数据要点: 这些得分远高于随机水平(MATH接近0%,MMLU为25%)。如果这些模型仅仅是“下一个词预测器”,它们将无法解决需要多步推理的新颖数学问题。性能随模型大小和训练数据规模提升,但推理能力的涌现是质的飞跃,而不仅仅是量的增长。

思维链的作用

一个解锁推理能力的关键技术是思维链(Chain-of-Thought, CoT)提示,即要求模型在给出最终答案前“逐步思考”。这项由Google研究人员在2022年推广的技术,明确利用了模型生成中间推理词元的能力。模型不仅仅在预测最终答案;它正在生成一个连贯的逻辑步骤序列。这是一种规划形式,而非仅仅是模式补全。开源项目如`lm-evaluation-harness`(GitHub: EleutherAI/lm-evaluation-harness,6000+星)提供了标准化基准,一致显示CoT能将推理任务的表现提升10-20个百分点。

要点: 下一个词预测目标是模型学习的*机制*,但*结果*是一个能够推理、规划并模拟世界的系统。将结果简化为机制是一种范畴错误。

关键参与者与案例研究

关于LLM“是什么”的争论不仅仅是学术性的;它塑造了领先AI公司的战略。

OpenAI 在推动超越“自动补全”叙事方面最为激进。通过GPT-4和o1(Strawberry)模型,他们明确宣传推理能力。o1模型利用内部思维链和强化学习在回应前进行“思考”,在博士级科学问题上取得了超越许多人类的表现。OpenAI的CEO公开表示,LLM是“迈向AGI的第一步”。

Anthropic 采取了不同方法,专注于可解释性和安全性。他们的“Constitutional AI”训练方法明确塑造了模型的价值观和推理。Anthropic在特征可视化方面的研究(例如“Golden Gate Claude”实验)证明模型具有现实世界概念的内部表征。他们认为LLM不仅仅是在预测文本;它们是在模拟心智。

Google DeepMind 通过Gemini Ultra强调了多模态推理与规划。Gemini能够处理图像、音频和视频,其架构旨在整合这些模态。Google关于“Planning with LLMs”的研究表明,模型能够在模拟环境中生成并执行多步计划。

Meta 通过Llama 3和开源社区

更多来自 Hacker News

AI教AI:递归式智能体课程开启教育新纪元《智能体系统》课程以开源项目形式发布,是一场关于AI成熟度的自我验证实验。一个基于大型语言模型(LLM)、集成代码执行与记忆功能的AI编码智能体,独立完成了课程设计、代码生成与实时问答。这种递归式教学循环意味着,课程能够根据学生反馈调整讲解Anthropic的安全圣战:AI出口管制背后的 Trojan Horse?多年来,Anthropic一直将自己定位为AI行业的道德良知,不断警告存在性风险并要求严苛监管。然而,随着美国政府收紧对先进AI硬件和模型权重的出口管制,越来越多的批评者指出,Anthropic幕后的游说活动是关键的推动力量。AINews通Agent-trace:为AI生成代码颁发可验证的“出生证明”AI编程助手的崛起极大地加速了软件开发,但也引入了一个关键盲区:生成过程仍是一个黑箱。开发者无法审计AI如何得出某段特定代码,导致难以对漏洞、安全缺陷或许可违规追责。Agent-trace 直接填补了这一空白,它定义了一套标准化格式,捕捉A查看来源专题页Hacker News 已收录 5008 篇文章

相关专题

large language models179 篇相关文章AI reasoning37 篇相关文章Transformer architecture43 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

当AI假装理解:大语言模型的“表面信念”危机一项里程碑式研究揭露了一个令人不安的真相:大语言模型常常以完全错误的原因给出正确答案,依赖的是肤浅的统计模式而非真正的逻辑推理。这种“表面信念”现象,正在挑战AI在高风险领域的根本可靠性。大模型幻灭时刻:为何AI的通用智能承诺依然落空一股清醒反思的浪潮正在冲击AI炒作周期。当图像与视频生成器令人目眩时,大型语言模型却在推理与现实交互中暴露出深刻局限。这种日益增长的幻灭感,揭示了当今模式匹配引擎与承诺中的人工通用智能黎明之间的根本鸿沟。Token的奥德赛:Transformer如何将数据转化为思想你输入聊天机器人的每一个词,都将在Transformer中经历一场精确的数字朝圣。AINews追踪从原始Token到智能输出的完整旅程,揭示驱动现代AI的架构之美,以及它对推理未来的深远意义。Time Blindness: Why LLMs Can't Grasp Cause and EffectA groundbreaking open-source study has exposed a critical flaw in large language models: they cannot reliably order even

常见问题

这次模型发布“Beyond Next-Token Prediction: Why LLMs Are More Than Autocomplete Engines”的核心内容是什么?

The AI industry has fallen into a semantic trap. By habitually describing large language models as 'next-token predictors' or 'autocomplete on steroids,' we are systematically unde…

从“why next token prediction is not the same as understanding”看,这个模型发布为什么重要?

The reductive label 'next-token predictor' stems from a narrow focus on the training objective. At its core, a transformer-based LLM is trained to minimize cross-entropy loss on the task of predicting the next token in a…

围绕“emergent abilities in large language models explained”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。