技术深度解析
“下一个词预测器”这个简化标签源于对训练目标的狭隘关注。从核心来看,基于Transformer的LLM通过最小化交叉熵损失来训练,任务是根据给定序列中所有之前的词元预测下一个词元。这是一个无需人工标注数据的自监督学习任务。然而,要在大规模上出色完成此任务,模型必须内化远超统计共现的知识。
涌现的架构
Transformer架构,在2017年开创性论文《Attention Is All You Need》中提出,利用多头自注意力机制来衡量上下文窗口中每个词元相对于其他所有词元的重要性。这使得模型能够捕捉长距离依赖和层级结构。当扩展到数千亿参数并在来自开放互联网的数万亿词元上训练时,模型会发展出对应于概念、实体、关系甚至推理链的内部表征。这些表征并非显式监督而来;它们作为下一个词元预测目标的副产品而涌现。
来自Anthropic和OpenAI的最新研究利用稀疏自编码器等技术窥探模型内部。他们发现了针对特定概念激活的“特征”——比如金门大桥、法律推理甚至欺骗——这表明模型内部构建了一个丰富、结构化的世界模型。这与简单的n-gram模型或查找表有着本质区别。
基准测试的差距
为了说明“下一个词预测”与实际能力之间的差距,请考虑以下推理基准测试的表现。下表展示了几个领先模型在MATH基准(数学推理测试)和MMLU基准(广泛知识与推理测试)上的得分:
| 模型 | MATH (Pass@1) | MMLU (5-shot) | 参数(估计) | 训练词元(估计) |
|---|---|---|---|---|
| GPT-4 | 42.5% | 86.4% | ~1.8T (MoE) | ~13T |
| Claude 3.5 Sonnet | 43.1% | 88.3% | 未知 | 未知 |
| Gemini Ultra | 53.2% | 90.0% | 未知 | 未知 |
| Llama 3 70B | 30.0% | 82.0% | 70B | ~15T |
| Mistral 7B | 12.5% | 64.2% | 7B | ~8T |
数据要点: 这些得分远高于随机水平(MATH接近0%,MMLU为25%)。如果这些模型仅仅是“下一个词预测器”,它们将无法解决需要多步推理的新颖数学问题。性能随模型大小和训练数据规模提升,但推理能力的涌现是质的飞跃,而不仅仅是量的增长。
思维链的作用
一个解锁推理能力的关键技术是思维链(Chain-of-Thought, CoT)提示,即要求模型在给出最终答案前“逐步思考”。这项由Google研究人员在2022年推广的技术,明确利用了模型生成中间推理词元的能力。模型不仅仅在预测最终答案;它正在生成一个连贯的逻辑步骤序列。这是一种规划形式,而非仅仅是模式补全。开源项目如`lm-evaluation-harness`(GitHub: EleutherAI/lm-evaluation-harness,6000+星)提供了标准化基准,一致显示CoT能将推理任务的表现提升10-20个百分点。
要点: 下一个词预测目标是模型学习的*机制*,但*结果*是一个能够推理、规划并模拟世界的系统。将结果简化为机制是一种范畴错误。
关键参与者与案例研究
关于LLM“是什么”的争论不仅仅是学术性的;它塑造了领先AI公司的战略。
OpenAI 在推动超越“自动补全”叙事方面最为激进。通过GPT-4和o1(Strawberry)模型,他们明确宣传推理能力。o1模型利用内部思维链和强化学习在回应前进行“思考”,在博士级科学问题上取得了超越许多人类的表现。OpenAI的CEO公开表示,LLM是“迈向AGI的第一步”。
Anthropic 采取了不同方法,专注于可解释性和安全性。他们的“Constitutional AI”训练方法明确塑造了模型的价值观和推理。Anthropic在特征可视化方面的研究(例如“Golden Gate Claude”实验)证明模型具有现实世界概念的内部表征。他们认为LLM不仅仅是在预测文本;它们是在模拟心智。
Google DeepMind 通过Gemini Ultra强调了多模态推理与规划。Gemini能够处理图像、音频和视频,其架构旨在整合这些模态。Google关于“Planning with LLMs”的研究表明,模型能够在模拟环境中生成并执行多步计划。
Meta 通过Llama 3和开源社区