技术深度解析
核心论点——LLM并未实现真正的抽象——建立在一个精确的技术区分之上。在计算机科学中,抽象是通过将底层细节隐藏在简化、高层接口之后来降低复杂性的过程。高级编程语言抽象掉了机器码;牛顿定律抽象掉了原子间的相互作用。真正抽象的关键特性在于,它能够催生*无法还原到低层级的新推理能力*。相比之下,LLM完全在其训练数据的同一表征空间内运作:一个由token组成的序列。它并未构建一个紧凑的、关于世界的因果模型;它学习的是token序列上的概率分布。
Transformer架构作为模式匹配器
Transformer的自注意力机制正是这种模式匹配的引擎。每个注意力头学习评估每个token相对于其他所有token的相关性,但这种相关性纯粹是统计性的——它学习的是训练语料中哪些token倾向于共现。其中没有内置的机制来表征逻辑变量、因果关系或抽象规则。当LLM看似在执行推理时,它实际上在进行一种*类比检索*:它在训练数据中找到一个与当前输入结构相似的模式,然后复现与之关联的输出。
考虑一个简单的例子:一个LLM被要求解答“如果所有人都是凡人,而苏格拉底是人,那么苏格拉底是凡人吗?”它并未实例化假言推理的规则。相反,它在训练数据中见过成千上万种苏格拉底三段论的变体,只是复现了最可能的补全结果。这在经典范例上完美奏效,但当模式稍有变化时就会失败——例如,当前提相互矛盾或逻辑形式不熟悉时。
规模化的天花板
这种模式匹配的本质解释了为何单纯扩大规模可能无法带来真正的抽象。DeepMind及其他机构的研究人员已经记录到,LLM在某些任务上表现出“逆规模化”——更大的模型在处理需要真正组合推理或分布外泛化的问题时,表现反而更差。原因在于,更大的模型更擅长记忆训练数据中的虚假相关性,而非学习底层原理。
| 模型 | 参数量 | MMLU (5-shot) | GSM8K (数学推理) | 分布外 (OOD) 准确率 |
|---|---|---|---|---|
| GPT-3 | 175B | 43.9% | 17.6% | 22.1% |
| GPT-4 | ~1.8T (MoE) | 86.4% | 87.1% | 34.5% |
| Claude 3 Opus | ~2T (估计) | 86.8% | 88.3% | 36.2% |
| Llama 3 70B | 70B | 82.0% | 82.5% | 28.9% |
| Llama 3 405B | 405B | 85.2% | 85.9% | 31.4% |
数据要点: 尽管MMLU和GSM8K的分数随规模扩大稳步提升,但分布外准确率——真正泛化能力的代理指标——远远落后且呈现出收益递减。对于更大的模型,MMLU与OOD准确率之间的差距在扩大,这表明规模化放大了模式匹配,而非抽象推理。
相关开源工作
数个GitHub仓库正在直接探索纯模式匹配的替代方案:
- neural-symbolic-ai/ns-vqa (3.2k stars):一种面向视觉问答的神经符号方法,将卷积感知模块与符号推理引擎相结合。它在组合视觉推理基准CLEVR上达到了99.8%的准确率,而纯神经方法仅为约75%。
- google-research/relational-networks (1.5k stars):实现了关系网络,显式建模对象之间的成对关系,从而在bAbI等任务上实现更好的抽象推理。
- deepmind/neural-arithmetic-logic-units (1.1k stars):提出了NALU单元,能够通过学习逼近加法和乘法的权重来执行算术运算,而非记忆算术事实。
关键玩家与案例研究
关于LLM抽象能力的争论已将AI研究界分为两大阵营:“规模化乐观派”相信进一步扩大规模最终会产生涌现的抽象能力,而“混合现实派”则认为需要根本性的架构变革。
规模化乐观派
OpenAI和Anthropic仍然是规模化假说最突出的倡导者。Sam Altman反复表示“我们只需要更多的算力”,而Anthropic的Dario Amodei则认为规模化将继续带来令人惊讶的涌现能力。他们的产品——GPT-4、Claude 3——是目前最强大的LLM,但它们在边缘案例上也表现出最自信的幻觉和最脆弱的推理能力。
混合现实派
Yoshua Bengio、Geoffrey Hinton和Gary Marcus一直是纯规模化路线的直言批评者。Bengio在因果表征学习方面的工作以及他最近的NeurIPS主旨演讲认为,LLM缺乏真正抽象推理所必需的因果模型。