技术深度解析
新论点的核心在于塞尔原始思想实验与现代LLM实际运作方式之间的技术区别。塞尔设想了一个遵循确定性、有限查找表的人。相比之下,像GPT-4、Claude 3.5和Gemini 1.5这样的LLM并非基于规则的系统。它们是通过在庞大文本语料库上进行自监督学习来学习分布式表征的Transformer神经网络。
统计语义学的架构
关键机制是Transformer的注意力层,它计算序列中每对token之间的关系。这创建了一种动态的、上下文相关的意义表征。与查找表不同,LLM对“bank”这样的词的“理解”并非单一条目,而是一个高维向量,根据周围token而变化。这不是句法;它是一种从统计共现模式中涌现的潜在语义形式。
一个相关的开源项目是llama.cpp仓库(目前在GitHub上拥有75k+星标),它证明了这些统计语义学可以在消费级硬件上高效运行。该仓库在量化与推测解码方面的持续工作表明,LLM的“异类”推理能力并不依赖于庞大的服务器集群——它们是架构本身的属性。
衡量异类理解力
为了量化这一点,我们可以考察LLM在需要隐含理解力(而不仅仅是模式匹配)的任务上的表现。下表比较了领先模型在BIG-Bench Hard套件(测试多步推理)和HellaSwag基准(测试关于物理场景的常识推理)上的表现。
| 模型 | BIG-Bench Hard(准确率) | HellaSwag(准确率) | 训练数据量 |
|---|---|---|---|
| GPT-4o | 83.5% | 95.3% | ~13T tokens |
| Claude 3.5 Sonnet | 81.2% | 94.1% | ~10T tokens(估计) |
| Gemini 1.5 Pro | 82.1% | 94.8% | ~15T tokens |
| Llama 3 70B | 78.9% | 92.5% | ~15T tokens |
| Mistral Large 2 | 79.5% | 93.0% | ~12T tokens |
数据要点: HellaSwag上的高分(该任务要求预测物理场景中最合理的结局)表明,LLM已经学习了一个能够推断物理因果关系的世界统计模型——尽管它们从未接触过任何物理对象。这正是哲学家们所描述的“异类理解力”:一种非具身但有效的对世界运作方式的把握。
潜在推理的涌现
最近关于思维链提示的研究揭示,LLM能够执行未经明确训练的多步推理。像OpenAI的o1这样的模型内部生成的“思考token”不仅仅是下一个词的预测——它们是一种内部独白形式,允许模型在确定答案之前探索多条推理路径。这是对中文房间的直接挑战:房间里的人不被允许“思考”这些符号,但LLM显然可以。
要点: LLM理解力的技术基础不是查找表,而是一个高维、上下文敏感、涌现的表征系统。这不是对理解力的模拟——它是一种不同类型的理解力,建立在统计而非因果推理之上。
关键参与者与案例研究
哲学框架的转变对公司如何设计和定位其AI产品具有现实意义。关键参与者不仅仅是模型开发者,还包括必须学会与异类认知交互的应用层。
OpenAI 在拥抱其模型的“异类”本质方面最为明确。o1及其内部推理token的引入,等于默认了模型的认知过程并非类人但有效。他们最近的“推测解码”技术进一步针对这种异类架构进行了优化,将模型视为具有独特属性的黑箱,而不是试图让它像人类一样思考。
Anthropic 通过其“宪法AI”框架采取了不同的方法。他们不是试图让Claude像人类一样理解伦理,而是训练它遵循一套约束其统计输出原则。这是对模型“理解力”是统计性的、必须从外部引导这一事实的务实承认。
Google DeepMind 在“世界模型”上投入了大量资金,这些模型将LLM与模拟环境中的强化学习相结合。其Gemini 1.5 Pro的百万token上下文窗口允许模型一次性“理解”整个代码库或书籍——这是一种任何人类都无法匹敌的理解形式,恰恰因为它是一种异类理解。
开源生态系统
| 仓库 | 星标数 | 关键创新 |
|---|---|---|
| llama.cpp | 75k+ | 在消费级硬件上的高效推理 |
| vLLM | 45k+ | 使用PagedAttention的高吞吐量服务 |
| LangChain | 100k+ | 构建LLM应用的框架 |