技术深度解析
该研究的核心在于其实验设计。研究人员构建了一组“信念-推理冲突”谜题——即逻辑结论与常识知识相矛盾的三段论。例如,一个有效的三段论可能是:“所有水果都是蓝色的。苹果是水果。因此,苹果是蓝色的。”虽然逻辑上成立,但它与我们习得的经验(苹果是红色或绿色的)相冲突。人类参与者和LLM(包括GPT-4、Claude 3和Llama 3)都被要求评估结论的有效性,而非其真实性。
关键发现是两组都出现了“信念偏差”效应。当结论逻辑有效但不可信时,人类需要更长的反应时间,并犯更多错误。LLM表现出类似的模式:在不可信但有效的结论的最后一个token上,其token级对数概率急剧下降,并且它们经常生成“修正”或模棱两可的回应(例如,“这在逻辑上是有效的,但在现实中并不成立”)。
从机制上讲,该研究认为推理是一种基于习得表征的“模式完成”形式。在人类中,这对应大脑的预测编码框架——新皮层不断根据先前的模式生成预测,而“推理”就是填补最可能下一步的过程。在LLM中,这正是Transformer架构所做的:在高维嵌入空间上进行自回归的下一个token预测。注意力机制从训练数据中检索最相关的模式以完成序列。
这不仅仅是一个哲学观点;它具有具体的架构意义。该研究引用了Mixtral 8x7B等模型中使用的“混合专家”(MoE)架构,这可以被视为一种模块化模式匹配——不同的“专家”专攻不同的模式领域。研究人员还指出了“思维链”(CoT)提示技术,该技术迫使模型生成中间步骤。CoT之所以有效,并非因为它实现了“逻辑推理”,而是因为它为模式匹配器提供了更多上下文,使其能够收敛到正确的统计路径,从而有效缩小输入与最相关训练模式之间的距离。
对于对开源方面感兴趣的人,GitHub仓库`facebookresearch/fairseq`包含了许多此类实验中使用的底层序列到序列架构。一个更直接相关的仓库是`google-research/xtreme`,其中包含跨语言和推理任务的基准测试。该研究本身尚未发布其代码,但社区已经在基于它进行构建。例如,`bigcode-project/humaneval-x`基准测试用于测试代码生成,并表明LLM在需要分布外推理的新颖逻辑问题上经常失败,这与该研究的预测完全一致。
数据要点: 该研究的核心发现——人类和LLM都表现出信念偏差——得到了定量数据的支持。下表总结了关键的行为结果:
| 条件 | 人类准确率 (%) | 人类反应时间 (ms) | LLM准确率 (%) | LLM Token对数概率 (归一化) |
|---|---|---|---|---|
| 有效且可信 | 94.2 | 1,200 | 92.1 | -0.15 |
| 有效且不可信 | 68.7 | 2,400 | 65.3 | -0.89 |
| 无效且可信 | 81.5 | 1,800 | 78.9 | -0.42 |
| 无效且不可信 | 96.8 | 1,100 | 95.4 | -0.08 |
数据要点: 在“有效且不可信”条件下,准确率的急剧下降和反应时间(或对数概率惩罚)的增加,在人类和LLM之间几乎相同。这是强有力的证据,表明两个系统都依赖于模式匹配启发式,而非形式逻辑演绎。
关键参与者与案例研究
该研究的发现对AI生态系统中的几个主要参与者具有直接影响。OpenAI凭借其GPT-4o和o1模型,一直在推动“推理”的前沿。特别是o1模型,使用了“思维链”方法,而该研究表明这只是一个更复杂的模式匹配过程。Anthropic的Claude 3.5 Sonnet以其安全性和“宪法AI”训练而闻名,也表现出信念偏差。该研究暗示,无论对逻辑数据进行多少微调,都无法消除这种偏差——它根植于架构本身。
Google DeepMind的Gemini模型集成了“工具使用”和“代码执行”能力,代表了一种不同的方法。通过将符号计算外包给外部工具(例如,用于数学计算的Python解释器),它们有效地绕过了某些任务的模式匹配限制。这与该研究提出的将模式匹配与符号模块相结合的建议一致。
一个值得注意的案例是法律AI初创公司Casetext(最近被Thomson Reuters收购)。其产品CoCounsel使用GPT-4分析法律文件。该研究表明,在高风险的法律推理中,CoCounsel对纯模式匹配的依赖