技术深度解析
Transformer的注意力机制,如Vaswani等人在2017年所定义,计算的是`Attention(Q,K,V) = softmax(QK^T/√d)V`。这一操作本质上是扁平的:它基于成对相似性,在上下文窗口内对所有token计算一个分布。这里没有任务层级的概念,没有用于中间状态的工作记忆,也没有机制来抑制已被关注过的无关信息。
执行控制缺口
在人类认知中,执行功能由前额叶皮层管理。这些功能包括:
- 任务切换:在不同子目标之间转移焦点
- 抑制:压制无关刺激
- 目标维持:保持总体目标的活跃状态
- 规划:将目标分解为有序的子步骤
Transformer缺乏所有这些功能。注意力机制在相似性空间中将每个token平等对待;没有一个中央模块能说“忽略那个token,因为它来自之前的子任务”或“优先处理这个token,因为它是当前目标的一部分”。这导致了一种我们称之为注意力漂移的现象:随着序列长度增加,模型的焦点变得分散,错误不断累积。
为何扩展失败
考虑一个简单的多步推理任务:“如果Alice有3个苹果,给了Bob 2个,然后Bob给了Charlie 1个,那么Bob还有多少个?”人类通过维护一个心智模型来解决这个问题:追踪Alice的苹果,然后是Bob的,再应用转移操作。然而,Transformer同时处理所有token。它必须隐式地通过注意力模式学习追踪状态变化。借助足够的训练数据,它可以记住常见模式,但在新颖变体上——例如“Alice给Bob 2个,然后Bob给Charlie 1个,然后Charlie还给Alice 1个”——模型往往会失败,因为它无法动态更新其内部状态表征。
相关开源工作
几个GitHub仓库试图解决这一问题:
- Neural-Symbolic Execution (nse):一个将神经注意力与符号程序执行相结合的框架。它拥有约2500颗星,并通过显式追踪变量赋值,在数学应用题上展现出改进的性能。
- Transformer with Working Memory (TWM):增加了一个可读写的可微分记忆库。在bAbI任务上实现了15%的准确率提升,但推理成本增加了3倍。
- Graph Neural Network-Guided Attention (GNN-Attn):利用图结构来强制层级依赖。仍处于实验阶段,约有800颗星。
基准性能
| 模型 | GSM8K(数学推理) | 多步问答(准确率) | 延迟(毫秒/令牌) |
|---|---|---|---|
| GPT-4(标准) | 87.1% | 72.3% | 45 |
| GPT-4(CoT) | 92.0% | 78.1% | 120 |
| Claude 3.5(CoT) | 88.5% | 75.4% | 95 |
| Neural-Symbolic Hybrid | 94.2% | 89.7% | 210 |
| TWM(1k记忆) | 89.8% | 82.1% | 150 |
数据要点: 思维链提升了推理能力,但代价是2-3倍的延迟。添加显式执行控制的混合方法(神经符号、工作记忆)在多步任务上表现更优,但引入了更高的延迟。权衡是明确的:当前的Transformer无法在没有外部支撑的情况下进行高效、稳健的推理。
关键玩家与案例研究
OpenAI 已公开承认推理差距。他们的o1模型使用了内部思维链和基于过程奖励的强化学习,但这仍然是一个事后补丁——它并未改变底层的注意力机制。该模型的推理是脆弱的:它能解决复杂数学问题,但如果分词方式发生变化,就会在简单变体上失败。
Google DeepMind 正在探索Pathways架构,并发表了关于“执行注意力”的研究——一个学习得到的控制器,用于门控哪些token被处理。他们2024年的论文《Hierarchical Attention for Long-Horizon Tasks》在ALFWorld基准上展示了12%的提升,但控制器本身是一个小型Transformer,这造成了递归控制问题。
Anthropic 专注于可解释性,并发现Claude中的注意力头展现出近似执行功能的“电路级”模式。然而,这些电路是脆弱的:它们在对抗性提示或分布偏移下会崩溃。他们的constitutional AI方法并未解决这一结构性缺陷。
Mistral AI 尝试了混合专家模型(MoE)来隐式路由信息,但MoE是一种静态路由机制——它不提供动态任务调度。
初创公司聚焦:Symbolica AI
Symbolica由前DeepMind研究员创立,正在构建一种神经符号架构,明确将神经注意力与符号规划器分离。他们在ARC-AGI基准上的早期结果显示准确率为45%,而纯Transformer仅为25%。他们已筹集了3000万美元的A轮融资。
产品对比
| 产品/方法 | 推理类型 | 执行控制 | 延迟开销 | 采用情况 |
|---|---|---|---|---|
| 标准Transformer | 关联性 | 无 | 低 | 广泛 |
| 思维链(CoT) | 逐步 | 隐式 | 2-3倍 | 高 |
| 神经符号混合 | 符号+神经 | 显式 | 3-5倍 | 实验性 |
| 工作记忆Transformer | 记忆增强 | 部分 | 2倍 | 小众 |
| 图引导注意力 | 层级 | 显式 | 高 | 研究阶段 |