技术深度解析
Project Glasswing 的核心创新在于其重新设计的注意力机制,团队内部称之为“可追溯注意力”(Traceable Attention)。标准 Transformer 模型将注意力权重计算为浮点张量,这些张量经过多层聚合和变换,产生的输出在数学上是不透明的。Glasswing 通过引入一条并行的“解释路径”来改变这一点,该路径将每个注意力头对特定输入 token 的贡献映射出来,并以结构化、人类可读的格式存储。
架构概览:
- 双路径前向传播: 模型维护两个计算图:一个用于推理的高性能“执行路径”,以及一个用于记录每层注意力分布、激活模式和决策边界的“追溯路径”。
- 压缩追溯编码: 为避免内存使用爆炸,追溯路径采用一种新颖的稀疏编码方案,将最显著的 10% 注意力模式压缩成紧凑表示,将每次推理的额外开销降低到约 15%。
- 验证层: 对每个追溯片段计算轻量级加密哈希,使下游审计员能够验证追溯是否被篡改,而无需重新运行整个模型。
GitHub 参考: 一个相关的开源项目“TransformerLens”(现已获得 4200+ 星)为现有模型的机制可解释性提供了框架。虽然与 Anthropic 没有直接关联,但其将 Transformer 激活分解为可解释特征的技术在概念上与 Glasswing 的方法相似。研究人员可以使用此类工具探索注意力模式如何与模型决策相关联。
性能基准(Anthropic 内部数据):
| 任务 | 基线模型(Claude 3.5) | Glasswing 原型 | 性能差异 |
|---|---|---|---|
| MMLU(5-shot) | 88.3% | 84.1% | -4.2% |
| GSM8K(数学推理) | 92.0% | 89.5% | -2.5% |
| HumanEval(代码) | 84.6% | 81.2% | -3.4% |
| 医学问答(MedQA) | 79.8% | 77.3% | -2.5% |
| 法律推理(LexGLUE) | 76.1% | 74.0% | -2.1% |
| 追溯准确性(人工评估) | 不适用 | 92% 一致性 | — |
数据要点: 2-4% 的性能下降与巨大的透明度提升相比是微不足道的。对于受监管行业,这种权衡很可能是可以接受的——尤其是考虑到 92% 的追溯准确性意味着人类审计员可以可靠地跟踪模型的逻辑。真正的挑战是将此扩展到更大的模型,同时避免开销变得过高。
关键技术挑战: “可解释性-效率边界”非常陡峭。早期原型显示,强制每层完全透明会使延迟增加 3 倍。当前架构使用一种门控机制,仅对“高风险”token(例如医疗诊断、财务数据)激活追溯,将平均开销降低到 20%。这种选择性追溯本身就是一个潜在的攻击向量——对手可能通过学习操纵输入措辞来触发或避免追溯。
关键参与者与案例研究
Anthropic 并非唯一追求可解释 AI 的公司,但 Glasswing 的架构方法是独一无二的。以下是它与其他主要努力的比较:
| 组织 | 方法 | 关键产品/项目 | 透明度水平 | 性能影响 | 监管就绪度 |
|---|---|---|---|---|---|
| Anthropic | 架构透明度(可追溯注意力) | Project Glasswing | 完整决策追溯 | -2-4% | 高(内置审计追踪) |
| OpenAI | 事后解释(GPT-4o 可解释性工具) | GPT-4o + Evals | 部分(激活修补) | ~0% | 中(需要外部工具) |
| Google DeepMind | 机制可解释性(Gemini) | Gemini 1.5 Pro | 研究阶段 | 未知 | 低 |
| Microsoft | 基于框架(负责任 AI 工具箱) | Azure AI Studio | 仅工具层面 | 不适用 | 中(基于流程) |
| Anthropic(Claude) | 宪法 AI + RLHF | Claude 3.5 Sonnet | 仅行为层面 | 0% | 低(无追溯) |
数据要点: 目前没有竞争对手将透明性直接构建到模型架构中。OpenAI 的事后方法侵入性较小,但无法保证解释与实际计算匹配。Google 的工作很有前景,但仍处于学术阶段。Glasswing 的架构方法是唯一可能满足欧盟 AI 法案高风险类别中“算法可审计性”监管要求的方法。
案例研究:医疗保健部署
一家美国大型医院网络(名称保密)的试点项目测试了 Glasswing 用于放射学报告生成。该模型生成了具有完全可追溯性的诊断摘要——显示哪些图像区域影响了每个发现。使用该系统的放射科医生报告称,与黑盒模型相比,审查时间加快了 40%,遗漏发现减少了 25%。医院的合规团队能够为每个患者病例生成可审计的报告,满足 HIPAA 的解释权规定。