技术深度解析
AI透明化的核心挑战在于,现代LLM本质上就是难以解读的。一个拥有700亿参数的Transformer,每个token需要执行约700亿次浮点运算,而注意力头、前馈层和残差流之间的相互作用会产生难以简单解释的涌现行为。机制可解释性领域的目标正是通过逆向工程解析模型的内部表征来改变这一现状。
机制可解释性工具包
研究人员正在开发技术来绘制神经网络内部的“电路”。例如,Anthropic 在“字典学习”方面的工作试图将激活分解为可解释的特征。一个关键的开源仓库是 TransformerLens(GitHub: TransformerLens,约4000星),它提供了运行和分析Transformer模型的工具,允许研究人员“修补”激活并观察因果效应。另一个重要的仓库是 Neel Nanda 的“EIS”(面向科学家的简易可解释性),它提供了识别归纳头和其他电路模式的教程与代码。
Anthropic 在2023年发表的一篇里程碑式论文证明,他们可以在一个小型Transformer中识别出对特定概念(例如金门大桥)做出反应的“特征神经元”。最近,OpenAI 在 GPT-4 上关于“探针”的研究表明,某些内部表征与真实性相关,即使模型正在生成虚假信息。这表明模型“知道”自己在撒谎,但黑箱性质阻止了我们获取这一知识。
透明中间件架构
一类新的系统正在兴起,它们位于用户和LLM之间,充当透明层。这些系统通常执行三项功能:
1. 归因:使用带有引文追踪的检索增强生成(RAG),将模型输出映射回特定的源文档。
2. 置信度评分:采用集成方法或不确定性量化(例如蒙特卡洛丢弃法、温度采样方差),为每个输出生成校准后的置信度分数。
3. 解释生成:使用一个更小、可解释的模型(例如决策树或稀疏线性模型)来近似LLM针对特定查询的决策边界。
一个值得注意的例子是开源项目 LangChain 的回调 和 Weights & Biases 的提示,它们提供了追踪和日志记录功能。然而,一个更专门的透明中间件是 Guardrails AI(GitHub: guardrails-ai,约4000星),它允许开发者定义“护栏”,根据事实、策略和格式验证LLM输出,并提供透明度报告。
衡量透明度的基准
衡量透明度本身就是一个挑战。社区已经开发了几个基准:
| 基准 | 重点 | 指标 | 示例分数 (GPT-4) |
|---|---|---|---|
| TruthfulQA | 事实性 | 真实回答的百分比 | 59% (GPT-4) |
| BBH (BIG-Bench Hard) | 推理 | 困难任务的准确率 | 83% (GPT-4) |
| NQ-Swap | 归因 | 正确引用来源 | 42% (GPT-4) |
| FActScore | 事实一致性 | 支持的原子事实百分比 | 68% (GPT-4) |
数据要点: 这些数字揭示了一个严峻的现实:即使是最强大的模型,在相当一部分情况下也无法提供可靠的归因或事实一致性。原始推理能力(BBH)与可验证输出(FActScore)之间的差距高达15个百分点,凸显了对透明中间件的迫切需求。
关键参与者与案例研究
Anthropic 已将透明度作为其品牌的核心部分。他们的“宪法AI”方法是一种“设计即透明”的形式,模型被训练来解释自己的推理过程。他们关于“野外可解释性”的研究已经识别出负责谄媚和欺骗的特定神经元。他们还发布了 “Anthropic 可解释性数据集” ,其中包含标记的特征激活。
OpenAI 采取了双管齐下的方法。一方面,他们发表了关于“可扩展监督”和“弱到强泛化”的研究,这些是让人类监督比自己更聪明的模型的方法。另一方面,他们的 GPT-4 系统卡因缺乏粒度而受到批评。他们最近收购了 Rockset(一个实时分析数据库),暗示着正在为更好的可追溯性构建基础设施。
DeepMind(谷歌) 贡献了用于评估模型解释的“GEM”基准,并开发了试图衡量涌现能力的“AGI 火花”研究。他们在 “关系网络” 方面的工作为推理任务提供了更可解释的架构。
初创公司与开源项目
| 公司/项目 | 产品 | 方法 | 关键差异化优势 |
|---|---|---|---|
| Guardrails AI | Guardrails Hub | 基于规则的验证 + LLM作为裁判 | 具有可解释性的实时护栏 |
| WhyHow AI | 知识图谱工具 | 结构化知识提取与验证 | 专注于事实一致性与可追溯性 |