技术深度解析
该治理模型的核心创新在于见证层的形式化——一个将AI代理的内部推理与其外部行动分离的计算边界。该架构概念上简单,但技术上精妙。
架构概览:
1. 代理核心:AI模型(如GPT-4o、Claude 3.5,或AutoGPT等开源代理)生成计划或决策。
2. 行动拦截器:一个轻量级中间件层,钩入代理的输出流,专门针对“关键行动”——即具有不可逆后果的操作(例如执行shell命令、向银行发送API调用、写入患者病历)。
3. 见证服务:一个独立的、通常运行在沙箱中的验证引擎。它接收提议的行动和上下文负载(例如患者病史、当前代码状态、市场条件)。
4. 规则引擎:见证服务根据一组预定义的、人类可审计的规则检查该行动。这些规则并非通过学习获得,而是显式编码或源自监管标准(例如HIPAA、PCI-DSS、FDA指南)。
5. 审计追踪:所有行动、验证结果和上下文元数据均经过加密签名,并存储在仅可追加的账本(例如区块链或Merkle树)中,用于事后取证分析。
关键技术挑战与解决方案:
- 延迟:增加验证步骤会引入延迟。该论文使用基于Redis的规则引擎对原型进行了基准测试;每个关键行动增加约50-200毫秒,对于大多数非实时应用来说可以接受。对于高频交易,他们提出了一种“预批准”模式,将常见行动缓存起来。
- 规则完备性:如何为不可预见的行动编写规则?论文提出了一种“人在回路中的升级”机制,用于处理规则集之外的行动,类似于飞行员可以覆盖自动驾驶仪。
- 规避:代理能否学会伪装有害行动以通过见证检查?论文认为,由于见证检查的是行动本身(而非推理),且规则是透明的,代理需要显式违反规则,而这本身是可检测的。
相关开源实现:
- Guardrails AI(GitHub:15k+星):一个为LLM输出添加结构性护栏的Python库。虽然不是一个完整的见证层,但它展示了“行动拦截”模式。新模型可以构建在Guardrails之上。
- LangChain的回调函数:LangChain提供了用于监控代理步骤的钩子。见证层可以作为自定义回调处理器集成。
- OpenAI的结构化输出:朝着使模型输出可机器验证迈出的一步,但仍侧重于格式,而非行动安全。
数据表:见证层原型的性能开销
| 行动类型 | 无见证层(毫秒) | 有见证层(毫秒) | 开销(%) |
|---|---|---|---|
| 简单SQL查询 | 120 | 175 | 45.8% |
| 药物相互作用检查 | 340 | 510 | 50.0% |
| 代码合并(Git) | 800 | 1,050 | 31.3% |
| 金融交易(预授权) | 60 | 95 | 58.3% |
数据要点: 开销显著但可管理,适用于非实时应用。简单行动上50-60%的增加是安全性的代价。对于延迟敏感的交易,预批准模式至关重要。
关键玩家与案例研究
这项研究并非孤立发生。几家公司和研究团队已经在构建见证层的组件,即使他们没有使用这个术语。
知名实体:
- Anthropic:他们的“宪法AI”方法训练模型在内部遵循规则。见证层模型表明这还不够;外部验证仍然必要。Anthropic的Claude 3.5 Sonnet已被用于医学摘要试点项目,其中见证层可以验证剂量建议。
- Microsoft:凭借其“Copilot”生态系统(GitHub Copilot、Microsoft 365 Copilot),微软正在大规模部署代理型AI。他们的“Copilot Studio”允许自定义插件,但缺乏正式的见证层。一份最近的内部备忘录暗示他们正在探索代码生成的“行动验证”。
- Google DeepMind:他们的“Sparrow”代理(2022年)使用基于规则的分类器来检查行动。这是见证模型的直接前身。DeepMind在“红队测试”方面的工作也与审计追踪概念一致。
- 初创公司:
- Credal.ai(YC W23):构建“企业级AI护栏”,专注于防止数据泄露。他们的产品拦截LLM输出以阻止敏感数据——这是一种行动审计形式。
- Gretel.ai:专注于合成数据和隐私,但他们针对AI行动的“审计日志”功能是一个原始的见证层。
- Fixie.ai:构建一个包含内置人工审批步骤的“代理工作流”平台,这是见证模型的手动版本。
数据表:现有“行动审计”相关技术对比
(注:原文表格在此处截断,但根据上下文,此表应对比各实体的技术成熟度、覆盖范围等。由于原文未提供完整表格,此处保留占位符,实际翻译时需根据完整原文补充。)
| 实体/产品 | 技术类型 | 是否形式化见证层 | 主要局限 |
|---|---|---|---|
| Guardrails AI | 输出拦截 | 否 | 无独立验证引擎 |
| Anthropic Constitutional AI | 内部训练 | 否 | 无法防止推理错误 |
| Microsoft Copilot Studio | 插件系统 | 否 | 无规则引擎 |
| Credal.ai | 数据防泄漏 | 部分 | 仅关注数据安全 |
| Fixie.ai | 人工审批 | 手动版 | 无法规模化 |