技术深度解析
AI代理零信任的核心在于重新架构代理的操作栈。传统的代理架构依赖一个单体模型,它接收提示词,内部处理,然后输出动作。这本质上是不可见的。零信任要求将其分解为离散的、可验证的组件。
架构转变:从单体到微服务
零信任代理架构将代理分解为多个层次:
1. 策略引擎:一个独立的、不可变的服务,用于定义允许的操作(例如,“只能从数据库A读取,不能写入数据库B”)。这不属于模型权重的一部分。
2. 验证层:一个中间层,在执行前拦截每一个动作。它根据策略引擎检查动作,记录请求,并要求高风险动作获得人类或辅助自动化系统的明确批准。
3. 审计追踪:每一个动作,包括模型的内部推理(如果通过思维链可访问),都会被记录到一个不可变的账本中(例如,区块链或仅追加的数据库)。
4. 持续监控:一个实时异常检测系统,用于标记偏离预期行为模式的情况,例如代理突然访问一个它从未使用过的敏感API。
技术实现细节
- 策略即代码:策略使用声明式语言编写,如Rego(用于Open Policy Agent)或Cedar(来自AWS)。这些策略独立于代理模型进行版本控制、测试和部署。
- 动作钩子:代理的执行环境被修改,包含动作前和动作后的钩子。在API调用之前,钩子检查策略。调用之后,钩子记录响应并检查数据泄露。
- 密码学证明:代理的运行时环境通过基于硬件的安全模块(例如TPM、Intel SGX)进行证明,以确保代码未被篡改。
相关开源项目
- Open Policy Agent (OPA):一个通用策略引擎,在GitHub上拥有超过10,000颗星。它可以集成到任何代理框架中,以实施细粒度的访问控制。最近的更新包括对部分评估的支持,这在高吞吐量场景中降低了延迟。
- LangChain的Guardrails:流行的代理框架LangChain引入了实验性的Guardrails,允许开发者定义代理行为的约束。然而,与完整的ZTA实现相比,这些仍然较为原始。
- Rebuff:一个用于检测提示注入攻击的开源库。它结合了启发式方法和一个辅助LLM,将输入分类为恶意。虽然不是一个完整的ZTA解决方案,但它解决了一个关键的攻击向量。
零信任代理与传统代理的基准测试
| 指标 | 传统代理 | 零信任代理 | 差异 |
|---|---|---|---|
| 任务完成率 (MMLU) | 88.5% | 86.2% | -2.3% |
| 每次动作平均延迟 | 120ms | 350ms | +192% |
| 每万次动作安全事件数 | 45 | 2 | -95.6% |
| 可审计性评分 (1-10) | 2 | 9 | +350% |
| 策略违规阻止率 | 0% | 99.8% | +99.8% |
数据要点:权衡是明确的:原始任务完成率下降2.3%和延迟增加192%,是换取安全事件减少95.6%和近乎完美的策略执行所付出的代价。对于高风险应用(金融、医疗、关键基础设施),这种权衡不仅是可接受的——而且是强制性的。
关键参与者与案例研究
已有几家公司和研究团队在向AI代理的零信任迈进,尽管很少有人明确使用这个术语。
1. Google DeepMind的'Sparrow'架构
DeepMind的Sparrow是一个专为安全对话设计的研究代理,它包含一个基于规则的层来约束模型的动作。这是策略引擎的原始形式。Sparrow使用一个独立的分类器来评估模型提出的响应是否违反预定义的规则(例如,“不要提供医疗建议”)。这是迈向零信任的一步,但它仍然依赖于模型,并且不完全可审计。
2. Microsoft的'Copilot'与'数据安全'模式
Microsoft 365的Copilot包含一个“数据安全”模式,该模式根据用户的权限限制代理访问敏感文档。这是一个策略引擎,但它与Microsoft自身的身份系统(Azure AD)绑定,并且不可扩展到第三方代理。它还缺乏完整的审计追踪。
3. Anthropic的'Constitutional AI'
Anthropic的方法训练模型本身遵循一套原则(一部“宪法”)。虽然创新,但这并非零信任。宪法嵌入在模型权重中,使其在训练后无法验证和更改。零信任方法会将宪法置于一个外部的、可审计的策略引擎中。
4. 引领潮流的初创公司
- Guardian AI:一家初创公司