身份信任崩塌:为何AI代理必须为每一步操作提供安全证明

arXiv cs.AI May 2026
来源:arXiv cs.AIAI agent security归档:May 2026
传统基于身份的授权机制正在失效——自主AI代理能生成语法正确但语义灾难性的指令。一种全新机制——可证明派生授权——要求每个代理动作都附带可验证的加密证明,将信任从“你是谁”重新定义为“你做什么,以及能否证明它是安全的”。

自主AI代理的崛起正在瓦解一个基本假设:有效的身份凭证就能保证安全行为。这些代理持有合法的API密钥和OAuth令牌,却能生成语法完美但语义灾难性的指令——删除生产数据库、发起欺诈性转账、或错误配置关键基础设施。根本原因在于静态身份模型与动态、上下文相关的代理行为之间的错配。

可证明派生授权(PDA)提供了一种范式转变。系统不再问“这个代理是谁?”,而是问“代理即将执行什么操作,它能否在当前上下文中证明该操作是安全的?”每个操作都附带一个加密证明——通常采用零知识证明(如zk-SNARK)——该证明在数学上确保该操作符合预定义的安全策略。这种机制将信任从静态身份转移到动态、可验证的行为上。

PDA的核心在于三个组件:策略规范语言(如Rego)、证明生成器(在代理内部或侧车进程中运行)和证明验证器(基础设施层的轻量级模块)。以金融投资组合管理为例:传统授权下,拥有“转账”权限的API密钥会直接放行100万美元转账;而在PDA下,代理必须生成证明该转账金额(100万美元)在每日限额(50万美元)内且收款账户在白名单上——证明失败,转账被阻止。

性能基准测试显示,Groth16(BN254)提供最快验证(0.6毫秒)和最小证明(128字节),适合高频交易系统;STARK(FRI)虽慢但无需可信设置且抗量子,适合长期运行的自主AI系统。关键参与者包括基础设施提供商(Chainlink的DECO协议、Mysten Labs的zkLogin)、策略引擎公司(Styra、Cerbos)以及自主AI平台(SingularityNET)。

技术深度解析

可证明派生授权(PDA)的核心创新在于用动态、上下文感知的证明取代静态身份检查。传统授权依赖访问控制列表(ACL)或基于角色的访问控制(RBAC):代理出示令牌(如OAuth 2.0、JWT),系统检查该令牌是否有权限执行请求的操作。这个模型假设如果令牌有效,操作就是安全的。自主代理打破了这一假设,因为它们能在令牌作用域内生成语法有效但语义恶意或错误的操作。

PDA在代理决策与执行之间引入了一个验证层。该架构通常包含三个组件:

1. 策略规范语言:一种形式化语言(如OPA的Rego,或自定义DSL),用于定义什么是“安全”操作。这超越了简单的允许/拒绝规则,包括对数据范围、交易金额、时间窗口甚至概率边界的约束。

2. 证明生成器:代理内部或侧车进程中的一个组件,它接收预期操作、当前上下文(系统状态、用户意图、环境变量)和策略,并生成一个加密证明。该证明证明该操作如果执行,不会违反策略。证明通常是zk-SNARK或类似的简洁论证,确保其体积小且验证速度快。

3. 证明验证器:基础设施层的一个轻量级、通常基于硬件的模块,在执行操作前检查证明。如果验证失败,操作被阻止并触发警报。

一个具体例子:管理金融投资组合的AI代理决定从账户A向账户B转账100万美元。在传统授权下,代理的API密钥可能拥有“转账”权限,因此转账会通过。在PDA下,代理必须生成证明:转账金额(100万美元)在每日限额(50万美元)内,且账户B在批准的白名单上。证明失败,转账被阻止。

相关开源项目:
- OPA(Open Policy Agent):一个CNCF毕业项目,提供通用策略引擎。虽然本身不原生支持加密,但其Rego语言可通过证明生成插件扩展。GitHub星标:约10k。
- Lit Protocol:一个去中心化密钥管理网络,支持可编程授权。它使用阈值签名和零知识证明,允许代理仅在满足特定条件时签署操作。GitHub星标:约2k。
- Groth16/Plonk实现:像`snarkjs`和`bellman`这样的库提供了构建自定义证明系统的加密原语。它们是任何PDA实现的基础。

性能基准测试:

| 证明系统 | 证明大小 | 验证时间(毫秒) | 证明生成时间(秒) | 内存使用(MB) |
|---|---|---|---|---|
| Groth16(BN254) | 128字节 | 0.6 | 10-30 | 500 |
| Plonk(BLS12-381) | 192字节 | 1.2 | 30-90 | 800 |
| STARK(FRI) | 50-100 KB | 5-10 | 60-300 | 2000 |

数据要点: Groth16提供最快的验证速度和最小的证明,非常适合实时交易等高吞吐量系统。STARK虽然较慢,但无需可信设置且抗量子,适合长期运行的自主AI系统。证明大小与信任假设之间的权衡将决定部署选择。

关键参与者与案例研究

尽管“可证明派生授权”这一术语本身尚处于萌芽阶段,但多个组织正在积极开发受PDA启发的解决方案。最突出的参与者分为三类:基础设施提供商、策略引擎公司和自主AI平台构建者。

基础设施提供商:
- Chainlink:其DECO(去中心化预言机)协议使用零知识证明实现私有数据验证。虽然主要用于预言机,但同一技术可适配于代理授权。Chainlink的CCIP(跨链互操作协议)已包含可编程代币转账,可作为PDA的模型。
- Mysten Labs:Sui区块链背后的团队构建了基于Move的对象模型,其中每笔交易都携带授权证明。其zkLogin功能允许用户使用web2凭证进行身份验证,同时为链上操作生成零知识证明。这直接适用于跨越web2和web3边界的AI代理。

策略引擎公司:
- Styra:OPA背后的公司,提供企业级策略管理。他们正在探索“策略即证明”扩展,使OPA决策能够获得加密认证。
- Cerbos:一个现代授权服务,支持细粒度、上下文感知的策略。虽然尚未基于证明,但其架构兼容添加验证层。

自主AI平台:
- SingularityNET:他们的

更多来自 arXiv cs.AI

AI安全范式转向:为何“多元监控器”比“算力堆砌”更有效在金融、医疗和自动驾驶等高风险领域部署自主AI智能体的竞赛,暴露了一个关键盲点:当智能体以机器速度和规模运行时,如何可靠地监控其行为?传统观点认为,解决方案是训练一个更强大的单一监控模型——投入更多算力和数据,直到监控器变得无所不知。但越来信念引擎:让AI辩论中的立场转变可审计、可问责「信念引擎」是一个面向多智能体大语言模型的全新框架,旨在解决AI辩论中立场变化的关键不透明性问题。通过将信念视为带有证据权重的状态变量,它为每一次立场转变——无论是源于新证据、锚定偏差还是角色漂移——都赋予因果签名。这使得开发者能够配置智能零样本目标识别:大语言模型如何无需训练即可解码人类意图新一轮研究表明,大语言模型(LLM)展现出卓越的零样本目标识别能力——无需任何先例或任务特定训练,即可从一系列人类行为中推断出潜在目标。这种植根于溯因推理的能力,使LLM能够绕过经典规划算法的计算瓶颈;后者虽擅长正向生成动作序列,却在从部分查看来源专题页arXiv cs.AI 已收录 339 篇文章

相关专题

AI agent security108 篇相关文章

时间归档

May 20261955 篇已发布文章

延伸阅读

智能体信任危机:当AI工具说谎,系统却无法识破AI智能体正在面临现实世界智能的根本考验:它们无法察觉工具何时在撒谎。AINews分析揭示,当前评估框架仅衡量智能体正确使用工具的能力,却从未测试当工具提供蓄意虚假或对抗性信息时其韧性如何。这造成了危险的信任缺口,正威胁着自动化系统的可靠性AI安全范式转向:为何“多元监控器”比“算力堆砌”更有效一项新研究范式指出,将算力集中到单个“超级监控器”上,效果远不如组合多个不同且不完美的监控器。这种集成式AI智能体监控方法能实现更强大的异常检测,并挑战了业界主流的“算力即安全”假设。信念引擎:让AI辩论中的立场转变可审计、可问责多智能体AI辩论长期受困于黑箱问题:当AI改变立场时,无人知晓原因。全新「信念引擎」引入可审计的信念更新层,使每一次立场转变都能追溯到具体证据、锚定效应或角色漂移,将AI协商从概率游戏转变为透明、可配置的流程。零样本目标识别:大语言模型如何无需训练即可解码人类意图大语言模型如今能够仅凭观察到的行为序列推断人类目标,无需任何训练样本,在溯因推理任务上超越传统规划器。这一突破有望大幅降低部署成本,并借助LLM内生的世界知识,实现更自然的人机协作。

常见问题

这篇关于“Identity Trust Collapse: Why AI Agents Must Prove Every Action Is Safe”的文章讲了什么?

The fundamental assumption that a valid identity credential guarantees safe behavior is collapsing under the weight of autonomous AI agents. These agents, operating with legitimate…

从“how does provable derived authorization differ from traditional RBAC”看,这件事为什么值得关注?

The core innovation of provable derived authorization (PDA) lies in replacing static identity checks with dynamic, context-aware proofs. Traditional authorization relies on Access Control Lists (ACLs) or Role-Based Acces…

如果想继续追踪“cost of implementing zero-knowledge proofs for AI agents”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。