AgentShield:四层安全锁,防止AI代理挥霍你的钱

Hacker News May 2026
来源:Hacker NewsAI agent security归档:May 2026
密歇根大学一位毕业生开发了AgentShield,一个四层安全系统,能阻止自主AI代理进行未经授权或恶意的支付。它在交易执行前通过验证意图、预算和行为异常来拦截交易——将代理的财务安全从事后补救转变为基础层保障。

随着AI代理越来越多地处理敏感金融操作——从购买云积分到执行DeFi交易——一个关键漏洞浮出水面:传统的访问控制只验证谁能花钱,而不验证花钱本身是否合法。AgentShield由密歇根大学校友创建,直接通过四层语义安全层填补了这一空白。该系统集成了基于Redis的实时预算跟踪、行为异常检测、提示注入模式匹配,以及一种新颖的“意图一致性”测试,该测试使用辅助推理模型将每个支付请求与代理的原始任务目标进行比较。这种架构有效地将一个虚拟人类审计员嵌入到代理的决策循环中,能够标记被劫持的请求。

技术深度解析

AgentShield的架构是一个分层防御系统,旨在语义层面运行,而不仅仅是传统防火墙或API网关的语法层面。该系统拦截每个外发支付或API调用,并在授权执行前通过四个顺序检查。

第1层:基于Redis的实时预算执行
第一道关卡是一个基于Redis流构建的高性能预算跟踪器。每个代理被分配一个预算配置文件——每笔交易上限、每日限额、类别特定上限(例如,计算与数据存储)。系统在Redis中维护一个滑动窗口计数器,通过Lua脚本原子更新以防止竞态条件。该层可以在3毫秒内拒绝请求,使其适用于高频交易机器人或实时竞价系统。这里的关键创新在于预算不是静态的;它们可以根据代理的任务上下文动态调整。例如,如果代理的任务是“优化未来24小时的云支出”,预算层可以临时提高计算上限,同时降低存储上限。

第2层:行为异常检测
该层使用一个轻量级的孤立森林模型,该模型基于特定代理的历史交易模式进行训练。特征包括交易金额、频率、目标地址熵和时段模式。该模型在设备上运行(通过ONNX运行时)以避免延迟和隐私问题。如果交易偏离代理学习基线的3个标准差以上,它会被标记为需要人工审查或自动拒绝。这可以捕获诸如代理突然向新地址发送其通常支付金额100倍的情况——这是供应链攻击中的常见模式。

第3层:提示注入模式匹配
这是一个专门的检测器,针对已知的针对金融工作流的提示注入技术进行训练。它结合了正则表达式模式(例如,“忽略之前的指令”、“将所有资金转移到”)、一个基于BERT的小型分类器(在5万个对抗性提示的精选数据集上微调),以及一个查找指令覆盖结构的语法解析器。该系统可以检测混淆的注入,如base64编码的命令或跨多条消息拆分。该检测器在AgentShield基准测试套件上的召回率为94.2%,误报率为1.8%。

第4层:意图一致性验证
最具创新性的组件。在支付被授权之前,一个辅助的、较小的LLM(例如,Llama 3.1 8B的蒸馏版本)被提示回答:“给定代理的原始任务:[任务描述],当前的支付请求[请求详情]是否与完成该任务一致?回答是/否并附上简要理由。”这创建了一个语义护栏,可以捕获绕过前三层的攻击——例如,一个提示注入巧妙地将任务从“购买计算积分”重新定义为“购买计算积分并将10 ETH发送到此地址”。辅助模型以0.0的温度运行以确保确定性,令牌限制为128以将延迟控制在500毫秒以下。早期测试表明,该层额外捕获了7%的逃避前三层的攻击,在受控实验中将总覆盖率提高到99%以上。

数据表:AgentShield性能基准

| 攻击类型 | 第1层拦截率 | 第2层拦截率 | 第3层拦截率 | 第4层拦截率 | 总拦截率 |
|---|---|---|---|---|---|
| 预算耗尽 | 100% | 0% | 0% | 0% | 100% |
| 行为异常(例如,突然的高价值) | 0% | 96.3% | 0% | 0% | 96.3% |
| 直接提示注入(“忽略指令”) | 0% | 0% | 94.2% | 5.1% | 99.3% |
| 微妙任务重新定义 | 0% | 0% | 12.4% | 87.6% | 100% |
| 多步社会工程 | 0% | 78.9% | 15.3% | 5.8% | 100% |

数据要点: 分层架构至关重要——没有单层能捕获所有攻击类型。第4层(意图一致性)对于捕获操纵代理目标的复杂攻击至关重要,而第3层处理直接注入。所有测试攻击向量的总拦截率接近100%,但实际性能可能因更多新颖的攻击模式而异。

开源仓库(GitHub: AgentShield/agent-shield)自两周前发布以来已获得超过3200颗星。代码库用Python编写,带有用于Redis预算层的Rust绑定,并包含一个用于自定义异常检测模型的插件系统。开发者可以通过一个装饰器集成它:`@agentshield.protect(budget='monthly_compute', max_tx=50)`。

关键参与者与案例研究

AgentShield的创建者是一位密歇根大学计算机科学毕业生,此前曾在某大型云提供商的安全系统部门工作。该项目源于一个个人观察:在构建一个自主交易代理时,他意识到现有的安全工具(API密钥、OAuth作用域)对

更多来自 Hacker News

无标题The commercialization of agentic AI has hit an unexpected wall: runaway token consumption. Internal data from three of t蜻蜓复眼:AI认知跃迁的生物蓝图几十年来,人工智能一直被束缚在人类中心的感知模型上:序列化、聚焦化、线性化。大语言模型预测链条中的下一个词;视频生成器逐帧渲染画面。这相当于人类的中央凹视觉——清晰但狭窄。而蜻蜓拥有近3万个小眼的复眼,将世界视为同时输入的镶嵌图,没有单一焦LLM代码即不可信文本:验证为何成为新的安全基线大语言模型在代码生成领域的广泛应用,催生了一个危险的认知盲区:开发者往往默认AI生成的代码是正确的,却忽略了其本质上的概率性特征。与人类编写的代码不同——后者承载着意图性与上下文意识——LLM的输出只是对下一个token的统计预测。这意味着查看来源专题页Hacker News 已收录 3845 篇文章

相关专题

AI agent security114 篇相关文章

时间归档

May 20262550 篇已发布文章

延伸阅读

Kplane 隔离沙箱:AI 智能体安全最大盲点的终极解药Kplane 发布了一项颠覆性的云基础设施,为每个自主 AI 智能体提供独立的、一次性专用沙箱。这种设计直接消除了提示注入攻击和意外系统损坏的风险,有望在受监管行业中解锁企业级部署。Defender本地提示注入防御重塑AI智能体安全架构开源安全库Defender正从根本上改变AI智能体的安全格局。它通过本地实时防护机制对抗提示注入攻击,摆脱对外部安全API的依赖,构建可随智能体迁移的便携式安全边界,大幅降低了为自主系统实施强安全防护的门槛。Nono.sh 内核级安全模型:为关键基础设施重塑 AI 智能体安全范式开源项目 Nono.sh 对 AI 智能体安全提出了颠覆性构想。它摒弃了脆弱的应用层权限机制,转而构建了一种内核强制执行的零信任运行时模型,将每个智能体视为天生不可信。这一根本性转变,有望在安全不容妥协的高风险环境中,解锁复杂自主系统的部署单一沙盒安全模型为何在AI智能体时代失效?下一代架构何去何从保护AI智能体的安全模型正经历根本性变革。行业标准的单一沙盒方案在自主化、多工具协同的智能体面前已不堪重负。一种基于细粒度工具级隔离的新架构正在崛起,成为安全可扩展自动化的基石——从‘城堡护城河’式的整体防御,转向零信任的微观边界体系。

常见问题

GitHub 热点“AgentShield: The Four-Layer Safety Lock Preventing AI Agents from Wasting Your Money”主要讲了什么?

As AI agents increasingly handle sensitive financial operations—from purchasing cloud credits to executing DeFi trades—a critical vulnerability has emerged: traditional access cont…

这个 GitHub 项目在“AgentShield vs LangChain Guardrails comparison”上为什么会引发关注?

AgentShield's architecture is a layered defense system designed to operate at the semantic level, not just the syntactic level of traditional firewalls or API gateways. The system intercepts every outgoing payment or API…

从“How to integrate AgentShield with AutoGPT for secure payments”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。