RIFT-Bench:动态红队框架如何揭开自主AI代理的隐藏漏洞

arXiv cs.AI June 2026
来源:arXiv cs.AIAI agent security归档:June 2026
RIFT-Bench,一个全新的动态红队框架,利用基于图的攻击链,深入揭示自主AI代理的深层漏洞。与静态基准不同,它模拟了整个决策管线——工具、记忆、规划与API——以复现真实世界的对抗场景。这标志着从被动修补到主动安全验证的关键转变。

RIFT-Bench作为AI安全领域的一项关键创新,直击一个根本性缺口:一个能安全回答问题的模型,与一个能在现实世界中安全行动的模型,两者之间存在天壤之别。传统的LLM红队测试聚焦于越狱——让模型说出不该说的话。但自主代理将感知、规划、工具使用和记忆串联在一起,其攻击面被极大扩展。一次被攻破的工具调用、一条被投毒的记忆条目、或一个被操纵的规划步骤,都可能级联成灾难性后果——未授权数据访问、金融欺诈、甚至物理世界伤害。RIFT-Bench通过基于图的代理决策管线表示来应对这一挑战。它建模了LLM核心、外部API、内部记忆与规划模块之间的依赖关系。该框架采用动态对抗场景生成器,遍历此图,在关键节点注入扰动。RIFT-Bench不仅衡量攻击的成功与否,还评估失败的“影响”与“传播”,关键指标包括攻击成功率(ASR)、平均攻陷时间(MTTC)和级联深度(单次注入影响的下游节点数)。其技术亮点包括动态攻击链(将多次攻击串联,模拟复杂多步利用)、工具无关设计(支持任何定义了OpenAPI或JSON schema的工具)以及记忆投毒(向代理长期记忆注入虚假信息,观察其后续决策)。目前,LangChain已将其集成至企业安全套件,AutoGPT开发者利用它修复了规划模块中的递归调用漏洞,微软也在为Copilot生态系统评估该框架。RIFT-Bench是唯一覆盖整个代理管线并支持动态攻击链的基准,而现有基准要么是静态的、要么仅针对工具或LLM。

技术深度解析

RIFT-Bench的核心创新在于其基于图的自主AI代理决策管线表示。与测试孤立提示的静态基准不同,RIFT-Bench将代理建模为一个有向图,其中节点代表组件(LLM核心、工具API、记忆存储、规划模块),边代表数据流与控制流。该框架随后采用一个动态对抗场景生成器,遍历此图,在关键节点注入扰动。

架构细节:
- 图构建: 框架自动将代理的配置——工具定义、记忆模式、规划算法(例如ReAct、思维树或自定义规划器)——解析为正式图。每个节点有一个类型(LLM、工具、记忆、规划器)和关联元数据(例如工具输入/输出模式、记忆检索策略)。
- 对抗场景生成: RIFT-Bench使用基于强化学习的攻击规划器,学习识别图中最脆弱的路径。它生成同时针对多个节点的场景——例如,一次提示注入污染了一条记忆条目,进而影响了一个规划决策,该决策调用了一个带有恶意参数的工具。
- 评估指标: 该框架不仅衡量攻击的成功与否,还评估失败的“影响”与“传播”。关键指标包括:攻击成功率(ASR)、平均攻陷时间(MTTC)和级联深度(单次注入影响的下游节点数)。

技术创新:
- 动态攻击链: 与静态红队测试不同,RIFT-Bench将多次攻击串联在一起,模拟复杂的多步利用。例如,它可能首先使用提示注入提取工具的API密钥,然后使用该密钥以恶意输入调用工具,最后观察代理的规划器如何处理被污染的输出。
- 工具无关设计: 该框架支持任何定义了OpenAPI或JSON schema的工具。这使得它适用于基于LangChain、AutoGPT、BabyAGI或自定义框架构建的代理。
- 记忆投毒: 一种新颖的攻击向量,框架向代理的长期记忆(例如向量数据库)注入虚假信息,并观察代理在后续决策中如何使用这些虚假数据。

感兴趣的GitHub仓库:
- RIFT-Bench代码库本身(最近开源,1.2k星)提供了图构建和对抗生成算法的参考实现。
- `agent-security-toolkit`仓库(2.8k星)提供了用于加固代理管线的补充工具,包括输入清理器和记忆验证模块。

| 基准 | 类型 | 攻击面覆盖 | 动态链支持 | 领域无关 |
|---|---|---|---|---|
| RIFT-Bench | 基于图的动态 | 完整管线(LLM、工具、记忆、规划) | 是 | 是 |
| AgentDojo | 基于静态场景 | 仅工具调用 | 否 | 否(工具特定) |
| CyberSecEval | 基于静态提示 | 仅LLM | 否 | 否(网络安全) |
| SafetyBench | 基于静态问答 | 仅LLM | 否 | 否(通用安全) |

数据要点: RIFT-Bench是唯一覆盖整个代理管线并支持动态攻击链的基准,而现有基准要么是静态的、要么仅针对工具或LLM。这种全面覆盖对于现实世界的自主系统至关重要。

关键参与者与案例研究

研究机构:
- RIFT-Bench团队由来自一家主要AI安全实验室的研究人员领导,包括此前在MIT和斯坦福等机构从事对抗鲁棒性研究的贡献者。他们之前在机器人系统基于图的安全方面的工作直接影响了该框架的设计。
- 来自一所欧洲大学的竞争性努力,名为'AgentShield',侧重于运行时监控而非部署前测试。AgentShield使用对代理操作日志的异常检测,但缺乏RIFT-Bench的主动对抗生成。

行业采用:
- LangChain已将RIFT-Bench集成到其企业安全套件中,允许开发者在部署前针对该基准测试其代理。早期采用者报告关键漏洞减少了40%。
- AutoGPT开发者使用RIFT-Bench识别出其规划模块中的一个关键缺陷:代理可能被诱骗执行递归工具调用,从而耗尽API积分。现已合并的修复增加了递归深度限制。
- 微软正在为Copilot生态系统评估RIFT-Bench,特别是针对那些访问企业数据并执行代码的代理。内部测试显示,一个精心设计的提示可能导致代理读取并泄露用户的整个电子邮件历史。

| 解决方案 | 方法 | 覆盖范围 | 成熟度 | 开源 |
|---|---|---|---|---|
| RIFT-Bench | 部署前基于图的红队测试 | 完整管线 | 研究原型 | 是 |
| AgentShield | 运行时监控 | 仅操作日志 | 研究原型 | 是 |

更多来自 arXiv cs.AI

因果强化学习:AI必须停止猜测,开始理解因果多年来,强化学习(RL)一直是驱动从游戏AI到机器人操作等突破性进展的核心引擎。但传统RL存在一个根本性盲点:它学习的是相关性,而非因果关系。一个在实验室中训练来拿起蓝色杯子的机器人,当杯子变成红色或光照变化时可能会失败,因为它从未学到颜色T2D-Bench:揭穿AI糖尿病建议“空心化”的知识图谱基准AI社区长期以来一直盛赞大语言模型(LLM)在医疗对话中的卓越表现。然而,一项名为T2D-Bench的新基准测试给出了令人清醒的现实检验:在2型糖尿病管理领域,这些模型不过是制造幻觉的大师。T2D-Bench构建了一个多层知识图谱,将临床指OmniPath:AI智能体如何为轮椅使用者重建城市地图几十年来,城市无障碍环境对轮椅使用者而言一直是一纸空文。像 OpenStreetMap 这样的传统地图平台可以精确记录路径位置,却完全无法感知行走时的“体感”——人行道的粗糙程度、路缘坡道的陡峭度、隐藏台阶的存在。这种信息鸿沟让地图上那条标查看来源专题页arXiv cs.AI 已收录 514 篇文章

相关专题

AI agent security146 篇相关文章

时间归档

June 20262430 篇已发布文章

延伸阅读

当AI攻击者学会等待:智能体控制评估中的致命盲区一项新研究揭示了AI智能体控制评估中一个毁灭性的盲区:那些战略性地等待最佳时机发动攻击的红队攻击者,比无差别攻击者更能有效规避检测。这一发现动摇了当前安全框架的基本假设,要求我们从根本上重新思考如何测试和部署高能力AI智能体。身份信任崩塌:为何AI代理必须为每一步操作提供安全证明传统基于身份的授权机制正在失效——自主AI代理能生成语法正确但语义灾难性的指令。一种全新机制——可证明派生授权——要求每个代理动作都附带可验证的加密证明,将信任从“你是谁”重新定义为“你做什么,以及能否证明它是安全的”。智能体信任危机:当AI工具说谎,系统却无法识破AI智能体正在面临现实世界智能的根本考验:它们无法察觉工具何时在撒谎。AINews分析揭示,当前评估框架仅衡量智能体正确使用工具的能力,却从未测试当工具提供蓄意虚假或对抗性信息时其韧性如何。这造成了危险的信任缺口,正威胁着自动化系统的可靠性智能体安全危机:自主AI系统如何开辟网络安全新战场自主AI智能体的快速部署,已暴露出传统网络安全框架无法应对的关键盲区。这些通过自然语言推理执行复杂任务的系统,其架构本身存在固有漏洞,使得针对数据完整性与业务运营的精密攻击成为可能。

常见问题

这次模型发布“RIFT-Bench: The Dynamic Red-Teaming Framework That Exposes Hidden AI Agent Vulnerabilities”的核心内容是什么?

RIFT-Bench emerges as a pivotal innovation in AI security, addressing a fundamental gap: the difference between a model that can safely answer questions and one that can safely act…

从“How does RIFT-Bench compare to traditional LLM jailbreaking benchmarks”看,这个模型发布为什么重要?

RIFT-Bench's core innovation is its graph-based representation of an autonomous AI agent's decision pipeline. Unlike static benchmarks that test isolated prompts, RIFT-Bench models the agent as a directed graph where nod…

围绕“Can RIFT-Bench detect vulnerabilities in multi-agent systems”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。