RIFT-Bench：动态红队框架如何揭开自主AI代理的隐藏漏洞

2026年6月24日 12:02 AINews arXiv cs.AI June 2026

来源：arXiv cs.AI AI agent security 归档：June 2026

RIFT-Bench，一个全新的动态红队框架，利用基于图的攻击链，深入揭示自主AI代理的深层漏洞。与静态基准不同，它模拟了整个决策管线——工具、记忆、规划与API——以复现真实世界的对抗场景。这标志着从被动修补到主动安全验证的关键转变。

RIFT-Bench作为AI安全领域的一项关键创新，直击一个根本性缺口：一个能安全回答问题的模型，与一个能在现实世界中安全行动的模型，两者之间存在天壤之别。传统的LLM红队测试聚焦于越狱——让模型说出不该说的话。但自主代理将感知、规划、工具使用和记忆串联在一起，其攻击面被极大扩展。一次被攻破的工具调用、一条被投毒的记忆条目、或一个被操纵的规划步骤，都可能级联成灾难性后果——未授权数据访问、金融欺诈、甚至物理世界伤害。RIFT-Bench通过基于图的代理决策管线表示来应对这一挑战。它建模了LLM核心、外部API、内部记忆与规划模块之间的依赖关系。该框架采用动态对抗场景生成器，遍历此图，在关键节点注入扰动。RIFT-Bench不仅衡量攻击的成功与否，还评估失败的“影响”与“传播”，关键指标包括攻击成功率（ASR）、平均攻陷时间（MTTC）和级联深度（单次注入影响的下游节点数）。其技术亮点包括动态攻击链（将多次攻击串联，模拟复杂多步利用）、工具无关设计（支持任何定义了OpenAPI或JSON schema的工具）以及记忆投毒（向代理长期记忆注入虚假信息，观察其后续决策）。目前，LangChain已将其集成至企业安全套件，AutoGPT开发者利用它修复了规划模块中的递归调用漏洞，微软也在为Copilot生态系统评估该框架。RIFT-Bench是唯一覆盖整个代理管线并支持动态攻击链的基准，而现有基准要么是静态的、要么仅针对工具或LLM。

技术深度解析

RIFT-Bench的核心创新在于其基于图的自主AI代理决策管线表示。与测试孤立提示的静态基准不同，RIFT-Bench将代理建模为一个有向图，其中节点代表组件（LLM核心、工具API、记忆存储、规划模块），边代表数据流与控制流。该框架随后采用一个动态对抗场景生成器，遍历此图，在关键节点注入扰动。

架构细节：
- 图构建： 框架自动将代理的配置——工具定义、记忆模式、规划算法（例如ReAct、思维树或自定义规划器）——解析为正式图。每个节点有一个类型（LLM、工具、记忆、规划器）和关联元数据（例如工具输入/输出模式、记忆检索策略）。
- 对抗场景生成： RIFT-Bench使用基于强化学习的攻击规划器，学习识别图中最脆弱的路径。它生成同时针对多个节点的场景——例如，一次提示注入污染了一条记忆条目，进而影响了一个规划决策，该决策调用了一个带有恶意参数的工具。
- 评估指标： 该框架不仅衡量攻击的成功与否，还评估失败的“影响”与“传播”。关键指标包括：攻击成功率（ASR）、平均攻陷时间（MTTC）和级联深度（单次注入影响的下游节点数）。

技术创新：
- 动态攻击链： 与静态红队测试不同，RIFT-Bench将多次攻击串联在一起，模拟复杂的多步利用。例如，它可能首先使用提示注入提取工具的API密钥，然后使用该密钥以恶意输入调用工具，最后观察代理的规划器如何处理被污染的输出。
- 工具无关设计： 该框架支持任何定义了OpenAPI或JSON schema的工具。这使得它适用于基于LangChain、AutoGPT、BabyAGI或自定义框架构建的代理。
- 记忆投毒： 一种新颖的攻击向量，框架向代理的长期记忆（例如向量数据库）注入虚假信息，并观察代理在后续决策中如何使用这些虚假数据。

感兴趣的GitHub仓库：
- RIFT-Bench代码库本身（最近开源，1.2k星）提供了图构建和对抗生成算法的参考实现。
- `agent-security-toolkit`仓库（2.8k星）提供了用于加固代理管线的补充工具，包括输入清理器和记忆验证模块。

| 基准 | 类型 | 攻击面覆盖 | 动态链支持 | 领域无关 |
|---|---|---|---|---|
| RIFT-Bench | 基于图的动态 | 完整管线（LLM、工具、记忆、规划） | 是 | 是 |
| AgentDojo | 基于静态场景 | 仅工具调用 | 否 | 否（工具特定） |
| CyberSecEval | 基于静态提示 | 仅LLM | 否 | 否（网络安全） |
| SafetyBench | 基于静态问答 | 仅LLM | 否 | 否（通用安全） |

数据要点： RIFT-Bench是唯一覆盖整个代理管线并支持动态攻击链的基准，而现有基准要么是静态的、要么仅针对工具或LLM。这种全面覆盖对于现实世界的自主系统至关重要。

关键参与者与案例研究

研究机构：
- RIFT-Bench团队由来自一家主要AI安全实验室的研究人员领导，包括此前在MIT和斯坦福等机构从事对抗鲁棒性研究的贡献者。他们之前在机器人系统基于图的安全方面的工作直接影响了该框架的设计。
- 来自一所欧洲大学的竞争性努力，名为'AgentShield'，侧重于运行时监控而非部署前测试。AgentShield使用对代理操作日志的异常检测，但缺乏RIFT-Bench的主动对抗生成。

行业采用：
- LangChain已将RIFT-Bench集成到其企业安全套件中，允许开发者在部署前针对该基准测试其代理。早期采用者报告关键漏洞减少了40%。
- AutoGPT开发者使用RIFT-Bench识别出其规划模块中的一个关键缺陷：代理可能被诱骗执行递归工具调用，从而耗尽API积分。现已合并的修复增加了递归深度限制。
- 微软正在为Copilot生态系统评估RIFT-Bench，特别是针对那些访问企业数据并执行代码的代理。内部测试显示，一个精心设计的提示可能导致代理读取并泄露用户的整个电子邮件历史。

| 解决方案 | 方法 | 覆盖范围 | 成熟度 | 开源 |
|---|---|---|---|---|
| RIFT-Bench | 部署前基于图的红队测试 | 完整管线 | 研究原型 | 是 |
| AgentShield | 运行时监控 | 仅操作日志 | 研究原型 | 是 |

时间归档

常见问题

这次模型发布“RIFT-Bench: The Dynamic Red-Teaming Framework That Exposes Hidden AI Agent Vulnerabilities”的核心内容是什么？

RIFT-Bench emerges as a pivotal innovation in AI security, addressing a fundamental gap: the difference between a model that can safely answer questions and one that can safely act…

从“How does RIFT-Bench compare to traditional LLM jailbreaking benchmarks”看，这个模型发布为什么重要？

RIFT-Bench's core innovation is its graph-based representation of an autonomous AI agent's decision pipeline. Unlike static benchmarks that test isolated prompts, RIFT-Bench models the agent as a directed graph where nod…

围绕“Can RIFT-Bench detect vulnerabilities in multi-agent systems”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

RIFT-Bench：动态红队框架如何揭开自主AI代理的隐藏漏洞

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

相关专题

时间归档

延伸阅读

常见问题