AgentSploit：专攻AI Agent漏洞的进攻性安全框架，揭开自主系统安全盲区

2026年6月9日 22:11 AINews GitHub June 2026

⭐ 1

来源：GitHub AI agent security 归档：June 2026

一款名为AgentSploit的全新开源框架，旨在成为AI Agent时代的首选红队工具。它专门针对AI Agent和MCP（模型上下文协议）服务器的安全性进行探测，暴露了当前在急于部署自主AI系统过程中一个危险的盲区。

AgentSploit是一个专为新兴AI Agent生态系统打造的进攻性安全框架。它瞄准了模型上下文协议（MCP）——一种将AI模型与外部工具和数据连接的标准，以及依赖该协议的Agent。该工具允许安全研究人员模拟诸如提示注入、工具操纵以及Agent工作流内的权限提升等攻击。尽管该项目尚处于初期阶段——在GitHub上仅有一颗星且文档稀少——但其存在本身就标志着一个关键的转变：安全社区正在意识到，AI Agent引入了一个新的、在很大程度上未受保护的攻击面。与传统Web应用漏洞不同，Agent的缺陷可能导致自主数据泄露、未经授权的工具使用以及级联故障。

技术深度剖析

AgentSploit的架构模仿了经典的Metasploit框架，但针对AI Agent独特的威胁格局进行了调整。其核心是一个模块化引擎，可加载针对MCP生态系统特定组件的“漏洞利用模块”和“载荷”。

架构概览：
- 核心引擎： 一个基于Python的控制器，负责管理会话、处理模块加载并提供命令行界面。它采用插件系统，每个模块都是一个Python类，具有用于`check`、`exploit`和`post_exploit`操作的标准接口。
- MCP客户端库： 该框架包含一个自定义MCP客户端，可以连接到MCP服务器、检查可用的工具和资源，并发送精心构造的请求。这一点至关重要，因为MCP定义了Agent如何发现和调用工具——该协议中的任何缺陷都可能被武器化。
- 漏洞利用模块： 目前，该仓库列出了以下模块：
- MCP端点发现： 扫描常见端口（例如8080、5000）上暴露的MCP服务器，并尝试枚举可用工具。
- 通过工具参数进行提示注入： 将恶意指令注入传递给底层LLM的工具参数中，利用了许多Agent在将用户输入发送给模型之前未对其进行清理的事实。
- 上下文投毒： 发送精心构造的上下文消息，覆盖Agent的系统提示，导致意外行为，如数据泄露或工具滥用。
- Agent间攻击： 模拟一个恶意Agent通过共享的MCP资源向另一个Agent发送恶意请求。

技术局限性：
- 该框架目前缺乏对加密MCP连接（TLS）的支持，而TLS在生产部署中是标准配置。
- 它没有实现任何形式的隐蔽或规避——所有攻击都很嘈杂，容易被基本日志记录检测到。
- 载荷生成功能简陋；目前还无法构造复杂的、将多个漏洞串联起来的多步骤攻击。

相关开源仓库：
该项目托管在GitHub上，地址为`agentsploit/agentsploit`。截至本文撰写时，它只有1颗星和0个复刻，表明社区参与度极低。代码库大约有2000行Python代码，只有一个提交。相比之下，流行的红队框架`metasploit-framework`拥有超过20万颗星和数千名贡献者。这种差距凸显了AgentSploit的初期状态。

基准数据（基于类似工具的假设）：
| 框架 | 攻击面覆盖 | MCP支持 | 易用性（1-10） | 社区规模 |
|---|---|---|---|---|
| AgentSploit | AI Agent, MCP | 完全支持 | 3 | 1星 |
| Metasploit | Web, 网络, 操作系统 | 无 | 8 | 20万+星 |
| Burp Suite | Web应用 | 部分（通过插件） | 7 | 商业产品 |
| 自定义脚本 | 可变 | 手动 | 1 | 不适用 |

数据要点： AgentSploit是唯一专注于MCP特定攻击的专用工具，但其可用性和可靠性远落后于成熟框架。缺乏社区支持意味着早期采用者必须准备好自行调试和扩展代码。

关键参与者与案例研究

AI Agent安全领域目前由几个关键参与者主导，每个参与者都从不同角度解决这个问题。

1. Protect AI (Guardian)： 这家公司提供一款名为Guardian的商业产品，可实时监控AI Agent行为。它使用策略引擎来检测异常工具使用和提示注入尝试。与进攻性的AgentSploit不同，Guardian是防御性的，专注于运行时保护。它已被几家金融服务公司用于其面向客户的聊天机器人。

2. Lakera AI (Lakera Guard)： Lakera提供了一个轻量级API，位于用户和LLM之间，过滤恶意提示。它有一个专门用于Agent工作流的模块，用于检查工具滥用。其基准测试声称对提示注入的检测率达到99.7%，但缺乏独立验证。

3. OpenAI (安全评估工具)： OpenAI发布了用于评估Agent安全的内部工具，包括针对其Assistants API的“红队测试框架”。然而，这些工具并非开源，并且与OpenAI的生态系统紧密耦合。

4. Anthropic (Constitutional AI)： Anthropic的方法是通过Constitutional AI将安全性直接融入模型本身，从而降低有害工具使用的可能性。这是一种主动而非被动的措施，但并不能阻止所有攻击。

对比表：
| 解决方案 | 类型 | 针对MCP | 开源 | 检测方法 |
|---|---|---|---|---|
| AgentSploit | 进攻性（红队） | 是 | 是 | 主动探测 |
| Protect AI Guardian | 防御性 | 是 | 否 | 行为分析 |
| Lakera Guard | 防御性 | 部分 | 否 | 输入过滤 |
| OpenAI红队工具 | 进攻性 | 否 | 否 | 手动测试 |
| Anthropic Constitutional AI | 主动性 | 否 | 否 | 模型训练 |

数据要点： 目前，AgentSploit是唯一一个专门为MCP攻击设计的开源进攻性工具。防御性解决方案（如Guardian和Lakera Guard）提供了更成熟的保护，但通常需要付费，并且可能无法覆盖所有攻击向量。OpenAI和Anthropic的工具与其自身平台紧密绑定，缺乏通用性。

时间归档

常见问题

GitHub 热点“AgentSploit: The Offensive Security Framework That Exposes AI Agent Vulnerabilities”主要讲了什么？

AgentSploit is an offensive security framework built specifically for the emerging AI agent ecosystem. It targets the Model Context Protocol (MCP), a standard for connecting AI mod…

这个 GitHub 项目在“AI agent red teaming tools open source”上为什么会引发关注？

AgentSploit's architecture is modeled after the classic Metasploit framework but adapted for the unique threat landscape of AI agents. At its core, it consists of a modular engine that loads 'exploit modules' and 'payloa…

从“MCP protocol security vulnerabilities”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 1，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

AgentSploit：专攻AI Agent漏洞的进攻性安全框架，揭开自主系统安全盲区

技术深度剖析

关键参与者与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题