Cerberus：开源防火墙，驯服失控AI代理的运行时守护者

Cerberus在AI代理发展的关键转折点问世。当自主代理从实验性聊天机器人进化为发送邮件、修改数据库、执行Shell命令的生产系统时，每一次工具调用都可能成为攻击面或操作失误。Cerberus并不试图让代理更聪明或更道德，而是承认其固有不可靠性，将其包裹在可编程的本地安全屏障中。这款运行时防火墙借鉴了传统网络安全的零信任原则——从不信任任何调用，始终验证。对企业而言，这意味着不再仅依赖模型的安全对齐，而是通过可审计、可定制的规则引擎来管控代理行为并满足合规要求。通过将安全焦点从模型内部转移到运行时边界，Cerberus为AI代理的规模化部署提供了务实路径。

技术深度解析

Cerberus作为一个轻量级代理层运行，位于AI代理的推理引擎与其调用的外部工具之间。其架构看似简单却功能强大：一个规则引擎在每次工具调用分派前，根据用户定义的策略集进行评估。核心组件包括：

- 拦截钩子（Interceptor Hook）：一个Python装饰器或中间件，包装代理发出的任何函数调用。它捕获函数名称、参数和元数据（时间戳、代理ID、会话上下文）。
- 策略评估器（Policy Evaluator）：一个确定性引擎，根据YAML或JSON规则集检查调用。规则可以简单（如“拒绝所有对生产数据库的DELETE操作”）或复杂（如“仅当收件人域名在批准列表中且邮件正文长度小于500字符且无附件时，才允许发送邮件”）。
- 审计日志（Audit Logger）：每次拦截的调用——无论允许还是阻止——都会记录完整上下文，支持事后分析和合规报告。
- 反馈通道（Feedback Channel）：防火墙可向代理返回结构化错误或经过净化的替代方案，实现优雅降级而非硬崩溃。

该项目托管在GitHub上，仓库名为`cerberus-agent-firewall`（目前约2300颗星，每周有活跃提交）。它通过简单的插件模块支持与LangChain、AutoGPT和CrewAI等主流代理框架集成。规则语言足够表达丰富，支持正则匹配、数值阈值和布尔逻辑，并可引用外部数据源（例如公司内部注册表中的批准API端点白名单）。

性能基准测试显示，Cerberus增加的延迟极小——通常每次拦截调用低于5毫秒——使其适用于实时代理交互。下表将其开销与其他运行时安全方法进行了比较：

| 方法 | 每次调用平均延迟 | 规则复杂度 | 审计追踪 | 开源 |
|---|---|---|---|---|
| Cerberus（默认规则） | 2.3毫秒 | 高（基于YAML） | 完整 | 是 |
| 模型级护栏（如OpenAI内容过滤器） | 150毫秒 | 低（预定义类别） | 部分 | 否 |
| 自定义包装代码 | 0.5毫秒（无审计） | 可变 | 无 | 视情况而定 |
| 第三方API网关（如Kong） | 10毫秒 | 中等 | 完整 | 部分 |

数据要点： 在运行时安全解决方案中，Cerberus在低延迟、高规则表达力和完整可审计性之间提供了最佳平衡。其开源特性允许进行专有护栏无法比拟的定制。

关键参与者与案例研究

Cerberus由一个小型团队创建，该团队的前身是基础设施安全工程师，曾在Tailscale和Cloudflare等公司从事零信任网络工作。他们认识到，保护企业网络的相同原则——最小权限、持续验证、微隔离——可以应用于代理工具调用。主要开发者（GitHub上以`@agentguard`为名）一直积极阐述项目理念：“我们不信任代理。我们信任规则。”

几位早期采用者已将Cerberus集成到生产工作流中：

- 金融科技初创公司PayFlow使用Cerberus管理一个自动化发票处理的代理。该代理可以读取邮件、提取付款数据并更新会计数据库，但Cerberus阻止任何修改用户余额或删除交易记录的尝试。PayFlow报告称，部署防火墙后，误报欺诈警报减少了40%。
- 医疗平台MediAssist部署Cerberus来控制一个查询患者记录的临床决策支持代理。防火墙确保代理永远不会访问其授权部门之外的记录，并且永远不会写入EHR系统。以前需要数周的合规审计现在通过Cerberus的审计日志实现自动化。
- 电商公司ShopBot将Cerberus与一个客户服务代理配合使用，该代理可以下订单、退款和更新送货地址。防火墙强制执行一项规则：超过100美元的退款需要经理批准令牌，代理必须通过二次API调用获取该令牌。

竞争解决方案的比较揭示了Cerberus的独特定位：

| 解决方案 | 焦点 | 定价 | 自定义规则 | 审计 | 代理框架支持 |
|---|---|---|---|---|---|
| Cerberus | 运行时工具调用防火墙 | 免费（开源） | 完整YAML | 是 | LangChain, AutoGPT, CrewAI |
| OpenAI的函数调用护栏 | 模型级安全 | 按Token计费 | 有限 | 部分 | 仅OpenAI |
| Guardrails AI | 输入/输出验证 | 免费增值 | 中等 | 是 | LangChain, LlamaIndex |
| MLflow AI Gateway | API管理 | 企业版 | 低 | 是 | MLflow生态系统 |

数据要点： Cerberus是唯一结合了开源许可、完整自定义规则支持和广泛框架兼容性的解决方案。其主要限制是需要手动编写规则，这要求运维团队具备一定的策略定义能力。

时间归档

延伸阅读

常见问题

GitHub 热点“Cerberus: The Open-Source Firewall That Tames Unruly AI Agents at Runtime”主要讲了什么？

Cerberus arrives at a critical inflection point for AI agents. As autonomous agents move from experimental chatbots to production systems that send emails, modify databases, and ex…

这个 GitHub 项目在“how to install Cerberus agent firewall locally”上为什么会引发关注？

Cerberus operates as a lightweight proxy layer that sits between the AI agent's reasoning engine and the external tools it calls. Its architecture is deceptively simple but powerful: a rule engine that evaluates every to…

从“Cerberus vs OpenAI function calling guardrails comparison”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。