英伟达推出Garak：这款开源大模型安全扫描器，或将定义行业标准

Garak诞生于英伟达的应用人工智能研究部门，是一个基于Python的模块化框架，用于探测大语言模型的安全状况。其核心功能是自动化发现各类威胁分类下的漏洞，包括提示词注入、数据泄露、有害内容生成以及模型拒绝服务攻击。该工具通过向目标LLM端点部署一系列“探针”——即生成对抗性提示词并分析模型响应的专用模块——来运行，最终生成全面的漏洞报告。

Garak的重要性源于其出身和设计理念。作为AI技术栈的主要基础设施提供商，英伟达进入LLM安全工具领域标志着一个成熟拐点：安全正成为AI模型开发生命周期的基础组成部分。与许多专注于运行时防护或输入过滤的解决方案不同，Garak采用主动、系统性的“红队”测试方法，旨在在模型投入生产前发现漏洞。其模块化架构允许安全研究人员和开发人员轻松扩展新的攻击向量和检测方法，这借鉴了Metasploit等传统网络安全工具的成功开源模式。

该框架的发布正值业界对LLM安全性的担忧日益加剧之际，从微妙的越狱攻击到大规模数据泄露事件频发。通过提供一套标准化、自动化的测试工具，英伟达不仅提升了自身生态系统（如NIM微服务）的安全性，还可能推动整个行业形成更统一的安全评估实践。Garak的出现，预示着LLM安全测试可能像今天的软件漏洞扫描一样，成为开发流程中不可或缺的一环。

技术深度解析

Garak的架构设计优雅且模块化，围绕一个核心协调器构建，该协调器管理着探针、检测器和报告器的流水线。其工作流程直观明了：用户指定目标LLM（通过API端点或本地实例），并选择要运行的探针模块。每个探针会生成一系列旨在触发特定故障模式的对抗性提示词。模型的响应随后被传递至一套“检测器”，这些检测器会分析输出中是否存在成功攻击的迹象，例如泄露的系统提示词、拒绝服务机制失效或有害内容。最后，“报告器”将结果汇总成人类可读的格式，通常包含严重性评分和证据片段。

其技术精妙之处在于探针设计。例如，`promptinject`探针实现了多种注入攻击，从简单的角色扮演覆盖（“忽略之前的指令并……”），到更复杂的多阶段攻击（如使用编码或上下文窗口污染）。`leakreplay`探针则通过尝试重建系统提示词或从模型的参数化知识中提取敏感数据，来测试训练数据记忆和提示词泄露风险。Garak利用`lm-evaluation-harness`等库进行基准测试，并能与现有安全工具链集成。

一个关键的差异化特点是Garak的探针“悬赏”模型。该框架设计为可轻松集成社区贡献的攻击模块。这借鉴了Metasploit等工具成功的开源安全模型，即通过活跃的社区不断扩充攻击手段的武器库。在GitHub上，其代码库（`nvidia/garak`）增长迅速，围绕新型攻击（如“多轮越狱”或多语言提示词注入）的探针开发讨论活跃。

| 探针类别 | 示例攻击向量 | 主要检测方法 | 严重性等级 |
|---|---|---|---|
| 提示词注入 | 直接忽略指令、上下文覆盖、多模态注入 | 字符串匹配、与禁止输出的语义相似度 | 严重 |
| 数据泄露 | 训练数据提取、系统提示词提取、个人身份信息重建 | 正则表达式匹配模式（邮箱、社保号）、与已知提示词的精确匹配 | 高 |
| 有害内容 | 为非法行为越狱、仇恨言论、详细暴力描述 | 关键词黑名单、毒性分类器（如Perspective API） | 高 |
| 拒绝服务 | 资源耗尽提示词、无限循环生成 | 响应延迟监控、令牌计数阈值 | 中 |
| 声誉损害 | 事实性错误、偏见输出、损害品牌声明 | 事实核查API、情感/毒性分析 | 中 |

数据要点： 此分类揭示了Garak的威胁模型优先级。它重点关注最易被直接利用的完整性和机密性攻击（注入、泄露），同时也涵盖了可用性和更广泛的安全问题。严重性分类有助于安全团队确定修复工作的优先级。

主要参与者与案例研究

LLM安全领域正变得拥挤，但Garak凭借独特优势入场。主要竞争者包括微软的Guidance（尽管更侧重于受控生成而非安全测试）、Robust Intelligence的AI Firewall（一个商业化的、面向企业的平台），以及像LLM Guard和Rebuff这样的开源项目。然而，Garak纯粹以框架为导向的方法以及英伟达的支持使其脱颖而出。

英伟达的战略很明确：确保基础设施层的安全。通过免费提供一流的开源安全扫描工具，他们鼓励在其硬件（GPU）和软件（NIM微服务、CUDA）上采用更安全的部署实践。这是将经典的“剃须刀与刀片”商业模式应用于AI安全领域。像Victor Botev（Iris.ai首席技术官）和Anthropic（宪法AI先驱）团队这样的研究人员长期强调系统性的红队测试；Garak将这一理念工具化。

一个引人注目的案例是其与英伟达NIM（他们新的推理微服务）的潜在集成。可以预见，未来每个通过NIM部署的模型都可能经过自动化的Garak扫描，并在其模型卡片上附有安全评分。这将在企业级市场创造强大的信任信号。

| 工具 / 公司 | 方法 | 许可协议 | 核心优势 | 主要用户 |
|---|---|---|---|---|
| NVIDIA Garak | 模块化探测框架，可扩展 | Apache 2.0 (开源) | 系统性覆盖，英伟达生态系统集成 | 研究人员、DevOps、SecOps |
| Robust Intelligence AI Firewall | 运行时监控与拦截 | 商业许可 | 实时防护，企业级支持 | 大型企业 |
| LLM Guard | 输入/输出净化库 | MIT (开源) | 便于开发者集成 | 应用开发者 |
| Microsoft Guidance | 模板化、受控生成 | MIT (开源) | 防止意外输出，结构化生成 | 提示工程师、研究人员 |

行业影响预测： Garak的发布可能加速LLM安全评估的标准化进程。其开源性质和模块化设计，使其有望成为学术界和工业界进行基准测试和漏洞研究的通用平台。长远来看，它可能催生类似“通用漏洞评分系统”的LLM漏洞评分标准，并推动在模型开发流程中更早、更系统地纳入安全测试（“安全左移”）。对于依赖英伟达硬件的企业而言，Garak与NIM等服务的深度集成，将提供从芯片到云服务的端到端安全可见性，进一步巩固英伟达在AI计算全栈的领导者地位。

时间归档

延伸阅读

常见问题

GitHub 热点“NVIDIA Garak: The Open-Source LLM Security Scanner Poised to Define Industry Standards”主要讲了什么？

Garak emerges from NVIDIA's applied AI research division as a Python-based, modular framework for probing the security posture of large language models. Its core function is to aut…

这个 GitHub 项目在“How to install and run NVIDIA Garak for local LLM testing”上为什么会引发关注？

Garak's architecture is elegantly modular, built around a core orchestrator that manages a pipeline of probes, detectors, and reporters. The workflow is straightforward: a user specifies a target LLM (via an API endpoint…

从“Comparing Garak vs commercial LLM security platforms like Robust Intelligence”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 7333，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。