技术深度解析
英伟达OpenShell的架构标志着对传统LLM安全方法的彻底背离。传统方法,如OpenAI的Moderation API或Claude的Constitutional AI,是作为外部分类器或基于规则的系统运行,用于筛查提示和响应。它们将LLM视为一个黑盒。相反,OpenShell将智能体的*执行环境*视作主要攻击面,并从内部对其进行加固。
其核心技术构造是一个安全智能体飞地。这是一个硬件加速的隔离运行时环境——深度利用了英伟达在Hopper和Blackwell GPU上的机密计算能力——它封装了智能体的完整循环:感知(提示/上下文输入)、规划(推理链生成)、执行(工具/API调用)和学习(短期记忆更新)。该飞地确保了完整性(智能体的代码和状态在执行期间无法被篡改)、机密性(智能体工作内存中的敏感数据被加密,主机系统无法访问)以及可验证性(远程方可通过密码学方式验证智能体正在运行未经修改、可信的代码)。
关键机制包括:
* 确定性执行沙箱: 所有工具调用都通过一个具有严格资源和网络访问控制的安全沙箱进行路由。智能体对工具的指令在飞地内进行密码学签名,工具的输出在重新被智能体接收前会经过验证。
* 不可变推理日志: 智能体思维链或思维树推理的每一步都被记录到一个防篡改的账本中(概念上类似于区块链,但针对性能进行了优化)。这为事后分析和合规性创建了不可变的审计追踪。
* 动态策略注入: 安全策略(例如,“绝不发起超过10,000美元的转账”,“不得访问患者的社会安全号码”)不仅仅是提示指令。它们被编译成可验证的约束条件,注入到飞地的执行逻辑中,从而使其更难通过提示工程等手段绕过。
一个探索相邻理念的相关开源项目是`microsoft/guidance`,这是一个通过约束生成来控制LLM输出的库。虽然它不提供安全飞地,但展示了业界对更确定、更可控的LLM行为的推动。OpenShell可以被视为将这一概念推向架构极致的产物。
来自英伟达研究预览版的早期基准数据突显了延迟/安全性的权衡。下表比较了标准智能体工作流与在H100 GPU上运行于OpenShell飞地内的工作流。
| 指标 | 标准智能体(无保护) | 使用OpenShell飞地的智能体 | 开销 |
|---|---|---|---|
| 端到端任务延迟(简单问答) | 120 毫秒 | 145 毫秒 | +20.8% |
| 端到端任务延迟(复杂规划与执行) | 850 毫秒 | 1,050 毫秒 | +23.5% |
| 内存带宽利用率 | 85% | 92% | +7 个百分点 |
| 成功攻击缓解(提示注入) | 42% | 98% | +133% |
| 数据泄露防护 | 不适用 | 99.99% | 不适用 |
数据要点: OpenShell架构引入了约20-25%的稳定性能开销,对于高价值、敏感任务而言,这是一个显著但可能可以接受的代价。其安全回报是巨大的,尤其是在缓解提示注入攻击方面——这是针对AI智能体最常见且最危险的攻击向量。
关键参与者与案例研究
对智能体安全的推动正在形成不同的战略阵营。英伟达通过OpenShell,押注于一种硬件根植、架构级的解决方案。这与其销售加速计算平台的核心业务,以及通过NIM和AI Enterprise推进的更广泛的企业软件战略相一致。
微软通过其Copilot Runtime和Azure AI Studio,正在推行一种云平台集成模型。安全通过Azure的机密计算基础设施、Entra ID治理以及与Microsoft Purview的深度集成来实现合规性。他们的方法更侧重于将安全融入整个Azure AI结构,而非提供一个独立的框架。
Anthropic的Claude和谷歌的Gemini模型正在推进宪法式与自我批判安全的前沿,试图将鲁棒性直接构建到LLM的权重中。Anthropic在可扩展监督和模型自我反思方面的研究旨在创建能够自我诊断不安全计划的智能体。这是一种以模型为中心的方法,与英伟达以系统为中心的方法形成对比。
初创公司也在细分领域深耕。`Cognition AI`(Devin的开发者)专注于创建高度可靠、范围狭窄的智能体,其安全性通过极端的专业化和输出验证来实现。`MultiOn`和其他面向消费者的智能体平台目前依赖于更简单的用户确认对话框和速率限制,代表了当前面向大众市场的实用安全水平。