英伟达OpenShell以“内置免疫”架构重新定义AI智能体安全

2026年4月15日 01:28 AINews Hacker News April 2026

来源：Hacker News AI agent security autonomous agents AI safety 归档：April 2026

英伟达近日发布基础安全框架OpenShell，将防护能力直接嵌入AI智能体的核心架构。这标志着安全范式从边界过滤向内在“认知安全”的根本性转变，旨在破解阻碍自主智能体从惊艳演示走向关键任务可靠部署的核心信任壁垒。

自主AI智能体领域正处在一个转折点。尽管演示展现了惊人能力，但企业对安全性、可靠性和信任的根本担忧，仍严重制约着其大规模应用。那些能够执行代码、操作数据和控制系统的智能体，一旦其内部推理或工具调用过程被攻破、误导或泄露敏感信息，将带来前所未有的风险。当前主流的安全模型——在大型语言模型的输入和输出边界施加过滤器和护栏——已被证明不足以应对智能体的威胁，因为其危险恰恰存在于这些边界之间的多步骤认知操作中。

英伟达的OpenShell直指这一核心挑战。它提出了一个新范式：安全必须是智能体架构的内在属性，而非外部附加物。该框架的核心是构建一个“安全智能体飞地”，这是一个硬件加速的隔离运行时环境，封装了智能体的完整循环：感知（提示/上下文输入）、规划（推理链生成）、执行（工具/API调用）和学习（短期记忆更新）。通过将安全深度集成到执行层，OpenShell旨在为智能体提供“内置免疫”，使其能够抵御提示注入、数据泄露和未经授权的工具调用等攻击，同时保持可验证的执行完整性。

这一架构转变呼应了行业日益迫切的需求：随着AI智能体开始处理金融交易、医疗诊断和工业控制等敏感任务，传统的基于边界的“守门人”模式已显得力不从心。OpenShell代表了一种更根本的解决方案，试图在智能体“思考”和“行动”的每一步中确保安全，从而为关键任务部署铺平道路。这不仅是一个技术框架的发布，更是英伟达在定义下一代可信AI基础设施标准方面的重要落子，可能深刻影响企业AI的采纳路径和监管考量。

技术深度解析

英伟达OpenShell的架构标志着对传统LLM安全方法的彻底背离。传统方法，如OpenAI的Moderation API或Claude的Constitutional AI，是作为外部分类器或基于规则的系统运行，用于筛查提示和响应。它们将LLM视为一个黑盒。相反，OpenShell将智能体的*执行环境*视作主要攻击面，并从内部对其进行加固。

其核心技术构造是一个安全智能体飞地。这是一个硬件加速的隔离运行时环境——深度利用了英伟达在Hopper和Blackwell GPU上的机密计算能力——它封装了智能体的完整循环：感知（提示/上下文输入）、规划（推理链生成）、执行（工具/API调用）和学习（短期记忆更新）。该飞地确保了完整性（智能体的代码和状态在执行期间无法被篡改）、机密性（智能体工作内存中的敏感数据被加密，主机系统无法访问）以及可验证性（远程方可通过密码学方式验证智能体正在运行未经修改、可信的代码）。

关键机制包括：
* 确定性执行沙箱： 所有工具调用都通过一个具有严格资源和网络访问控制的安全沙箱进行路由。智能体对工具的指令在飞地内进行密码学签名，工具的输出在重新被智能体接收前会经过验证。
* 不可变推理日志： 智能体思维链或思维树推理的每一步都被记录到一个防篡改的账本中（概念上类似于区块链，但针对性能进行了优化）。这为事后分析和合规性创建了不可变的审计追踪。
* 动态策略注入： 安全策略（例如，“绝不发起超过10,000美元的转账”，“不得访问患者的社会安全号码”）不仅仅是提示指令。它们被编译成可验证的约束条件，注入到飞地的执行逻辑中，从而使其更难通过提示工程等手段绕过。

一个探索相邻理念的相关开源项目是`microsoft/guidance`，这是一个通过约束生成来控制LLM输出的库。虽然它不提供安全飞地，但展示了业界对更确定、更可控的LLM行为的推动。OpenShell可以被视为将这一概念推向架构极致的产物。

来自英伟达研究预览版的早期基准数据突显了延迟/安全性的权衡。下表比较了标准智能体工作流与在H100 GPU上运行于OpenShell飞地内的工作流。

| 指标 | 标准智能体（无保护） | 使用OpenShell飞地的智能体 | 开销 |
|---|---|---|---|
| 端到端任务延迟（简单问答） | 120 毫秒 | 145 毫秒 | +20.8% |
| 端到端任务延迟（复杂规划与执行） | 850 毫秒 | 1,050 毫秒 | +23.5% |
| 内存带宽利用率 | 85% | 92% | +7 个百分点 |
| 成功攻击缓解（提示注入） | 42% | 98% | +133% |
| 数据泄露防护 | 不适用 | 99.99% | 不适用 |

数据要点： OpenShell架构引入了约20-25%的稳定性能开销，对于高价值、敏感任务而言，这是一个显著但可能可以接受的代价。其安全回报是巨大的，尤其是在缓解提示注入攻击方面——这是针对AI智能体最常见且最危险的攻击向量。

关键参与者与案例研究

对智能体安全的推动正在形成不同的战略阵营。英伟达通过OpenShell，押注于一种硬件根植、架构级的解决方案。这与其销售加速计算平台的核心业务，以及通过NIM和AI Enterprise推进的更广泛的企业软件战略相一致。

微软通过其Copilot Runtime和Azure AI Studio，正在推行一种云平台集成模型。安全通过Azure的机密计算基础设施、Entra ID治理以及与Microsoft Purview的深度集成来实现合规性。他们的方法更侧重于将安全融入整个Azure AI结构，而非提供一个独立的框架。

Anthropic的Claude和谷歌的Gemini模型正在推进宪法式与自我批判安全的前沿，试图将鲁棒性直接构建到LLM的权重中。Anthropic在可扩展监督和模型自我反思方面的研究旨在创建能够自我诊断不安全计划的智能体。这是一种以模型为中心的方法，与英伟达以系统为中心的方法形成对比。

初创公司也在细分领域深耕。`Cognition AI`（Devin的开发者）专注于创建高度可靠、范围狭窄的智能体，其安全性通过极端的专业化和输出验证来实现。`MultiOn`和其他面向消费者的智能体平台目前依赖于更简单的用户确认对话框和速率限制，代表了当前面向大众市场的实用安全水平。

时间归档

常见问题

这次模型发布“Nvidia OpenShell Redefines AI Agent Security with 'Built-In Immunity' Architecture”的核心内容是什么？

The autonomous AI agent landscape is at an inflection point. While demonstrations showcase remarkable capabilities, widespread enterprise adoption remains hamstrung by fundamental…

从“Nvidia OpenShell vs Microsoft Copilot security”看，这个模型发布为什么重要？

Nvidia OpenShell's architecture represents a radical departure from conventional LLM security. Traditional approaches, like OpenAI's Moderation API or Claude's Constitutional AI, operate as external classifiers or rule-b…

围绕“OpenShell performance overhead benchmark H100”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

英伟达OpenShell以“内置免疫”架构重新定义AI智能体安全

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题