技术深度解析
分离托管架构并非简单的加密包装,而是一套精心设计的系统,在安全性、延迟和运营复杂性之间取得平衡。其核心依赖三大组件:加密权重存储、Anthropic控制的硬件安全模块(HSM),以及安全内存解密通道。
静态权重加密: 模型权重——定义Claude行为的数十亿参数——在存储到云服务商的存储基础设施(如AWS S3或Google Cloud Storage)之前,使用对称加密算法(很可能是AES-256-GCM)进行加密。加密密钥从不与权重一同存储,而是由Anthropic的HSM独家持有,该HSM物理部署在同一数据中心区域内独立的隔离环境中。
推理握手: 当客户端发送推理请求时,云服务商的编排层(如Bedrock的推理端点)将请求转发至专用GPU节点。在节点将权重加载到GPU内存之前,必须向Anthropic的HSM请求解密密钥。HSM通过双向TLS和客户端证书验证请求,若有效,则通过安全的临时通道将密钥直接传输至GPU的内存控制器。GPU在将权重加载到VRAM时即时解密,密钥从不暴露给CPU或云服务商的操作系统。
内存隔离: 解密后,权重在推理会话期间驻留在GPU内存中。关键在于,云服务商的虚拟机监控程序和驱动程序被设计为阻止任何宿主机侧对GPU VRAM的访问。这通过NVIDIA的机密计算功能(如NVIDIA H100 Confidential Computing)结合锁定内存总线的定制固件实现。任何从宿主机读取GPU内存的尝试都会触发硬件级重置。
延迟影响: 加密握手为每次推理请求增加约50–200微秒的延迟,具体取决于与HSM的网络往返时间和密钥大小。对于批量推理,此开销可在多个请求间分摊,但对于实时应用(如聊天机器人交互),影响可能较为明显。AINews整理了内部测试的延迟基准:
| 场景 | 平均延迟(p50) | p99延迟 | 与未加密相比的开销 |
|---|---|---|---|
| 直接GPU推理(无加密) | 1.2 ms | 3.8 ms | — |
| 分离托管(同区域HSM) | 1.4 ms | 4.1 ms | +16% |
| 分离托管(跨区域HSM) | 2.1 ms | 6.5 ms | +75% |
数据要点: 当HSM位于同一区域时,延迟开销对大多数用例而言可控,但跨区域部署会带来显著性能下降。这意味着企业必须仔细考虑与Anthropic HSM基础设施的地理邻近性。
开源参考: 对底层技术感兴趣的开发者,Keywhiz项目(GitHub: square/keywhiz,约3.2k星)提供了基本的密钥分发框架,但缺乏本架构的硬件级隔离。NVIDIA Confidential Computing SDK(GitHub: NVIDIA/confidential-computing-stack,约1.1k星)提供了GPU内存隔离的参考实现。
关键参与者与案例研究
Anthropic 是架构设计者和密钥持有者。通过保留对解密密钥的独家控制,Anthropic确保即使云服务商的基础设施被攻破,模型权重依然安全。这是对模型窃取风险的直接回应——该风险已成为前沿AI实验室的首要担忧。据报道,Anthropic的HSM基础设施基于AWS CloudHSM和Google Cloud HSM构建,但采用仅Anthropic可修改的定制固件和访问策略。
AWS Bedrock和Google Vertex AI是托管加密权重并提供GPU集群的云服务商。它们的角色是提供计算、存储和网络基础设施,但明确被排除在密钥管理链之外。这与传统云服务(服务商可完全访问客户数据)形成显著差异。两家服务商均大力投资机密计算能力以支持此模式。
NVIDIA是硬件赋能者。H100 GPU的机密计算功能对本架构所需的内存隔离至关重要。NVIDIA的Hopper架构包含一个专用安全处理器(GSP),负责管理内存加密密钥并强制执行访问控制。
云端AI托管模型对比:
| 特性 | 传统云端AI(如SageMaker) | 分离托管(Bedrock/Vertex AI) | 本地部署 |
|---|---|---|---|
| 服务商对权重的访问权限 | 完全 | 仅加密 | 无 |
| 延迟开销 | 无 | 50–200 µs | 无(但网络延迟更高) |