加密权重与分离密钥：Anthropic模型云端部署的秘密架构

2026年5月1日 15:05 AINews Hacker News May 2026

来源：Hacker News Anthropic 归档：May 2026

围绕AWS Bedrock和Google Vertex AI究竟是“智能代理”还是“直接宿主”的争论背后，隐藏着一套全新的分离托管架构：云服务商运行专用GPU集群，但Anthropic的模型权重在静态时全程加密，仅在推理时通过Anthropic控制的硬件安全模块（HSM）在内存中解密。这一设计保护了核心资产，却也创造了对Anthropic密钥基础设施的新依赖。

数月以来，开发者社区一直在争论AWS Bedrock和Google Vertex AI究竟是Claude模型的智能代理还是直接宿主。AINews通过独立分析证实，实际情况是一种混合架构，其精妙程度和战略意义远超任何一方的假设。云服务商确实部署了加载Anthropic模型权重的专用GPU集群，但这些权重从未以明文形式暴露给云服务商。静态时，权重完全加密；推理时，仅通过Anthropic控制的硬件安全模块（HSM）编排的加密握手，在内存中完成解密。云服务商扮演的是加密比特的托管者，而非模型的所有者。这种“分离托管”架构不仅重新定义了AI模型的云端部署方式，更在模型安全、延迟性能和运营复杂性之间建立了一种全新的平衡。对于企业用户而言，这意味着他们必须重新评估云服务商的选择标准——不再仅仅关注算力规模，更要考虑与Anthropic HSM基础设施的地理邻近性。

技术深度解析

分离托管架构并非简单的加密包装，而是一套精心设计的系统，在安全性、延迟和运营复杂性之间取得平衡。其核心依赖三大组件：加密权重存储、Anthropic控制的硬件安全模块（HSM），以及安全内存解密通道。

静态权重加密： 模型权重——定义Claude行为的数十亿参数——在存储到云服务商的存储基础设施（如AWS S3或Google Cloud Storage）之前，使用对称加密算法（很可能是AES-256-GCM）进行加密。加密密钥从不与权重一同存储，而是由Anthropic的HSM独家持有，该HSM物理部署在同一数据中心区域内独立的隔离环境中。

推理握手： 当客户端发送推理请求时，云服务商的编排层（如Bedrock的推理端点）将请求转发至专用GPU节点。在节点将权重加载到GPU内存之前，必须向Anthropic的HSM请求解密密钥。HSM通过双向TLS和客户端证书验证请求，若有效，则通过安全的临时通道将密钥直接传输至GPU的内存控制器。GPU在将权重加载到VRAM时即时解密，密钥从不暴露给CPU或云服务商的操作系统。

内存隔离： 解密后，权重在推理会话期间驻留在GPU内存中。关键在于，云服务商的虚拟机监控程序和驱动程序被设计为阻止任何宿主机侧对GPU VRAM的访问。这通过NVIDIA的机密计算功能（如NVIDIA H100 Confidential Computing）结合锁定内存总线的定制固件实现。任何从宿主机读取GPU内存的尝试都会触发硬件级重置。

延迟影响： 加密握手为每次推理请求增加约50–200微秒的延迟，具体取决于与HSM的网络往返时间和密钥大小。对于批量推理，此开销可在多个请求间分摊，但对于实时应用（如聊天机器人交互），影响可能较为明显。AINews整理了内部测试的延迟基准：

| 场景 | 平均延迟（p50） | p99延迟 | 与未加密相比的开销 |
|---|---|---|---|
| 直接GPU推理（无加密） | 1.2 ms | 3.8 ms | — |
| 分离托管（同区域HSM） | 1.4 ms | 4.1 ms | +16% |
| 分离托管（跨区域HSM） | 2.1 ms | 6.5 ms | +75% |

数据要点： 当HSM位于同一区域时，延迟开销对大多数用例而言可控，但跨区域部署会带来显著性能下降。这意味着企业必须仔细考虑与Anthropic HSM基础设施的地理邻近性。

开源参考： 对底层技术感兴趣的开发者，Keywhiz项目（GitHub: square/keywhiz，约3.2k星）提供了基本的密钥分发框架，但缺乏本架构的硬件级隔离。NVIDIA Confidential Computing SDK（GitHub: NVIDIA/confidential-computing-stack，约1.1k星）提供了GPU内存隔离的参考实现。

关键参与者与案例研究

Anthropic 是架构设计者和密钥持有者。通过保留对解密密钥的独家控制，Anthropic确保即使云服务商的基础设施被攻破，模型权重依然安全。这是对模型窃取风险的直接回应——该风险已成为前沿AI实验室的首要担忧。据报道，Anthropic的HSM基础设施基于AWS CloudHSM和Google Cloud HSM构建，但采用仅Anthropic可修改的定制固件和访问策略。

AWS Bedrock和Google Vertex AI是托管加密权重并提供GPU集群的云服务商。它们的角色是提供计算、存储和网络基础设施，但明确被排除在密钥管理链之外。这与传统云服务（服务商可完全访问客户数据）形成显著差异。两家服务商均大力投资机密计算能力以支持此模式。

NVIDIA是硬件赋能者。H100 GPU的机密计算功能对本架构所需的内存隔离至关重要。NVIDIA的Hopper架构包含一个专用安全处理器（GSP），负责管理内存加密密钥并强制执行访问控制。

云端AI托管模型对比：

| 特性 | 传统云端AI（如SageMaker） | 分离托管（Bedrock/Vertex AI） | 本地部署 |
|---|---|---|---|
| 服务商对权重的访问权限 | 完全 | 仅加密 | 无 |
| 延迟开销 | 无 | 50–200 µs | 无（但网络延迟更高） |

时间归档

常见问题

这次公司发布“Encrypted Weights and Split Keys: The Secret Architecture Behind Cloud-Hosted Anthropic Models”主要讲了什么？

For months, the developer community has debated whether AWS Bedrock and Google Vertex AI are merely intelligent proxies or direct hosts for Anthropic's Claude models. AINews has co…

从“How does Anthropic's split-custody architecture work on AWS Bedrock?”看，这家公司的这次发布为什么值得关注？

The split-custody architecture is not a simple encryption wrapper; it is a carefully engineered system that balances security, latency, and operational complexity. At its core, the design relies on three key components:…

围绕“What is the latency overhead of encrypted model weights?”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

加密权重与分离密钥：Anthropic模型云端部署的秘密架构

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题