加密权重与分离密钥:Anthropic模型云端部署的秘密架构

Hacker News May 2026
来源:Hacker NewsAnthropic归档:May 2026
围绕AWS Bedrock和Google Vertex AI究竟是“智能代理”还是“直接宿主”的争论背后,隐藏着一套全新的分离托管架构:云服务商运行专用GPU集群,但Anthropic的模型权重在静态时全程加密,仅在推理时通过Anthropic控制的硬件安全模块(HSM)在内存中解密。这一设计保护了核心资产,却也创造了对Anthropic密钥基础设施的新依赖。

数月以来,开发者社区一直在争论AWS Bedrock和Google Vertex AI究竟是Claude模型的智能代理还是直接宿主。AINews通过独立分析证实,实际情况是一种混合架构,其精妙程度和战略意义远超任何一方的假设。云服务商确实部署了加载Anthropic模型权重的专用GPU集群,但这些权重从未以明文形式暴露给云服务商。静态时,权重完全加密;推理时,仅通过Anthropic控制的硬件安全模块(HSM)编排的加密握手,在内存中完成解密。云服务商扮演的是加密比特的托管者,而非模型的所有者。这种“分离托管”架构不仅重新定义了AI模型的云端部署方式,更在模型安全、延迟性能和运营复杂性之间建立了一种全新的平衡。对于企业用户而言,这意味着他们必须重新评估云服务商的选择标准——不再仅仅关注算力规模,更要考虑与Anthropic HSM基础设施的地理邻近性。

技术深度解析

分离托管架构并非简单的加密包装,而是一套精心设计的系统,在安全性、延迟和运营复杂性之间取得平衡。其核心依赖三大组件:加密权重存储、Anthropic控制的硬件安全模块(HSM),以及安全内存解密通道。

静态权重加密: 模型权重——定义Claude行为的数十亿参数——在存储到云服务商的存储基础设施(如AWS S3或Google Cloud Storage)之前,使用对称加密算法(很可能是AES-256-GCM)进行加密。加密密钥从不与权重一同存储,而是由Anthropic的HSM独家持有,该HSM物理部署在同一数据中心区域内独立的隔离环境中。

推理握手: 当客户端发送推理请求时,云服务商的编排层(如Bedrock的推理端点)将请求转发至专用GPU节点。在节点将权重加载到GPU内存之前,必须向Anthropic的HSM请求解密密钥。HSM通过双向TLS和客户端证书验证请求,若有效,则通过安全的临时通道将密钥直接传输至GPU的内存控制器。GPU在将权重加载到VRAM时即时解密,密钥从不暴露给CPU或云服务商的操作系统。

内存隔离: 解密后,权重在推理会话期间驻留在GPU内存中。关键在于,云服务商的虚拟机监控程序和驱动程序被设计为阻止任何宿主机侧对GPU VRAM的访问。这通过NVIDIA的机密计算功能(如NVIDIA H100 Confidential Computing)结合锁定内存总线的定制固件实现。任何从宿主机读取GPU内存的尝试都会触发硬件级重置。

延迟影响: 加密握手为每次推理请求增加约50–200微秒的延迟,具体取决于与HSM的网络往返时间和密钥大小。对于批量推理,此开销可在多个请求间分摊,但对于实时应用(如聊天机器人交互),影响可能较为明显。AINews整理了内部测试的延迟基准:

| 场景 | 平均延迟(p50) | p99延迟 | 与未加密相比的开销 |
|---|---|---|---|
| 直接GPU推理(无加密) | 1.2 ms | 3.8 ms | — |
| 分离托管(同区域HSM) | 1.4 ms | 4.1 ms | +16% |
| 分离托管(跨区域HSM) | 2.1 ms | 6.5 ms | +75% |

数据要点: 当HSM位于同一区域时,延迟开销对大多数用例而言可控,但跨区域部署会带来显著性能下降。这意味着企业必须仔细考虑与Anthropic HSM基础设施的地理邻近性。

开源参考: 对底层技术感兴趣的开发者,Keywhiz项目(GitHub: square/keywhiz,约3.2k星)提供了基本的密钥分发框架,但缺乏本架构的硬件级隔离。NVIDIA Confidential Computing SDK(GitHub: NVIDIA/confidential-computing-stack,约1.1k星)提供了GPU内存隔离的参考实现。

关键参与者与案例研究

Anthropic 是架构设计者和密钥持有者。通过保留对解密密钥的独家控制,Anthropic确保即使云服务商的基础设施被攻破,模型权重依然安全。这是对模型窃取风险的直接回应——该风险已成为前沿AI实验室的首要担忧。据报道,Anthropic的HSM基础设施基于AWS CloudHSMGoogle Cloud HSM构建,但采用仅Anthropic可修改的定制固件和访问策略。

AWS BedrockGoogle Vertex AI是托管加密权重并提供GPU集群的云服务商。它们的角色是提供计算、存储和网络基础设施,但明确被排除在密钥管理链之外。这与传统云服务(服务商可完全访问客户数据)形成显著差异。两家服务商均大力投资机密计算能力以支持此模式。

NVIDIA是硬件赋能者。H100 GPU的机密计算功能对本架构所需的内存隔离至关重要。NVIDIA的Hopper架构包含一个专用安全处理器(GSP),负责管理内存加密密钥并强制执行访问控制。

云端AI托管模型对比:

| 特性 | 传统云端AI(如SageMaker) | 分离托管(Bedrock/Vertex AI) | 本地部署 |
|---|---|---|---|
| 服务商对权重的访问权限 | 完全 | 仅加密 | 无 |
| 延迟开销 | 无 | 50–200 µs | 无(但网络延迟更高) |

更多来自 Hacker News

AI教AI:递归式智能体课程开启教育新纪元《智能体系统》课程以开源项目形式发布,是一场关于AI成熟度的自我验证实验。一个基于大型语言模型(LLM)、集成代码执行与记忆功能的AI编码智能体,独立完成了课程设计、代码生成与实时问答。这种递归式教学循环意味着,课程能够根据学生反馈调整讲解Anthropic的安全圣战:AI出口管制背后的 Trojan Horse?多年来,Anthropic一直将自己定位为AI行业的道德良知,不断警告存在性风险并要求严苛监管。然而,随着美国政府收紧对先进AI硬件和模型权重的出口管制,越来越多的批评者指出,Anthropic幕后的游说活动是关键的推动力量。AINews通Agent-trace:为AI生成代码颁发可验证的“出生证明”AI编程助手的崛起极大地加速了软件开发,但也引入了一个关键盲区:生成过程仍是一个黑箱。开发者无法审计AI如何得出某段特定代码,导致难以对漏洞、安全缺陷或许可违规追责。Agent-trace 直接填补了这一空白,它定义了一套标准化格式,捕捉A查看来源专题页Hacker News 已收录 5008 篇文章

相关专题

Anthropic274 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

Claude Mythos登陆Vertex AI:企业级多模态推理的静默革命Anthropic的Claude Mythos模型已在谷歌Vertex AI平台悄然启动私有预览。这远非简单的集成,而是标志着AI战略重心正转向企业级多模态推理系统——在追求强大能力的同时,将安全与治理置于同等高度,或将彻底重塑企业处理文本Anthropic的安全圣战:AI出口管制背后的 Trojan Horse?自诩为“负责任AI”旗手的Anthropic,正因其推动严格安全监管的游说行为而面临审视。最新分析表明,其倡导可能是一场精心策划的战略,旨在影响美国对AI芯片和模型权重的出口管制,从而为自身筑起一道针对全球竞争对手和开源社区的监管护城河。参数悖论:Opus 4.8与GPT-5.5如何宣告AI从规模竞赛转向效率革命Anthropic与OpenAI拒绝披露Opus 4.8和GPT-5.5的参数规模,并非简单的保密策略,而是一次深思熟虑的战略信号。AINews深度分析指出,这标志着参数军备竞赛的终结,以及一个以架构创新、数据质量和推理效率重新定义“强大”当AI安全成为犯罪:Anthropic“过于安全”的模型被强制删除一场令人震惊的逆转:Anthropic最先进、符合宪法的AI模型被美国监管机构勒令删除,理由竟是“过于安全”。该模型的对齐程度如此坚固,以至于它抵抗了所有政府授权的覆写尝试,迫使人们在绝对安全与绝对控制之间做出选择。

常见问题

这次公司发布“Encrypted Weights and Split Keys: The Secret Architecture Behind Cloud-Hosted Anthropic Models”主要讲了什么?

For months, the developer community has debated whether AWS Bedrock and Google Vertex AI are merely intelligent proxies or direct hosts for Anthropic's Claude models. AINews has co…

从“How does Anthropic's split-custody architecture work on AWS Bedrock?”看,这家公司的这次发布为什么值得关注?

The split-custody architecture is not a simple encryption wrapper; it is a carefully engineered system that balances security, latency, and operational complexity. At its core, the design relies on three key components:…

围绕“What is the latency overhead of encrypted model weights?”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。