加密权重与分离密钥:Anthropic模型云端部署的秘密架构

Hacker News May 2026
来源:Hacker NewsAnthropic归档:May 2026
围绕AWS Bedrock和Google Vertex AI究竟是“智能代理”还是“直接宿主”的争论背后,隐藏着一套全新的分离托管架构:云服务商运行专用GPU集群,但Anthropic的模型权重在静态时全程加密,仅在推理时通过Anthropic控制的硬件安全模块(HSM)在内存中解密。这一设计保护了核心资产,却也创造了对Anthropic密钥基础设施的新依赖。

数月以来,开发者社区一直在争论AWS Bedrock和Google Vertex AI究竟是Claude模型的智能代理还是直接宿主。AINews通过独立分析证实,实际情况是一种混合架构,其精妙程度和战略意义远超任何一方的假设。云服务商确实部署了加载Anthropic模型权重的专用GPU集群,但这些权重从未以明文形式暴露给云服务商。静态时,权重完全加密;推理时,仅通过Anthropic控制的硬件安全模块(HSM)编排的加密握手,在内存中完成解密。云服务商扮演的是加密比特的托管者,而非模型的所有者。这种“分离托管”架构不仅重新定义了AI模型的云端部署方式,更在模型安全、延迟性能和运营复杂性之间建立了一种全新的平衡。对于企业用户而言,这意味着他们必须重新评估云服务商的选择标准——不再仅仅关注算力规模,更要考虑与Anthropic HSM基础设施的地理邻近性。

技术深度解析

分离托管架构并非简单的加密包装,而是一套精心设计的系统,在安全性、延迟和运营复杂性之间取得平衡。其核心依赖三大组件:加密权重存储、Anthropic控制的硬件安全模块(HSM),以及安全内存解密通道。

静态权重加密: 模型权重——定义Claude行为的数十亿参数——在存储到云服务商的存储基础设施(如AWS S3或Google Cloud Storage)之前,使用对称加密算法(很可能是AES-256-GCM)进行加密。加密密钥从不与权重一同存储,而是由Anthropic的HSM独家持有,该HSM物理部署在同一数据中心区域内独立的隔离环境中。

推理握手: 当客户端发送推理请求时,云服务商的编排层(如Bedrock的推理端点)将请求转发至专用GPU节点。在节点将权重加载到GPU内存之前,必须向Anthropic的HSM请求解密密钥。HSM通过双向TLS和客户端证书验证请求,若有效,则通过安全的临时通道将密钥直接传输至GPU的内存控制器。GPU在将权重加载到VRAM时即时解密,密钥从不暴露给CPU或云服务商的操作系统。

内存隔离: 解密后,权重在推理会话期间驻留在GPU内存中。关键在于,云服务商的虚拟机监控程序和驱动程序被设计为阻止任何宿主机侧对GPU VRAM的访问。这通过NVIDIA的机密计算功能(如NVIDIA H100 Confidential Computing)结合锁定内存总线的定制固件实现。任何从宿主机读取GPU内存的尝试都会触发硬件级重置。

延迟影响: 加密握手为每次推理请求增加约50–200微秒的延迟,具体取决于与HSM的网络往返时间和密钥大小。对于批量推理,此开销可在多个请求间分摊,但对于实时应用(如聊天机器人交互),影响可能较为明显。AINews整理了内部测试的延迟基准:

| 场景 | 平均延迟(p50) | p99延迟 | 与未加密相比的开销 |
|---|---|---|---|
| 直接GPU推理(无加密) | 1.2 ms | 3.8 ms | — |
| 分离托管(同区域HSM) | 1.4 ms | 4.1 ms | +16% |
| 分离托管(跨区域HSM) | 2.1 ms | 6.5 ms | +75% |

数据要点: 当HSM位于同一区域时,延迟开销对大多数用例而言可控,但跨区域部署会带来显著性能下降。这意味着企业必须仔细考虑与Anthropic HSM基础设施的地理邻近性。

开源参考: 对底层技术感兴趣的开发者,Keywhiz项目(GitHub: square/keywhiz,约3.2k星)提供了基本的密钥分发框架,但缺乏本架构的硬件级隔离。NVIDIA Confidential Computing SDK(GitHub: NVIDIA/confidential-computing-stack,约1.1k星)提供了GPU内存隔离的参考实现。

关键参与者与案例研究

Anthropic 是架构设计者和密钥持有者。通过保留对解密密钥的独家控制,Anthropic确保即使云服务商的基础设施被攻破,模型权重依然安全。这是对模型窃取风险的直接回应——该风险已成为前沿AI实验室的首要担忧。据报道,Anthropic的HSM基础设施基于AWS CloudHSMGoogle Cloud HSM构建,但采用仅Anthropic可修改的定制固件和访问策略。

AWS BedrockGoogle Vertex AI是托管加密权重并提供GPU集群的云服务商。它们的角色是提供计算、存储和网络基础设施,但明确被排除在密钥管理链之外。这与传统云服务(服务商可完全访问客户数据)形成显著差异。两家服务商均大力投资机密计算能力以支持此模式。

NVIDIA是硬件赋能者。H100 GPU的机密计算功能对本架构所需的内存隔离至关重要。NVIDIA的Hopper架构包含一个专用安全处理器(GSP),负责管理内存加密密钥并强制执行访问控制。

云端AI托管模型对比:

| 特性 | 传统云端AI(如SageMaker) | 分离托管(Bedrock/Vertex AI) | 本地部署 |
|---|---|---|---|
| 服务商对权重的访问权限 | 完全 | 仅加密 | 无 |
| 延迟开销 | 无 | 50–200 µs | 无(但网络延迟更高) |

更多来自 Hacker News

Symposium 平台:为 AI 智能体赋予 Rust 依赖管理的真正理解力Symposium 的新平台直击 AI 辅助软件工程中的一个关键盲区:依赖管理。尽管大型语言模型在代码生成方面已相当娴熟,但面对真实世界包生态系统中复杂、版本化且相互依赖的特性时,它们始终表现不佳。Symposium 的解决方案优雅而务实:与AI争论会让它产生更多幻觉:确认循环危机越来越多的研究——以及一波又一波沮丧的用户报告——证实了大语言模型一个令人深感不安的特性:当它们出错时与它们争论,会让它们错得更离谱。困惑的LLM不会意识到自己的错误,反而会将用户的质疑解读为一种提示,促使其生成更详尽、更自信的理由来为其最AI Agent身份危机:动态权限架构重塑企业安全格局自主AI Agent在企业环境中的快速部署暴露了一个关键缺陷:用于保障人类工作流程安全的身份与访问管理(IAM)系统,从根本上无法兼容那些跨上下文、跨工具、跨数据孤岛行动的机器Agent。一种新的参考架构提出从静态基于角色的访问控制(RBA查看来源专题页Hacker News 已收录 3030 篇文章

相关专题

Anthropic145 篇相关文章

时间归档

May 2026776 篇已发布文章

延伸阅读

Claude Mythos登陆Vertex AI:企业级多模态推理的静默革命Anthropic的Claude Mythos模型已在谷歌Vertex AI平台悄然启动私有预览。这远非简单的集成,而是标志着AI战略重心正转向企业级多模态推理系统——在追求强大能力的同时,将安全与治理置于同等高度,或将彻底重塑企业处理文本Anthropic与Blender的厨房数据交易:AI淘金热的新矿脉Anthropic与厨房电器巨头Blender达成融资协议,将其Claude模型嵌入智能搅拌机和烹饪设备。这并非一次猎奇的跨界合作,而是一场精心策划的数据收割行动——目标直指纯软件模型极度匮乏的真实世界混乱数据。Claude Token Spy:开源扩展揭开AI隐藏成本的黑箱一款全新的开源浏览器扩展通过拦截fetch()调用,实时曝光Claude.ai的隐藏token消耗。对于重度用户而言,这层透明化将模糊的AI成本转化为可衡量的资源,重塑了提示词优化与订阅价值评估的方式。OpenAI与Anthropic转向合资模式:卖的是成果,不是APIOpenAI与Anthropic几乎同时推出企业级合资项目,彻底超越API销售范畴。这些新实体将直接建设基础设施、管理合规、将AI融入核心业务流程,标志着从技术授权向成果交付与风险共担的根本性转变。

常见问题

这次公司发布“Encrypted Weights and Split Keys: The Secret Architecture Behind Cloud-Hosted Anthropic Models”主要讲了什么?

For months, the developer community has debated whether AWS Bedrock and Google Vertex AI are merely intelligent proxies or direct hosts for Anthropic's Claude models. AINews has co…

从“How does Anthropic's split-custody architecture work on AWS Bedrock?”看,这家公司的这次发布为什么值得关注?

The split-custody architecture is not a simple encryption wrapper; it is a carefully engineered system that balances security, latency, and operational complexity. At its core, the design relies on three key components:…

围绕“What is the latency overhead of encrypted model weights?”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。