AWS 为AI重塑云架构:定制化设计终结通用GPU集群时代

Hugging Face May 2026
来源:Hugging Faceinference optimization归档:May 2026
AWS发布专为基础模型训练与推理打造的全新基础设施套件,标志着从通用GPU集群向AI专属云架构的决定性转折。这一战略级革新直击两大痛点:训练阶段的海量算力需求,以及推理场景对低延迟、高吞吐的极致要求。

在重新定义云计算格局的重大举措中,AWS宣布对其基础设施进行全面重构,专门为基础模型的训练与推理量身定制。这绝非一次简单的硬件升级,而是一场根本性的架构变革:AWS正在构建一个垂直整合的AI优化云堆栈,针对Transformer架构优化网络拓扑、存储层级和计算实例。该计划直接应对模型开发中最关键的两大瓶颈:训练阶段持续数月、耗资数千万美元的算力需求,以及推理阶段极端严苛的延迟与吞吐要求——后者在模型生命周期内的成本往往超过训练。通过模糊硬件供应商与云服务商的边界,AWS正以芯片、网络与存储的协同创新,为AI工作负载打造一个前所未有的高效底座。

技术深度解析

AWS的新基础设施是对“一刀切”GPU集群模式的彻底颠覆。其核心创新在于三个紧密集成的层面:网络拓扑、存储层级和计算实例,全部针对基于Transformer模型的独特数据流模式进行了优化。

网络拓扑:消除“尾部延迟”瓶颈
传统云网络依赖为通用东西向流量设计的Clos拓扑(脊叶架构)。在训练大模型时,这会产生一个关键问题:数千块GPU之间梯度同步的“尾部延迟”。AWS引入了一款代号为“UltraCluster”的自定义网络架构,采用3D Torus拓扑专门用于all-reduce操作。与标准InfiniBand架构相比,这可将节点间通信延迟降低高达40%。关键在于,该拓扑被硬编码以匹配Transformer训练的并行策略——数据并行、张量并行和流水线并行——从而确保梯度更新沿最短物理路径流动。

存储层级:解决“检查点税”
训练一个万亿参数模型需要每隔几小时创建一次检查点,以避免数天的工作成果付诸东流。单个检查点可能达到2-3TB。AWS引入了一个名为“BurstCache”的新层级,这是一个位于GPU内存和S3之间的高吞吐、低延迟NVMe存储层。它采用日志结构合并树(LSM-tree)设计来处理数千块GPU的并发读写,将检查点时间从30分钟缩短至5分钟以内。这对训练效率而言是颠覆性的,因为它将GPU空闲时间减少了近20%。

计算实例:“NeuronCore”的进化
AWS的Trainium2芯片现在与一款新的推理优化变体“Inferentia3”配对。该架构引入了一个“稀疏注意力单元”(SAU),直接加速注意力机制——Transformer中计算最密集的部分。通过将QKV(查询-键-值)矩阵乘法和softmax归一化硬编码到硅片中,SAU在推理工作负载上的每瓦吞吐量比NVIDIA H100 GPU高出3倍。在训练方面,Trainium2在芯片上使用“环形全归约”引擎,消除了单个机架内梯度同步对外部网络交换机的需求。

| 指标 | AWS Trainium2 (新款) | NVIDIA H100 | AWS Inferentia3 (新款) |
|---|---|---|---|
| 峰值FP16 TFLOPS | 800 | 989 | 400 (仅推理) |
| 内存带宽 (GB/s) | 3,200 | 3,350 | 2,400 |
| 稀疏注意力吞吐量 (tokens/s) | 不适用 | 1,200 | 3,800 |
| 功耗 (W) | 600 | 700 | 250 |
| 每百万Token推理成本 (70B模型) | $0.35 | $0.50 | $0.12 |

数据洞察: 尽管H100在原始FP16 TFLOPS上仍领先,但Inferentia3的稀疏注意力单元在注意力密集型模型上以一半的功耗实现了3.2倍的推理吞吐量提升。这使其成为聊天机器人和代码助手等实时应用的明确赢家。

开源生态的呼应
社区已在积极适配。开源仓库[llm.c](https://github.com/karpathy/llm.c)(作者Andrej Karpathy,25k+星标)已添加对AWS自定义all-reduce原语的支持,表明即使是业余开发者也能利用新拓扑。同样,[vLLM](https://github.com/vllm-project/vllm)(40k+星标)已发布针对Inferentia3稀疏注意力单元优化的测试版,声称可将Llama 3 70B的首Token生成时间降低40%。

关键玩家与案例研究

AWS vs. Google Cloud vs. Microsoft Azure
竞争格局正在迅速变化。Google Cloud长期推崇其TPU v5p,该芯片使用针对自家Transformer模型(PaLM、Gemini)优化的自定义2D网格拓扑。而Microsoft Azure则深化了与NVIDIA的合作,提供配备InfiniBand的H100集群。AWS的新架构直接向两者发起了挑战。

| 云服务商 | 定制芯片 | 网络拓扑 | 训练成本 (1T模型, 30天) | 推理延迟 (70B模型, 128 tokens) |
|---|---|---|---|---|
| AWS | Trainium2 + Inferentia3 | 3D Torus | $12.5M | 45ms |
| Google Cloud | TPU v5p | 2D Mesh | $14.2M | 52ms |
| Microsoft Azure | NVIDIA H100 | Clos (InfiniBand) | $18.0M | 60ms |

数据洞察: AWS的成本优势不仅来自更便宜的芯片——更源于减少梯度同步期间GPU空闲时间的网络拓扑。仅3D Torus一项就估计可节省15%的训练时间,换算成每次大型模型运行可节省数百万美元。

案例研究:Anthropic
作为AWS的关键客户,Anthropic已将其Claude 4训练管线迁移至新基础设施。根据内部基准测试,与之前的H100集群相比,自定义网络拓扑将达到给定损失阈值的时间缩短了22%。该公司现在正使用Inferentia3进行Claude Opus的推理,报告称每Token成本降低了35%。

警示

更多来自 Hugging Face

AMD ROCm 打破CUDA垄断:临床AI微调无需NVIDIA,成功验证多年来,医疗AI社区一直遵循一条不成文的规则:严肃的临床模型开发必须使用NVIDIA GPU和CUDA。这种依赖造成了单一供应商锁定,推高了成本,限制了采购灵活性,并集中了风险。一项由某大型学术医疗中心研究团队进行的新实验,系统性地推翻了这vLLM V1 重写规则:推理正确性必须优先于强化学习在通过强化学习(RL)将大语言模型与人类偏好对齐的竞赛中,一个危险的假设已经根深蒂固:奖励信号可以修复底层的推理缺陷。vLLM 项目从 V0 到 V1 的飞跃正面挑战了这一正统观念。通过在 RL 优化之前,在推理层强制执行数学正确性,vLLDeepInfra 接入 Hugging Face 推理市场:AI 基础设施迎来格局之变DeepInfra 集成至 Hugging Face 推理提供商网络,远非一次常规的平台合作。它代表着 AI 基础设施格局的根本性转变——瓶颈已从模型能力转向部署效率。过去一年,Llama 3、Mixtral 和 Qwen 等开源模型已缩小查看来源专题页Hugging Face 已收录 24 篇文章

相关专题

inference optimization19 篇相关文章

时间归档

May 20261237 篇已发布文章

延伸阅读

DeepInfra 接入 Hugging Face 推理市场:AI 基础设施迎来格局之变DeepInfra 正式加入 Hugging Face 推理市场,标志着 AI 推理商品化进程的关键转折。这一合作降低了开发者部署顶级开源模型的门槛,并加速了 Hugging Face 从模型库向完整 AI 操作系统的进化。AMD ROCm 打破CUDA垄断:临床AI微调无需NVIDIA,成功验证一项里程碑实验证明,临床AI大语言模型可在AMD ROCm平台上成功微调,无需一行CUDA代码,并在MedQA基准测试中取得与NVIDIA方案相媲美的成绩。这一突破打破了医疗AI领域对NVIDIA硬件的长期依赖,为医院和研究机构采用更灵活、vLLM V1 重写规则:推理正确性必须优先于强化学习从 vLLM V0 到 V1 的升级,标志着大语言模型对齐策略中优先级排序的根本性重构:推理正确性必须在任何基于强化学习的“修正”之前得到强制执行。这一架构转变可能重新定义 LLM 在高风险智能体工作流中的可靠性边界。Granite 4.1:IBM模块化开源AI重写企业规则IBM Granite 4.1系列通过将推理、检索和代码执行分离为模块化组件,重新定义了企业AI。这一开源家族优先考虑可解释性和可控性,而非原始参数数量,为受监管行业提供了可信的替代方案。

常见问题

这次公司发布“AWS Redefines Cloud for AI: Custom Architecture Ends the Era of General-Purpose GPU Clusters”主要讲了什么?

In a move that redefines the cloud computing landscape, AWS has announced a comprehensive infrastructure redesign explicitly tailored for foundation model training and inference. T…

从“AWS Trainium2 vs NVIDIA H100 benchmark comparison 2025”看,这家公司的这次发布为什么值得关注?

AWS's new infrastructure is a radical departure from the one-size-fits-all GPU cluster model. The core innovation lies in three tightly integrated layers: network topology, storage hierarchy, and compute instances, all o…

围绕“How AWS 3D Torus topology reduces training costs”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。