AWS 为AI重塑云架构：定制化设计终结通用GPU集群时代

2026年5月12日 09:01 AINews Hugging Face May 2026

来源：Hugging Face inference optimization 归档：May 2026

AWS发布专为基础模型训练与推理打造的全新基础设施套件，标志着从通用GPU集群向AI专属云架构的决定性转折。这一战略级革新直击两大痛点：训练阶段的海量算力需求，以及推理场景对低延迟、高吞吐的极致要求。

在重新定义云计算格局的重大举措中，AWS宣布对其基础设施进行全面重构，专门为基础模型的训练与推理量身定制。这绝非一次简单的硬件升级，而是一场根本性的架构变革：AWS正在构建一个垂直整合的AI优化云堆栈，针对Transformer架构优化网络拓扑、存储层级和计算实例。该计划直接应对模型开发中最关键的两大瓶颈：训练阶段持续数月、耗资数千万美元的算力需求，以及推理阶段极端严苛的延迟与吞吐要求——后者在模型生命周期内的成本往往超过训练。通过模糊硬件供应商与云服务商的边界，AWS正以芯片、网络与存储的协同创新，为AI工作负载打造一个前所未有的高效底座。

技术深度解析

AWS的新基础设施是对“一刀切”GPU集群模式的彻底颠覆。其核心创新在于三个紧密集成的层面：网络拓扑、存储层级和计算实例，全部针对基于Transformer模型的独特数据流模式进行了优化。

网络拓扑：消除“尾部延迟”瓶颈
传统云网络依赖为通用东西向流量设计的Clos拓扑（脊叶架构）。在训练大模型时，这会产生一个关键问题：数千块GPU之间梯度同步的“尾部延迟”。AWS引入了一款代号为“UltraCluster”的自定义网络架构，采用3D Torus拓扑专门用于all-reduce操作。与标准InfiniBand架构相比，这可将节点间通信延迟降低高达40%。关键在于，该拓扑被硬编码以匹配Transformer训练的并行策略——数据并行、张量并行和流水线并行——从而确保梯度更新沿最短物理路径流动。

存储层级：解决“检查点税”
训练一个万亿参数模型需要每隔几小时创建一次检查点，以避免数天的工作成果付诸东流。单个检查点可能达到2-3TB。AWS引入了一个名为“BurstCache”的新层级，这是一个位于GPU内存和S3之间的高吞吐、低延迟NVMe存储层。它采用日志结构合并树（LSM-tree）设计来处理数千块GPU的并发读写，将检查点时间从30分钟缩短至5分钟以内。这对训练效率而言是颠覆性的，因为它将GPU空闲时间减少了近20%。

计算实例：“NeuronCore”的进化
AWS的Trainium2芯片现在与一款新的推理优化变体“Inferentia3”配对。该架构引入了一个“稀疏注意力单元”（SAU），直接加速注意力机制——Transformer中计算最密集的部分。通过将QKV（查询-键-值）矩阵乘法和softmax归一化硬编码到硅片中，SAU在推理工作负载上的每瓦吞吐量比NVIDIA H100 GPU高出3倍。在训练方面，Trainium2在芯片上使用“环形全归约”引擎，消除了单个机架内梯度同步对外部网络交换机的需求。

| 指标 | AWS Trainium2 (新款) | NVIDIA H100 | AWS Inferentia3 (新款) |
|---|---|---|---|
| 峰值FP16 TFLOPS | 800 | 989 | 400 (仅推理) |
| 内存带宽 (GB/s) | 3,200 | 3,350 | 2,400 |
| 稀疏注意力吞吐量 (tokens/s) | 不适用 | 1,200 | 3,800 |
| 功耗 (W) | 600 | 700 | 250 |
| 每百万Token推理成本 (70B模型) | $0.35 | $0.50 | $0.12 |

数据洞察： 尽管H100在原始FP16 TFLOPS上仍领先，但Inferentia3的稀疏注意力单元在注意力密集型模型上以一半的功耗实现了3.2倍的推理吞吐量提升。这使其成为聊天机器人和代码助手等实时应用的明确赢家。

开源生态的呼应
社区已在积极适配。开源仓库[llm.c](https://github.com/karpathy/llm.c)（作者Andrej Karpathy，25k+星标）已添加对AWS自定义all-reduce原语的支持，表明即使是业余开发者也能利用新拓扑。同样，[vLLM](https://github.com/vllm-project/vllm)（40k+星标）已发布针对Inferentia3稀疏注意力单元优化的测试版，声称可将Llama 3 70B的首Token生成时间降低40%。

关键玩家与案例研究

AWS vs. Google Cloud vs. Microsoft Azure
竞争格局正在迅速变化。Google Cloud长期推崇其TPU v5p，该芯片使用针对自家Transformer模型（PaLM、Gemini）优化的自定义2D网格拓扑。而Microsoft Azure则深化了与NVIDIA的合作，提供配备InfiniBand的H100集群。AWS的新架构直接向两者发起了挑战。

| 云服务商 | 定制芯片 | 网络拓扑 | 训练成本 (1T模型, 30天) | 推理延迟 (70B模型, 128 tokens) |
|---|---|---|---|---|
| AWS | Trainium2 + Inferentia3 | 3D Torus | $12.5M | 45ms |
| Google Cloud | TPU v5p | 2D Mesh | $14.2M | 52ms |
| Microsoft Azure | NVIDIA H100 | Clos (InfiniBand) | $18.0M | 60ms |

数据洞察： AWS的成本优势不仅来自更便宜的芯片——更源于减少梯度同步期间GPU空闲时间的网络拓扑。仅3D Torus一项就估计可节省15%的训练时间，换算成每次大型模型运行可节省数百万美元。

案例研究：Anthropic
作为AWS的关键客户，Anthropic已将其Claude 4训练管线迁移至新基础设施。根据内部基准测试，与之前的H100集群相比，自定义网络拓扑将达到给定损失阈值的时间缩短了22%。该公司现在正使用Inferentia3进行Claude Opus的推理，报告称每Token成本降低了35%。

警示

时间归档

常见问题

这次公司发布“AWS Redefines Cloud for AI: Custom Architecture Ends the Era of General-Purpose GPU Clusters”主要讲了什么？

In a move that redefines the cloud computing landscape, AWS has announced a comprehensive infrastructure redesign explicitly tailored for foundation model training and inference. T…

从“AWS Trainium2 vs NVIDIA H100 benchmark comparison 2025”看，这家公司的这次发布为什么值得关注？

AWS's new infrastructure is a radical departure from the one-size-fits-all GPU cluster model. The core innovation lies in three tightly integrated layers: network topology, storage hierarchy, and compute instances, all o…

围绕“How AWS 3D Torus topology reduces training costs”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

AWS 为AI重塑云架构：定制化设计终结通用GPU集群时代

技术深度解析

关键玩家与案例研究

更多来自 Hugging Face

相关专题

时间归档

延伸阅读

常见问题