AWS 为AI重塑云架构:定制化设计终结通用GPU集群时代

Hugging Face May 2026
来源:Hugging Faceinference optimization归档:May 2026
AWS发布专为基础模型训练与推理打造的全新基础设施套件,标志着从通用GPU集群向AI专属云架构的决定性转折。这一战略级革新直击两大痛点:训练阶段的海量算力需求,以及推理场景对低延迟、高吞吐的极致要求。

在重新定义云计算格局的重大举措中,AWS宣布对其基础设施进行全面重构,专门为基础模型的训练与推理量身定制。这绝非一次简单的硬件升级,而是一场根本性的架构变革:AWS正在构建一个垂直整合的AI优化云堆栈,针对Transformer架构优化网络拓扑、存储层级和计算实例。该计划直接应对模型开发中最关键的两大瓶颈:训练阶段持续数月、耗资数千万美元的算力需求,以及推理阶段极端严苛的延迟与吞吐要求——后者在模型生命周期内的成本往往超过训练。通过模糊硬件供应商与云服务商的边界,AWS正以芯片、网络与存储的协同创新,为AI工作负载打造一个前所未有的高效底座。

技术深度解析

AWS的新基础设施是对“一刀切”GPU集群模式的彻底颠覆。其核心创新在于三个紧密集成的层面:网络拓扑、存储层级和计算实例,全部针对基于Transformer模型的独特数据流模式进行了优化。

网络拓扑:消除“尾部延迟”瓶颈
传统云网络依赖为通用东西向流量设计的Clos拓扑(脊叶架构)。在训练大模型时,这会产生一个关键问题:数千块GPU之间梯度同步的“尾部延迟”。AWS引入了一款代号为“UltraCluster”的自定义网络架构,采用3D Torus拓扑专门用于all-reduce操作。与标准InfiniBand架构相比,这可将节点间通信延迟降低高达40%。关键在于,该拓扑被硬编码以匹配Transformer训练的并行策略——数据并行、张量并行和流水线并行——从而确保梯度更新沿最短物理路径流动。

存储层级:解决“检查点税”
训练一个万亿参数模型需要每隔几小时创建一次检查点,以避免数天的工作成果付诸东流。单个检查点可能达到2-3TB。AWS引入了一个名为“BurstCache”的新层级,这是一个位于GPU内存和S3之间的高吞吐、低延迟NVMe存储层。它采用日志结构合并树(LSM-tree)设计来处理数千块GPU的并发读写,将检查点时间从30分钟缩短至5分钟以内。这对训练效率而言是颠覆性的,因为它将GPU空闲时间减少了近20%。

计算实例:“NeuronCore”的进化
AWS的Trainium2芯片现在与一款新的推理优化变体“Inferentia3”配对。该架构引入了一个“稀疏注意力单元”(SAU),直接加速注意力机制——Transformer中计算最密集的部分。通过将QKV(查询-键-值)矩阵乘法和softmax归一化硬编码到硅片中,SAU在推理工作负载上的每瓦吞吐量比NVIDIA H100 GPU高出3倍。在训练方面,Trainium2在芯片上使用“环形全归约”引擎,消除了单个机架内梯度同步对外部网络交换机的需求。

| 指标 | AWS Trainium2 (新款) | NVIDIA H100 | AWS Inferentia3 (新款) |
|---|---|---|---|
| 峰值FP16 TFLOPS | 800 | 989 | 400 (仅推理) |
| 内存带宽 (GB/s) | 3,200 | 3,350 | 2,400 |
| 稀疏注意力吞吐量 (tokens/s) | 不适用 | 1,200 | 3,800 |
| 功耗 (W) | 600 | 700 | 250 |
| 每百万Token推理成本 (70B模型) | $0.35 | $0.50 | $0.12 |

数据洞察: 尽管H100在原始FP16 TFLOPS上仍领先,但Inferentia3的稀疏注意力单元在注意力密集型模型上以一半的功耗实现了3.2倍的推理吞吐量提升。这使其成为聊天机器人和代码助手等实时应用的明确赢家。

开源生态的呼应
社区已在积极适配。开源仓库[llm.c](https://github.com/karpathy/llm.c)(作者Andrej Karpathy,25k+星标)已添加对AWS自定义all-reduce原语的支持,表明即使是业余开发者也能利用新拓扑。同样,[vLLM](https://github.com/vllm-project/vllm)(40k+星标)已发布针对Inferentia3稀疏注意力单元优化的测试版,声称可将Llama 3 70B的首Token生成时间降低40%。

关键玩家与案例研究

AWS vs. Google Cloud vs. Microsoft Azure
竞争格局正在迅速变化。Google Cloud长期推崇其TPU v5p,该芯片使用针对自家Transformer模型(PaLM、Gemini)优化的自定义2D网格拓扑。而Microsoft Azure则深化了与NVIDIA的合作,提供配备InfiniBand的H100集群。AWS的新架构直接向两者发起了挑战。

| 云服务商 | 定制芯片 | 网络拓扑 | 训练成本 (1T模型, 30天) | 推理延迟 (70B模型, 128 tokens) |
|---|---|---|---|---|
| AWS | Trainium2 + Inferentia3 | 3D Torus | $12.5M | 45ms |
| Google Cloud | TPU v5p | 2D Mesh | $14.2M | 52ms |
| Microsoft Azure | NVIDIA H100 | Clos (InfiniBand) | $18.0M | 60ms |

数据洞察: AWS的成本优势不仅来自更便宜的芯片——更源于减少梯度同步期间GPU空闲时间的网络拓扑。仅3D Torus一项就估计可节省15%的训练时间,换算成每次大型模型运行可节省数百万美元。

案例研究:Anthropic
作为AWS的关键客户,Anthropic已将其Claude 4训练管线迁移至新基础设施。根据内部基准测试,与之前的H100集群相比,自定义网络拓扑将达到给定损失阈值的时间缩短了22%。该公司现在正使用Inferentia3进行Claude Opus的推理,报告称每Token成本降低了35%。

警示

更多来自 Hugging Face

Hugging Face 一键部署 vLLM:开源模型服务迎来“静默革命”Hugging Face 对其 Jobs 平台的最新更新,标志着开源大语言模型部署方式迎来了一场静默却颠覆性的变革。传统上,部署一个 Llama 3 或 Mistral 模型需要开发者手动配置 GPU 实例、安装依赖、用最优 CUDA 内核混合AI模型暴露“Token偏见”:为何某些词汇总能获得更优预测混合AI模型融合了自回归Transformer的序列推理能力与扩散模型的并行精炼优势,一度被视为平衡速度与质量的突破性进展。然而,AINews对基准数据的深度挖掘发现了一个关键缺陷:这些模型并非在所有Token类型上表现均衡。它们展现出惊人NVIDIA NeMo AutoModel:将大模型微调从“黑魔法”变成“工程科学”NVIDIA 的 NeMo AutoModel 不仅仅是速度上的提升——它从根本上重新定义了企业如何定制大语言模型。该框架自动化了整个微调生命周期:基于可用硬件自动选择模型、通过贝叶斯优化进行超参数搜索、以及跨多 GPU 自动编排分布式训练查看来源专题页Hugging Face 已收录 48 篇文章

相关专题

inference optimization28 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

DeepInfra 接入 Hugging Face 推理市场:AI 基础设施迎来格局之变DeepInfra 正式加入 Hugging Face 推理市场,标志着 AI 推理商品化进程的关键转折。这一合作降低了开发者部署顶级开源模型的门槛,并加速了 Hugging Face 从模型库向完整 AI 操作系统的进化。Hugging Face 一键部署 vLLM:开源模型服务迎来“静默革命”Hugging Face 将 vLLM 推理引擎直接集成到其 Jobs 平台,开发者仅需一条命令即可启动生产级 LLM 服务器。此举将 GPU 调度、内存管理与连续批处理等底层操作彻底抽象化,大幅降低了开源模型的服务化门槛。混合AI模型暴露“Token偏见”:为何某些词汇总能获得更优预测AINews最新分析揭示,融合自回归与扩散架构的混合AI模型存在显著的Token级预测偏差。这类模型对标点符号和常见动词等高频率Token的预测准确率近乎完美,但在罕见名词和抽象概念上的错误率却飙升高达40%,对“通用解决方案”的构想提出了NVIDIA NeMo AutoModel:将大模型微调从“黑魔法”变成“工程科学”NVIDIA 正式发布 NeMo AutoModel,一个全自动微调大型 Transformer 模型的框架,将原本需要数周专家劳动的任务压缩至数小时。这标志着行业正从依赖经验与试错的手工艺式调优,转向确定性、工程化的流水线。

常见问题

这次公司发布“AWS Redefines Cloud for AI: Custom Architecture Ends the Era of General-Purpose GPU Clusters”主要讲了什么?

In a move that redefines the cloud computing landscape, AWS has announced a comprehensive infrastructure redesign explicitly tailored for foundation model training and inference. T…

从“AWS Trainium2 vs NVIDIA H100 benchmark comparison 2025”看,这家公司的这次发布为什么值得关注?

AWS's new infrastructure is a radical departure from the one-size-fits-all GPU cluster model. The core innovation lies in three tightly integrated layers: network topology, storage hierarchy, and compute instances, all o…

围绕“How AWS 3D Torus topology reduces training costs”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。