AMD开源攻势：ROCm与社区代码如何撼动AI硬件霸权

长期以来，AI计算的叙事一直被硬件规格和专有软件栈所主导，它们构筑了强大的生态壁垒。然而，AINews观察到一个重要却未被充分报道的趋势：AMD对开源软件的战略押注，特别是其ROCm平台及对社区项目的支持，正在取得切实成果。在Llama 2、Mistral、CodeLlama等模型的特定推理工作负载中，AMD的Instinct MI250X及更新的MI300X加速器在延迟和吞吐量指标上正缩小与现有解决方案的差距，且通常拥有更低的总拥有成本。

这一进展与其说是AMD在原始算力上击败对手，不如说是开源软件民主化力量的体现。vLLM、Hugging Face的Text Generation Inference等项目的关键集成，使AMD硬件能够高效运行主流AI模型。这种软件优先的策略正在吸引云提供商（如Oracle Cloud）和初创公司（如Modular）加入生态，共同构建一个更具竞争力和选择空间的AI基础设施层。

性能基准测试显示，在八卡配置下运行Llama 2 70B模型，MI250X的吞吐量已接近上代A100系统。而MI300X凭借192GB HBM3内存，在内存密集型的推理场景中瞄准了与H100的竞争。这不仅仅是硬件竞赛，更是一场通过协作开源开发来打破生态锁定的运动。AMD的开放姿态，结合社区驱动的优化，正在为AI硬件市场带来久违的变数，可能最终降低企业进入门槛并加速创新。

技术深度解析

AMD在AI推理领域的复兴，核心在于其软件栈的成熟度及其与关键开源项目的协同。ROCm平台是基础层，提供驱动程序、运行时以及rocBLAS和MIOpen等核心库。然而，真正的加速剂来自于对流行的、社区驱动的推理服务器的上游集成。

一个关键突破是将AMD GPU支持集成到vLLM中。vLLM是一个高吞吐、内存高效的LLM服务引擎，其创新的PagedAttention算法（类似虚拟内存的方式管理KV缓存）极大提升了吞吐量。AMD工程团队和开源贡献者将其移植到ROCm，从而能在MI系列硬件上高效执行。同样，Hugging Face的Text Generation Inference 现已支持ROCm，将为Hugging Face模型优化的服务能力带到了AMD GPU上。底层上，这些集成依赖于用HIP编写的优化Transformer内核。HIP是AMD的C++运行时API，允许代码在AMD和NVIDIA GPU上运行。

另一个关键仓库是来自TVM Unity团队的MLC-LLM。该项目将LLM编译为可在多种硬件后端（包括ROCm）原生部署的格式。其对通用编译的关注与开放生态愿景完美契合，允许单一模型以最少的厂商特定代码部署在NVIDIA、AMD、Apple Silicon甚至手机设备上。

近期的性能基准测试（尽管依赖于具体上下文）讲述了一个引人注目的故事。对于在八卡配置上使用vLLM运行Llama 2 70B模型，MI250X（CDNA2架构）在每秒令牌吞吐量上已显示出与上一代A100系统竞争的实力。而MI300X（采用CDNA3架构，配备192GB HBM3）则瞄准在内存受限的推理场景中与H100竞争。

| 硬件配置 | 模型 | 推理引擎 | 吞吐量 (令牌/秒) | 关键指标 |
|----------------------|-----------|-----------------------|-----------------------------|----------------|
| 8x AMD MI250X (512GB) | Llama 2 70B | vLLM (ROCm) | ~2,800 | Batch=128, FP16 |
| 8x NVIDIA A100 80GB | Llama 2 70B | vLLM (CUDA) | ~3,100 | Batch=128, FP16 |
| 1x AMD MI300X (192GB) | Mixtral 8x7B | TGI (ROCm) | ~150 | 并发请求, FP8 |
| 1x NVIDIA H100 80GB | Mixtral 8x7B | TGI (CUDA) | ~175 | 并发请求, FP8 |

数据要点： 性能差距，特别是上代MI250X与A100之间，在推理工作负载上比普遍认知的要小。MI300X的巨大内存容量为在单节点上服务超大模型或极长上下文提供了独特优势，这一因素无法仅凭峰值吞吐量来完全体现。

关键参与者与案例研究

这场运动由硬件供应商、云提供商和开源社区组成的联盟共同推动。AMD自身已将ROCm从内部项目转变为培育真正的开源社区，接受外部贡献并发布路线图更新。像高性能计算与AI软件高级首席工程师Bradford L. Chamberlain这样的关键人物一直大力倡导“软件优先”战略，认为开放生态系统终将胜出。

在云服务方面，Lambda Labs和Cirrascale是早期采用者，提供AMD GPU实例和裸机服务器。更重要的是，Oracle Cloud Infrastructure做出了重大承诺，推出了搭载8块MI300X GPU的裸机实例，直接在云端向NVIDIA的HGX平台发起挑战。这为企业提供了一个关键且可扩展的部署目标。

初创公司正基于这种开放性构建业务。由前Google AI负责人Chris Lattner创立的Modular，正在开发明确针对多种加速器的下一代编译器栈，其中ROCm是主要后端。他们旨在统一碎片化AI基础设施格局的使命，正是AMD开放方法的直接受益者。

| 实体 | 角色 | 关键贡献/产品 | 战略押注 |
|------------|----------|-------------------------------|-------------------|
| AMD | 硬件供应商 | Instinct MI300X, ROCm软件 | 通过开放生态而非仅靠芯片制胜。 |
| Oracle Cloud | 云提供商 | 搭载MI300X的OCI计算裸机 | 提供相对于以NVIDIA为中心的云服务的成本竞争替代方案。 |
| Modular | 软件初创公司 | Mojo编程语言及编译器 | 构建使硬件多样性成为可能的可移植软件层。 |
| Together AI | 推理服务 | 为成本优化的开源推理 | 利用多样化硬件提供更低成本的API端点。 |

数据要点： 生态系统正在超越单一厂商的推动而走向成熟。如今已存在一个可信的栈：AMD提供有竞争力的芯片和基础软件，云提供商提供访问渠道，独立的软件公司则构建使硬件多样性发挥价值的上层工具和应用。这种分工协作的模式，正在削弱封闭生态的护城河，为市场注入新的活力与选择。

延伸阅读

常见问题

GitHub 热点“AMD's Open Source Offensive: How ROCm and Community Code Are Disrupting AI Hardware Dominance”主要讲了什么？

The narrative of AI compute has long been dominated by hardware specifications and proprietary software stacks that create formidable ecosystem lock-in. However, AINews has observe…

这个 GitHub 项目在“ROCm vs CUDA performance benchmarks for Llama 2 13B”上为什么会引发关注？

The core of AMD's resurgence in AI inference lies in the maturation of its software stack and its alignment with pivotal open-source projects. The ROCm platform is the foundational layer, providing drivers, runtime, and…

从“How to install and run vLLM on AMD MI250X Ubuntu”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。