AMD开源攻势:ROCm与社区代码如何撼动AI硬件霸权

一场静默的革命正在重塑AI硬件格局,驱动力并非来自新的芯片突破,而是开源软件的成熟。AMD的GPU曾被视为深度学习领域的利基产品,如今却在大型语言模型推理性能上展现出竞争力,正挑战行业对封闭垂直集成平台的依赖。这一转变有望降低AI算力成本,并增加市场多样性。

长期以来,AI计算的叙事一直被硬件规格和专有软件栈所主导,它们构筑了强大的生态壁垒。然而,AINews观察到一个重要却未被充分报道的趋势:AMD对开源软件的战略押注,特别是其ROCm平台及对社区项目的支持,正在取得切实成果。在Llama 2、Mistral、CodeLlama等模型的特定推理工作负载中,AMD的Instinct MI250X及更新的MI300X加速器在延迟和吞吐量指标上正缩小与现有解决方案的差距,且通常拥有更低的总拥有成本。

这一进展与其说是AMD在原始算力上击败对手,不如说是开源软件民主化力量的体现。vLLM、Hugging Face的Text Generation Inference等项目的关键集成,使AMD硬件能够高效运行主流AI模型。这种软件优先的策略正在吸引云提供商(如Oracle Cloud)和初创公司(如Modular)加入生态,共同构建一个更具竞争力和选择空间的AI基础设施层。

性能基准测试显示,在八卡配置下运行Llama 2 70B模型,MI250X的吞吐量已接近上代A100系统。而MI300X凭借192GB HBM3内存,在内存密集型的推理场景中瞄准了与H100的竞争。这不仅仅是硬件竞赛,更是一场通过协作开源开发来打破生态锁定的运动。AMD的开放姿态,结合社区驱动的优化,正在为AI硬件市场带来久违的变数,可能最终降低企业进入门槛并加速创新。

技术深度解析

AMD在AI推理领域的复兴,核心在于其软件栈的成熟度及其与关键开源项目的协同。ROCm平台是基础层,提供驱动程序、运行时以及rocBLAS和MIOpen等核心库。然而,真正的加速剂来自于对流行的、社区驱动的推理服务器的上游集成。

一个关键突破是将AMD GPU支持集成到vLLM中。vLLM是一个高吞吐、内存高效的LLM服务引擎,其创新的PagedAttention算法(类似虚拟内存的方式管理KV缓存)极大提升了吞吐量。AMD工程团队和开源贡献者将其移植到ROCm,从而能在MI系列硬件上高效执行。同样,Hugging Face的Text Generation Inference 现已支持ROCm,将为Hugging Face模型优化的服务能力带到了AMD GPU上。底层上,这些集成依赖于用HIP编写的优化Transformer内核。HIP是AMD的C++运行时API,允许代码在AMD和NVIDIA GPU上运行。

另一个关键仓库是来自TVM Unity团队的MLC-LLM。该项目将LLM编译为可在多种硬件后端(包括ROCm)原生部署的格式。其对通用编译的关注与开放生态愿景完美契合,允许单一模型以最少的厂商特定代码部署在NVIDIA、AMD、Apple Silicon甚至手机设备上。

近期的性能基准测试(尽管依赖于具体上下文)讲述了一个引人注目的故事。对于在八卡配置上使用vLLM运行Llama 2 70B模型,MI250X(CDNA2架构)在每秒令牌吞吐量上已显示出与上一代A100系统竞争的实力。而MI300X(采用CDNA3架构,配备192GB HBM3)则瞄准在内存受限的推理场景中与H100竞争。

| 硬件配置 | 模型 | 推理引擎 | 吞吐量 (令牌/秒) | 关键指标 |
|----------------------|-----------|-----------------------|-----------------------------|----------------|
| 8x AMD MI250X (512GB) | Llama 2 70B | vLLM (ROCm) | ~2,800 | Batch=128, FP16 |
| 8x NVIDIA A100 80GB | Llama 2 70B | vLLM (CUDA) | ~3,100 | Batch=128, FP16 |
| 1x AMD MI300X (192GB) | Mixtral 8x7B | TGI (ROCm) | ~150 | 并发请求, FP8 |
| 1x NVIDIA H100 80GB | Mixtral 8x7B | TGI (CUDA) | ~175 | 并发请求, FP8 |

数据要点: 性能差距,特别是上代MI250X与A100之间,在推理工作负载上比普遍认知的要小。MI300X的巨大内存容量为在单节点上服务超大模型或极长上下文提供了独特优势,这一因素无法仅凭峰值吞吐量来完全体现。

关键参与者与案例研究

这场运动由硬件供应商、云提供商和开源社区组成的联盟共同推动。AMD自身已将ROCm从内部项目转变为培育真正的开源社区,接受外部贡献并发布路线图更新。像高性能计算与AI软件高级首席工程师Bradford L. Chamberlain这样的关键人物一直大力倡导“软件优先”战略,认为开放生态系统终将胜出。

在云服务方面,Lambda LabsCirrascale是早期采用者,提供AMD GPU实例和裸机服务器。更重要的是,Oracle Cloud Infrastructure做出了重大承诺,推出了搭载8块MI300X GPU的裸机实例,直接在云端向NVIDIA的HGX平台发起挑战。这为企业提供了一个关键且可扩展的部署目标。

初创公司正基于这种开放性构建业务。由前Google AI负责人Chris Lattner创立的Modular,正在开发明确针对多种加速器的下一代编译器栈,其中ROCm是主要后端。他们旨在统一碎片化AI基础设施格局的使命,正是AMD开放方法的直接受益者。

| 实体 | 角色 | 关键贡献/产品 | 战略押注 |
|------------|----------|-------------------------------|-------------------|
| AMD | 硬件供应商 | Instinct MI300X, ROCm软件 | 通过开放生态而非仅靠芯片制胜。 |
| Oracle Cloud | 云提供商 | 搭载MI300X的OCI计算裸机 | 提供相对于以NVIDIA为中心的云服务的成本竞争替代方案。 |
| Modular | 软件初创公司 | Mojo编程语言及编译器 | 构建使硬件多样性成为可能的可移植软件层。 |
| Together AI | 推理服务 | 为成本优化的开源推理 | 利用多样化硬件提供更低成本的API端点。 |

数据要点: 生态系统正在超越单一厂商的推动而走向成熟。如今已存在一个可信的栈:AMD提供有竞争力的芯片和基础软件,云提供商提供访问渠道,独立的软件公司则构建使硬件多样性发挥价值的上层工具和应用。这种分工协作的模式,正在削弱封闭生态的护城河,为市场注入新的活力与选择。

延伸阅读

VIIWork负载均衡器如何让AMD Radeon VII在低成本AI推理中重获新生一款名为VIIWork的开源负载均衡器,正为已被主流AI框架边缘化的AMD Radeon VII GPU注入全新活力。通过将大语言模型查询高效分配至多张Radeon VII显卡,该工具为运行复杂AI模型开辟了一条经济可行的路径,挑战了行业对Volnix 横空出世:开源「世界引擎」重塑AI智能体格局,挑战任务型框架局限开源项目 Volnix 以构建AI智能体的基础「世界引擎」为雄心,正式亮相。该平台旨在提供持久化的模拟环境,使智能体能够发展记忆、执行多步策略并从行为后果中学习,标志着AI智能体从任务型工具向持久化数字实体的重大演进。LLM Wiki v2:开放协作如何锻造AI的集体智慧开发者社区正在孕育一种组织AI知识的新范式。LLM Wiki v2代表着从静态文档到动态、同行验证的集体智慧系统的根本性转变。它旨在加速实用AI应用的开发,并重塑该领域管理其最宝贵资产——即可操作实践知识——的方式。记忆翻译层崛起:统一碎片化AI智能体生态的关键协议一项开创性的开源项目正试图根治AI智能体生态的根本性割裂问题。这项被称为‘治愈性语义层’的技术,旨在成为智能体记忆与操作上下文的‘通用翻译器’。它的出现可能大幅降低系统集成成本,并加速复杂协同多智能体系统的构建进程。

常见问题

GitHub 热点“AMD's Open Source Offensive: How ROCm and Community Code Are Disrupting AI Hardware Dominance”主要讲了什么?

The narrative of AI compute has long been dominated by hardware specifications and proprietary software stacks that create formidable ecosystem lock-in. However, AINews has observe…

这个 GitHub 项目在“ROCm vs CUDA performance benchmarks for Llama 2 13B”上为什么会引发关注?

The core of AMD's resurgence in AI inference lies in the maturation of its software stack and its alignment with pivotal open-source projects. The ROCm platform is the foundational layer, providing drivers, runtime, and…

从“How to install and run vLLM on AMD MI250X Ubuntu”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。