技术深度解析
AMD在AI推理领域的复兴,核心在于其软件栈的成熟度及其与关键开源项目的协同。ROCm平台是基础层,提供驱动程序、运行时以及rocBLAS和MIOpen等核心库。然而,真正的加速剂来自于对流行的、社区驱动的推理服务器的上游集成。
一个关键突破是将AMD GPU支持集成到vLLM中。vLLM是一个高吞吐、内存高效的LLM服务引擎,其创新的PagedAttention算法(类似虚拟内存的方式管理KV缓存)极大提升了吞吐量。AMD工程团队和开源贡献者将其移植到ROCm,从而能在MI系列硬件上高效执行。同样,Hugging Face的Text Generation Inference 现已支持ROCm,将为Hugging Face模型优化的服务能力带到了AMD GPU上。底层上,这些集成依赖于用HIP编写的优化Transformer内核。HIP是AMD的C++运行时API,允许代码在AMD和NVIDIA GPU上运行。
另一个关键仓库是来自TVM Unity团队的MLC-LLM。该项目将LLM编译为可在多种硬件后端(包括ROCm)原生部署的格式。其对通用编译的关注与开放生态愿景完美契合,允许单一模型以最少的厂商特定代码部署在NVIDIA、AMD、Apple Silicon甚至手机设备上。
近期的性能基准测试(尽管依赖于具体上下文)讲述了一个引人注目的故事。对于在八卡配置上使用vLLM运行Llama 2 70B模型,MI250X(CDNA2架构)在每秒令牌吞吐量上已显示出与上一代A100系统竞争的实力。而MI300X(采用CDNA3架构,配备192GB HBM3)则瞄准在内存受限的推理场景中与H100竞争。
| 硬件配置 | 模型 | 推理引擎 | 吞吐量 (令牌/秒) | 关键指标 |
|----------------------|-----------|-----------------------|-----------------------------|----------------|
| 8x AMD MI250X (512GB) | Llama 2 70B | vLLM (ROCm) | ~2,800 | Batch=128, FP16 |
| 8x NVIDIA A100 80GB | Llama 2 70B | vLLM (CUDA) | ~3,100 | Batch=128, FP16 |
| 1x AMD MI300X (192GB) | Mixtral 8x7B | TGI (ROCm) | ~150 | 并发请求, FP8 |
| 1x NVIDIA H100 80GB | Mixtral 8x7B | TGI (CUDA) | ~175 | 并发请求, FP8 |
数据要点: 性能差距,特别是上代MI250X与A100之间,在推理工作负载上比普遍认知的要小。MI300X的巨大内存容量为在单节点上服务超大模型或极长上下文提供了独特优势,这一因素无法仅凭峰值吞吐量来完全体现。
关键参与者与案例研究
这场运动由硬件供应商、云提供商和开源社区组成的联盟共同推动。AMD自身已将ROCm从内部项目转变为培育真正的开源社区,接受外部贡献并发布路线图更新。像高性能计算与AI软件高级首席工程师Bradford L. Chamberlain这样的关键人物一直大力倡导“软件优先”战略,认为开放生态系统终将胜出。
在云服务方面,Lambda Labs和Cirrascale是早期采用者,提供AMD GPU实例和裸机服务器。更重要的是,Oracle Cloud Infrastructure做出了重大承诺,推出了搭载8块MI300X GPU的裸机实例,直接在云端向NVIDIA的HGX平台发起挑战。这为企业提供了一个关键且可扩展的部署目标。
初创公司正基于这种开放性构建业务。由前Google AI负责人Chris Lattner创立的Modular,正在开发明确针对多种加速器的下一代编译器栈,其中ROCm是主要后端。他们旨在统一碎片化AI基础设施格局的使命,正是AMD开放方法的直接受益者。
| 实体 | 角色 | 关键贡献/产品 | 战略押注 |
|------------|----------|-------------------------------|-------------------|
| AMD | 硬件供应商 | Instinct MI300X, ROCm软件 | 通过开放生态而非仅靠芯片制胜。 |
| Oracle Cloud | 云提供商 | 搭载MI300X的OCI计算裸机 | 提供相对于以NVIDIA为中心的云服务的成本竞争替代方案。 |
| Modular | 软件初创公司 | Mojo编程语言及编译器 | 构建使硬件多样性成为可能的可移植软件层。 |
| Together AI | 推理服务 | 为成本优化的开源推理 | 利用多样化硬件提供更低成本的API端点。 |
数据要点: 生态系统正在超越单一厂商的推动而走向成熟。如今已存在一个可信的栈:AMD提供有竞争力的芯片和基础软件,云提供商提供访问渠道,独立的软件公司则构建使硬件多样性发挥价值的上层工具和应用。这种分工协作的模式,正在削弱封闭生态的护城河,为市场注入新的活力与选择。