AMD开源攻势:ROCm与社区代码如何撼动AI硬件霸权

Hacker News April 2026
来源:Hacker NewsAI inferenceopen-source AI归档:April 2026
一场静默的革命正在重塑AI硬件格局,驱动力并非来自新的芯片突破,而是开源软件的成熟。AMD的GPU曾被视为深度学习领域的利基产品,如今却在大型语言模型推理性能上展现出竞争力,正挑战行业对封闭垂直集成平台的依赖。这一转变有望降低AI算力成本,并增加市场多样性。

长期以来,AI计算的叙事一直被硬件规格和专有软件栈所主导,它们构筑了强大的生态壁垒。然而,AINews观察到一个重要却未被充分报道的趋势:AMD对开源软件的战略押注,特别是其ROCm平台及对社区项目的支持,正在取得切实成果。在Llama 2、Mistral、CodeLlama等模型的特定推理工作负载中,AMD的Instinct MI250X及更新的MI300X加速器在延迟和吞吐量指标上正缩小与现有解决方案的差距,且通常拥有更低的总拥有成本。

这一进展与其说是AMD在原始算力上击败对手,不如说是开源软件民主化力量的体现。vLLM、Hugging Face的Text Generation Inference等项目的关键集成,使AMD硬件能够高效运行主流AI模型。这种软件优先的策略正在吸引云提供商(如Oracle Cloud)和初创公司(如Modular)加入生态,共同构建一个更具竞争力和选择空间的AI基础设施层。

性能基准测试显示,在八卡配置下运行Llama 2 70B模型,MI250X的吞吐量已接近上代A100系统。而MI300X凭借192GB HBM3内存,在内存密集型的推理场景中瞄准了与H100的竞争。这不仅仅是硬件竞赛,更是一场通过协作开源开发来打破生态锁定的运动。AMD的开放姿态,结合社区驱动的优化,正在为AI硬件市场带来久违的变数,可能最终降低企业进入门槛并加速创新。

技术深度解析

AMD在AI推理领域的复兴,核心在于其软件栈的成熟度及其与关键开源项目的协同。ROCm平台是基础层,提供驱动程序、运行时以及rocBLAS和MIOpen等核心库。然而,真正的加速剂来自于对流行的、社区驱动的推理服务器的上游集成。

一个关键突破是将AMD GPU支持集成到vLLM中。vLLM是一个高吞吐、内存高效的LLM服务引擎,其创新的PagedAttention算法(类似虚拟内存的方式管理KV缓存)极大提升了吞吐量。AMD工程团队和开源贡献者将其移植到ROCm,从而能在MI系列硬件上高效执行。同样,Hugging Face的Text Generation Inference 现已支持ROCm,将为Hugging Face模型优化的服务能力带到了AMD GPU上。底层上,这些集成依赖于用HIP编写的优化Transformer内核。HIP是AMD的C++运行时API,允许代码在AMD和NVIDIA GPU上运行。

另一个关键仓库是来自TVM Unity团队的MLC-LLM。该项目将LLM编译为可在多种硬件后端(包括ROCm)原生部署的格式。其对通用编译的关注与开放生态愿景完美契合,允许单一模型以最少的厂商特定代码部署在NVIDIA、AMD、Apple Silicon甚至手机设备上。

近期的性能基准测试(尽管依赖于具体上下文)讲述了一个引人注目的故事。对于在八卡配置上使用vLLM运行Llama 2 70B模型,MI250X(CDNA2架构)在每秒令牌吞吐量上已显示出与上一代A100系统竞争的实力。而MI300X(采用CDNA3架构,配备192GB HBM3)则瞄准在内存受限的推理场景中与H100竞争。

| 硬件配置 | 模型 | 推理引擎 | 吞吐量 (令牌/秒) | 关键指标 |
|----------------------|-----------|-----------------------|-----------------------------|----------------|
| 8x AMD MI250X (512GB) | Llama 2 70B | vLLM (ROCm) | ~2,800 | Batch=128, FP16 |
| 8x NVIDIA A100 80GB | Llama 2 70B | vLLM (CUDA) | ~3,100 | Batch=128, FP16 |
| 1x AMD MI300X (192GB) | Mixtral 8x7B | TGI (ROCm) | ~150 | 并发请求, FP8 |
| 1x NVIDIA H100 80GB | Mixtral 8x7B | TGI (CUDA) | ~175 | 并发请求, FP8 |

数据要点: 性能差距,特别是上代MI250X与A100之间,在推理工作负载上比普遍认知的要小。MI300X的巨大内存容量为在单节点上服务超大模型或极长上下文提供了独特优势,这一因素无法仅凭峰值吞吐量来完全体现。

关键参与者与案例研究

这场运动由硬件供应商、云提供商和开源社区组成的联盟共同推动。AMD自身已将ROCm从内部项目转变为培育真正的开源社区,接受外部贡献并发布路线图更新。像高性能计算与AI软件高级首席工程师Bradford L. Chamberlain这样的关键人物一直大力倡导“软件优先”战略,认为开放生态系统终将胜出。

在云服务方面,Lambda LabsCirrascale是早期采用者,提供AMD GPU实例和裸机服务器。更重要的是,Oracle Cloud Infrastructure做出了重大承诺,推出了搭载8块MI300X GPU的裸机实例,直接在云端向NVIDIA的HGX平台发起挑战。这为企业提供了一个关键且可扩展的部署目标。

初创公司正基于这种开放性构建业务。由前Google AI负责人Chris Lattner创立的Modular,正在开发明确针对多种加速器的下一代编译器栈,其中ROCm是主要后端。他们旨在统一碎片化AI基础设施格局的使命,正是AMD开放方法的直接受益者。

| 实体 | 角色 | 关键贡献/产品 | 战略押注 |
|------------|----------|-------------------------------|-------------------|
| AMD | 硬件供应商 | Instinct MI300X, ROCm软件 | 通过开放生态而非仅靠芯片制胜。 |
| Oracle Cloud | 云提供商 | 搭载MI300X的OCI计算裸机 | 提供相对于以NVIDIA为中心的云服务的成本竞争替代方案。 |
| Modular | 软件初创公司 | Mojo编程语言及编译器 | 构建使硬件多样性成为可能的可移植软件层。 |
| Together AI | 推理服务 | 为成本优化的开源推理 | 利用多样化硬件提供更低成本的API端点。 |

数据要点: 生态系统正在超越单一厂商的推动而走向成熟。如今已存在一个可信的栈:AMD提供有竞争力的芯片和基础软件,云提供商提供访问渠道,独立的软件公司则构建使硬件多样性发挥价值的上层工具和应用。这种分工协作的模式,正在削弱封闭生态的护城河,为市场注入新的活力与选择。

更多来自 Hacker News

OpenClaw本地优先AI代理:重塑销售自动化的隐私革命AINews发现了一个正在悄然变革销售自动化的开源框架——OpenClaw,它将AI代理从云端迁移到本地机器上。该框架允许企业部署模块化AI代理,处理整个销售工作流——客户画像、潜在客户评分、个性化邮件生成和跟进排程——而无需将敏感数据发送中文房间重启:LLM拥有一种真正的、异类形式的理解力几十年来,约翰·塞尔的“中文房间”思想实验一直是对机器理解力的终极哲学反驳:一个人待在房间里,按照规则手册操作中文符号,却并不真正懂这门语言。该论点认为,仅凭句法无法产生语义。但由大型语言模型的经验成功驱动的新一波哲学分析认为,这一框架已根YAML之死:LLM如何永久终结声明式配置时代过去十年,YAML一直是Kubernetes、Docker Compose以及无数CI/CD管道中描述基础设施的事实标准。其承诺简单明了:一种人类可读的声明式语法,抽象掉命令式编程的复杂性。然而,能够将自然语言转化为精确、生产级代码的大语言查看来源专题页Hacker News 已收录 3962 篇文章

相关专题

AI inference23 篇相关文章open-source AI192 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

VIIWork负载均衡器如何让AMD Radeon VII在低成本AI推理中重获新生一款名为VIIWork的开源负载均衡器,正为已被主流AI框架边缘化的AMD Radeon VII GPU注入全新活力。通过将大语言模型查询高效分配至多张Radeon VII显卡,该工具为运行复杂AI模型开辟了一条经济可行的路径,挑战了行业对LoongForge开源:百度的大胆棋局,让多模态AI训练走向普惠百度百舸团队正式开源LoongForge,一个高性能训练框架,统一支持大语言模型、视觉语言模型、视觉-语言-动作模型以及Wan视频生成架构。此举旨在降低多模态与具身智能开发门槛,有望重塑AI开发者的技术栈格局。AI算力过剩:闲置硬件如何重塑行业格局大规模AI基础设施建设导致算力供过于求,商业需求远无法消化。这一过剩迫使云服务商大幅降价、向研究捐赠算力,并押注新一代AI原生应用。RelaxAI 将推理成本削减 80%:挑战 OpenAI 与 Claude 的主导地位英国初创公司 RelaxAI 推出主权大语言模型推理服务,声称成本仅为 OpenAI 和 Anthropic Claude 的 20%。通过优化推理架构并利用本地基础设施,该服务以极低价格提供企业级性能,直接挑战美国科技巨头的定价权。

常见问题

GitHub 热点“AMD's Open Source Offensive: How ROCm and Community Code Are Disrupting AI Hardware Dominance”主要讲了什么?

The narrative of AI compute has long been dominated by hardware specifications and proprietary software stacks that create formidable ecosystem lock-in. However, AINews has observe…

这个 GitHub 项目在“ROCm vs CUDA performance benchmarks for Llama 2 13B”上为什么会引发关注?

The core of AMD's resurgence in AI inference lies in the maturation of its software stack and its alignment with pivotal open-source projects. The ROCm platform is the foundational layer, providing drivers, runtime, and…

从“How to install and run vLLM on AMD MI250X Ubuntu”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。