AMD苏姿丰押注中国:打破英伟达CUDA垄断的“上海棋局”

May 2026
归档:May 2026
英伟达CEO黄仁勋前脚刚离开中国,AMD CEO苏姿丰后脚便落地上海。这并非巧合,而是一场精心策划的战略博弈。AMD不再甘当AI芯片领域的配角,而是试图借助地缘政治与出口限制的东风,在中国开发者生态中开辟一条挑战CUDA霸权的新路径。

时机就是一切。黄仁勋离开中国与苏姿丰抵达上海,绝非偶然——这是一步精心计算的棋。AMD已不再满足于在AI芯片领域扮演第二小提琴手的角色,它现在瞄准了英伟达长期占据的制高点:开发者心智。通过锁定中国开发者,AMD试图打造一个能与CUDA抗衡的平行生态系统,尤其是在美国出口限制使英伟达难以在华销售高端芯片的背景下。这是一场高风险的豪赌:如果AMD能赢得中国庞大的开发者社区,它就有可能打破英伟达在AI训练与推理领域的垄断。但挑战同样巨大——CUDA的成熟度与广泛采用是难以逾越的壁垒。不过,凭借地缘政治顺风与市场饥渴,AMD正抓住一个历史性的窗口期。

技术深度解析

AMD的战略核心在于其ROCm(Radeon Open Compute)软件栈的成熟度,该栈长期被视为CUDA的主要替代方案。2024年底发布的ROCm 6.0带来了显著改进:支持HIP(异构接口可移植性)编程模型,允许CUDA代码以最小改动移植;新增Composable Kernel(CK)库,用于编写高性能GPU内核;并增强了对PyTorch和TensorFlow等主流框架的支持。

然而,与CUDA的差距依然巨大。英伟达的CUDA生态包含超过400个专用库(cuDNN、cuBLAS、TensorRT等),而ROCm仅覆盖约60%最常用操作。缺失的40%通常需要开发者编写自定义内核或依赖优化不足的降级方案,导致性能下降。

基准测试对比:AMD MI300X vs. 英伟达H100(关键工作负载)

| 工作负载 | AMD MI300X (ROCm 6.0) | 英伟达H100 (CUDA 12.3) | 性能差距 |
|---|---|---|---|
| LLM训练(Llama 2 70B) | 12,500 tokens/秒 | 15,800 tokens/秒 | -21% |
| Stable Diffusion XL推理 | 18.2 张图像/秒 | 22.5 张图像/秒 | -19% |
| BERT-Large微调 | 1,450 样本/秒 | 1,720 样本/秒 | -16% |
| FP8矩阵乘法(GEMM) | 1,280 TFLOPS | 1,979 TFLOPS | -35% |
| 内存带宽 | 5.2 TB/s | 3.35 TB/s | +55%(AMD胜) |

数据要点: 尽管AMD的MI300X拥有更高的内存带宽(5.2 TB/s对3.35 TB/s),有利于内存密集型工作负载,但英伟达H100在计算密集型任务上仍领先16-35%。差距在缩小,但尚未消失。AMD的内存带宽优势对大型模型推理至关重要,因为模型权重需要反复从内存加载。

一个值得关注的GitHub仓库是AMD ROCm软件平台(github.com/ROCm/ROCm),过去一年贡献者数量增长了40%,现已超过1200人。另一个重要仓库是PyTorch ROCm分支(github.com/ROCmSoftwarePlatform/pytorch),已累计超过3500颗星,并积极维护以保持与上游PyTorch版本的同步。

关键玩家与案例研究

AMD在中国的押注涉及多项战略合作:

- 阿里云(PAI平台): AMD正与阿里合作,为其服务超过100万开发者的PAI机器学习平台优化ROCm。阿里已承诺在2025年第三季度前部署5000块MI300X加速器。
- 腾讯云(TI-ONE): 腾讯正将ROCm集成到其TI-ONE训练平台中,重点针对其混元模型系列进行大语言模型(LLM)微调。
- 百度(PaddlePaddle): AMD已将其ROCm库移植到百度PaddlePaddle框架,该框架在中国拥有超过500万注册开发者。
- 浪潮(AI服务器): 中国最大服务器制造商浪潮现在提供基于AMD的AI服务器,与英伟达和华为的产品并列。

竞争生态对比

| 生态 | 开发者数量(估算) | 框架支持 | 关键限制 |
|---|---|---|---|
| 英伟达CUDA | 420万 | PyTorch、TensorFlow、JAX、MxNet | 出口限制、供应商锁定 |
| AMD ROCm | 35万 | PyTorch、TensorFlow(部分)、PaddlePaddle | 库较少、性能差距 |
| 华为昇腾(CANN) | 20万 | MindSpore、PyTorch(通过适配器) | 仅限于中国市场、专有 |
| Intel oneAPI | 18万 | PyTorch、TensorFlow(通过SYCL) | GPU性能落后 |

数据要点: CUDA的开发者基数比所有替代方案的总和还要大一个数量级。然而,中国市场具有独特性——由于出口限制,许多开发者已在探索替代方案。AMD的35万开发者同比增长75%,主要受中国采用驱动。

行业影响与市场动态

中国AI芯片市场预计到2028年将达到500亿美元,年复合增长率35%。目前,英伟达在中国AI训练芯片市场占据约85%的份额,但对H100和H200的出口管制造成了真空。AMD的MI300X不受相同限制(其性能低于阈值),这为AMD提供了一个独特的窗口期。

市场份额预测(中国AI训练芯片)

| 年份 | 英伟达 | AMD | 华为 | 其他 |
|---|---|---|---|---|
| 2024 | 85% | 5% | 7% | 3% |
| 2025(预测) | 70% | 12% | 12% | 6% |
| 2026(预测) | 55% | 18% | 18% | 9% |
| 2027(预测) | 45% | 22% | 22% | 11% |

数据要点: AMD预计到2027年将占据中国AI芯片市场22%的份额,而2024年仅为5%。这一增长取决于ROCm能否在最常见工作负载上接近CUDA的水平。如果AMD未能兑现承诺,华为昇腾可能成为主要受益者。

风险、局限与未解问题

1. CUDA锁定效应: 最大的风险在于,尽管面临地缘政治压力,中国开发者仍可能通过变通方式继续使用CUDA(例如,通过第三方转口或使用旧库存)。英伟达的软件生态粘性极强,开发者迁移成本高昂。
2. 性能差距持续: 即使ROCm 6.0取得了进步,在计算密集型任务上16-35%的性能差距仍可能让追求极致性能的客户望而却步。对于训练千亿参数模型,这种差距可能转化为数天的额外训练时间。
3. 华为的崛起: 如果AMD未能快速缩小差距,华为昇腾(CANN)可能成为更受青睐的国产替代方案。华为已证明其在大规模部署中的能力,且不受美国出口限制影响。
4. 供应链不确定性: AMD的MI300X依赖台积电的先进封装技术,而台积电的产能分配和地缘政治风险可能影响供应稳定性。
5. 开源社区维护成本: 维持ROCm与CUDA的同步需要持续投入。AMD需要证明其长期承诺,否则开发者可能因担心生态停滞而却步。

时间归档

May 20262340 篇已发布文章

延伸阅读

云平台重掌AI定价权:基础设施的逆袭云平台正悄然改写AI的经济学逻辑,从按token计费转向以结果为导向的捆绑套餐,涵盖算力、存储与智能体编排。这一策略不仅让它们重获定价主导权,更可能让企业级大规模智能体部署首次实现盈利。日本四大巨头AI联盟:软银、本田、索尼、NEC能否超越历史桎梏?日本四大工业巨头——软银、本田、索尼与NEC——以平等持股、不设领导者的方式组建AI联盟,彻底颠覆传统合作模式。这一战略豪赌旨在重振日本在全球AI竞赛中的地位。然而,共识驱动的决策机制是否会重蹈过往僵局,仍是未知数。智能体AI革命:新芯片、千亿资本与系统韧性的三重挑战AI产业正经历根本性蜕变——从被动模型转向主动目标驱动的智能体。这一由林俊旸等领军人物倡导的范式转移,正引发针对下一代芯片与基础设施的千亿级投资浪潮,同时暴露出部署与战略层面的关键脆弱性,这将定义下一轮竞争的核心疆域。IBM与施耐德电气:解码工业AI双雄的中国实践手册在中国工业腹地,AI试验阶段已然终结。全球两大巨头IBM与施耐德电气正以截然不同却同样高效的策略,推动人工智能规模化落地。它们的成功关键不在于模型规模,而在于将智能深度融入复杂工作流,并交付切实的商业价值。

常见问题

这次公司发布“AMD's Lisa Su Bets on China to Break Nvidia's CUDA Monopoly”主要讲了什么?

The timing is everything. Jensen Huang's departure from China and Lisa Su's immediate arrival in Shanghai is not a coincidence—it's a calculated chess move. AMD is no longer conten…

从“Is AMD ROCm compatible with PyTorch for Chinese developers?”看,这家公司的这次发布为什么值得关注?

AMD's strategy hinges on the maturity of its ROCm (Radeon Open Compute) software stack, which has long been considered the primary CUDA alternative. ROCm 6.0, released in late 2024, introduced significant improvements: s…

围绕“AMD MI300X vs Nvidia H100 benchmark China market”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。