异构计算成为AI新基石:GPU独霸时代终结

May 2026
AI infrastructure归档:May 2026
随着AI工作负载从文本生成扩展到视频生成和世界模型,中科元机(Taichu Yuanji)的Hong Yuan直言:异构计算不再是可选项,而是战略必选项。AINews深度剖析这场架构变革、关键玩家以及驱动这一根本性转变的市场力量。

AI行业正进入一个新的计算周期,大规模GPU集群的“蛮力”方法正触及高昂的经济和技术天花板。中国领先的AI基础设施公司中科元机的核心人物Hong Yuan公开表示,异构计算——即CPU、GPU、NPU和定制ASIC的智能编排——将定义下一代AI基础设施。AINews的这篇编辑分析证实,这一转变已在发生。核心问题很简单:不同的AI任务需要根本不同的计算模式。训练大型语言模型需要高精度、高吞吐量的矩阵乘法,这最适合GPU。而自动驾驶的实时推理则要求超低延迟和确定性时序。异构计算通过将不同任务分配给最合适的硬件,解决了这一矛盾。这一转变不仅关乎性能,更关乎总拥有成本(TCO)和能源效率。随着AI模型规模持续增长,单一架构的局限性愈发明显,异构系统正成为从训练到推理、从云端到边缘的必然选择。

技术深度解析

异构计算的根本驱动力在于AI工作负载特征的多样化。单一GPU架构针对密集矩阵乘法(FP16/FP32)进行了优化,但在处理稀疏注意力机制、图神经网络或纯整数推理等任务时,效率低下。

架构分解:
- GPU(如NVIDIA H100/B200): 凭借大规模SIMT并行性和高内存带宽(H100为3.35 TB/s),非常适合训练大型Transformer模型。然而,它们存在高延迟(微秒到毫秒级)和稀疏操作能效低的问题。H100的Tensor Core在稀疏模型上的利用率可能降至30%以下。
- NPU(神经处理单元,如Apple Neural Engine、华为昇腾910B): 专为量化模型(INT8/INT4)的低功耗、高吞吐量推理而设计。Apple A17 Pro的Neural Engine在每TOPS功耗低于1W的情况下达到35 TOPS,而H100在INT8下的每TOPS功耗约为2W。但NPU缺乏训练或复杂图操作的灵活性。
- ASIC(专用集成电路,如Groq LPU、Cerebras WSE-3): 针对特定模型架构的定制芯片。Groq的LPU通过基于大规模SRAM的架构消除了内存瓶颈,实现了LLM推理的确定性延迟低于1毫秒。Cerebras的WSE-3(4万亿晶体管)通过将整个模型保持在芯片上,避免了通信开销,从而能够训练超过100万亿参数的模型。
- CPU(如AMD EPYC、Intel Xeon): 对于数据预处理、控制逻辑和处理不规则工作负载(如推荐系统中的图遍历)至关重要。支持AVX-512和AMX扩展的现代CPU可以高效处理小批量推理。

内存墙: 最大的瓶颈是数据移动。典型的AI工作负载将60-80%的能量用于数据传输,而非计算。异构系统通过统一内存架构来解决这一问题。NVIDIA的Grace Hopper超级芯片使用NVLink-C2C在CPU和GPU之间提供900 GB/s的带宽,实现对统一内存池的缓存一致性访问。Intel的CXL(Compute Express Link)标准允许CPU、GPU和加速器以缓存行粒度共享内存,从而减少数据复制开销。

软件编排层: 最难的部分是编程。CUDA占据主导地位,但以GPU为中心。Intel的oneAPI提供了跨CPU、GPU和FPGA的统一编程模型。AMD的ROCm在开源GPU计算领域正获得关注。对于异构编排,Apache TVM和XLA(来自Google)等框架可自动跨设备划分计算图。开源仓库llama.cpp(GitHub上超过6万星)展示了如何在CPU+GPU混合系统上通过4位量化运行LLM,在单个消费级GPU上实现每秒30-50个token。另一个关键仓库是vLLM(超过3万星),它使用PagedAttention优化GPU内存用于推理,但其最新版本增加了用于KV-cache的CPU卸载,这是一种异构技术。

数据表:按工作负载类型的计算效率

| 工作负载类型 | GPU (H100) | NPU (昇腾910B) | ASIC (Groq LPU) | CPU (AMD EPYC) |
|---|---|---|---|---|
| LLM训练 (FP16) | 1.0 (基准) | 0.4x | N/A | 0.05x |
| LLM推理 (INT8, batch=1) | 0.3x | 1.2x | 2.5x | 0.1x |
| 视频生成 (扩散模型) | 1.0 | 0.6x | N/A | 0.02x |
| 推荐系统 (稀疏+嵌入) | 0.2x | 0.8x | 0.5x | 1.0x |
| 能效 (TOPS/瓦特) | 1.0 | 3.5x | 2.0x | 0.8x |

数据要点: 没有任何单一架构在所有工作负载上占据主导地位。Groq的LPU在单批次LLM推理上相比H100实现了2.5倍的加速,加上NPU 3.5倍的能效优势,证明异构系统可以为混合工作负载带来2-5倍的总拥有成本(TCO)改善。

关键玩家与案例研究

中科元机(Taichu Yuanji): 一家专注于为中国AI巨头构建异构计算集群的中国AI基础设施公司。其策略是将华为昇腾NPU用于推理,寒武纪芯片用于训练,并通过定制互连创建统一资源池。Hong Yuan的公开声明强调,由于出口管制,中国AI行业必须跳过纯GPU阶段,这使得异构计算成为必然而非选择。其旗舰项目“太一”集群声称在混合工作负载下利用率达到80%,而纯GPU集群约为50%。

NVIDIA: 这家行业巨头并未停滞不前。Grace Hopper GH200和即将推出的Blackwell B200将CPU和GPU集成在单个封装中,通过900 GB/s的NVLink-C2C连接。NVIDIA的CUDA生态系统仍然是最强大的软件护城河,但他们正在增加对CPU卸载(例如用于数据预处理)和用于稀疏操作的类NPU Tensor Core的支持。然而,其商业模式依赖于销售昂贵的GPU,这与倾向于更便宜、更专用硬件的异构趋势产生了矛盾。

相关专题

AI infrastructure264 篇相关文章

时间归档

May 20262673 篇已发布文章

延伸阅读

AI's Four Pillars Converge: Agents, Multimodal, Apps, and Compute Unite to Define the Next DecadeThe AI industry stands at a critical inflection point where autonomous agents, multimodal models, real-world application一人一库:Kimi如何用AI基础设施扛住万倍并发Kimi悄然部署了“一人一库”架构,为每个AI智能体会话创建专属轻量级数据库实例。这一设计实现了绝对数据隔离、亚100毫秒延迟和近乎为零的每用户存储成本,标志着AI从共享模型向个人数据主权的转变。OpenAI 200亿美元押注Cerebras:一场对英伟达AI芯片霸权的正面宣战据传OpenAI正与Cerebras Systems敲定一笔价值200亿美元的自定义芯片协议,这笔交易直接将这家初创公司的IPO估值推高至350亿美元。这绝非一纸采购合同,而是一份战略性的宣战书——直指英伟达的GPU垄断地位,标志着AI硬件Token经济学:英伟达如何重写AI基础设施的价值规则英伟达正在悄然重新定义行业衡量AI基础设施价值的方式。随着推理工作负载超越训练,关键指标不再是峰值FLOPs或GPU数量——而是每个Token的成本。这一转变将决定谁能在AI浪潮中获利,谁将被淘汰。

常见问题

这次公司发布“Heterogeneous Computing Becomes AI's New Bedrock: The End of GPU-Only Dominance”主要讲了什么?

The AI industry is entering a new compute cycle where the 'brute force' approach of massive GPU clusters is hitting hard economic and technical ceilings. Hong Yuan, a key figure at…

从“What is heterogeneous computing and why is it important for AI?”看,这家公司的这次发布为什么值得关注?

The fundamental driver of heterogeneous computing is the divergence of AI workload characteristics. A single GPU architecture optimized for dense matrix multiplication (FP16/FP32) is fundamentally inefficient for tasks l…

围绕“Taichu Yuanji Hong Yuan heterogeneous computing strategy analysis”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。