异构计算成为AI新基石：GPU独霸时代终结

AI行业正进入一个新的计算周期，大规模GPU集群的“蛮力”方法正触及高昂的经济和技术天花板。中国领先的AI基础设施公司中科元机的核心人物Hong Yuan公开表示，异构计算——即CPU、GPU、NPU和定制ASIC的智能编排——将定义下一代AI基础设施。AINews的这篇编辑分析证实，这一转变已在发生。核心问题很简单：不同的AI任务需要根本不同的计算模式。训练大型语言模型需要高精度、高吞吐量的矩阵乘法，这最适合GPU。而自动驾驶的实时推理则要求超低延迟和确定性时序。异构计算通过将不同任务分配给最合适的硬件，解决了这一矛盾。这一转变不仅关乎性能，更关乎总拥有成本（TCO）和能源效率。随着AI模型规模持续增长，单一架构的局限性愈发明显，异构系统正成为从训练到推理、从云端到边缘的必然选择。

技术深度解析

异构计算的根本驱动力在于AI工作负载特征的多样化。单一GPU架构针对密集矩阵乘法（FP16/FP32）进行了优化，但在处理稀疏注意力机制、图神经网络或纯整数推理等任务时，效率低下。

架构分解：
- GPU（如NVIDIA H100/B200）： 凭借大规模SIMT并行性和高内存带宽（H100为3.35 TB/s），非常适合训练大型Transformer模型。然而，它们存在高延迟（微秒到毫秒级）和稀疏操作能效低的问题。H100的Tensor Core在稀疏模型上的利用率可能降至30%以下。
- NPU（神经处理单元，如Apple Neural Engine、华为昇腾910B）： 专为量化模型（INT8/INT4）的低功耗、高吞吐量推理而设计。Apple A17 Pro的Neural Engine在每TOPS功耗低于1W的情况下达到35 TOPS，而H100在INT8下的每TOPS功耗约为2W。但NPU缺乏训练或复杂图操作的灵活性。
- ASIC（专用集成电路，如Groq LPU、Cerebras WSE-3）： 针对特定模型架构的定制芯片。Groq的LPU通过基于大规模SRAM的架构消除了内存瓶颈，实现了LLM推理的确定性延迟低于1毫秒。Cerebras的WSE-3（4万亿晶体管）通过将整个模型保持在芯片上，避免了通信开销，从而能够训练超过100万亿参数的模型。
- CPU（如AMD EPYC、Intel Xeon）： 对于数据预处理、控制逻辑和处理不规则工作负载（如推荐系统中的图遍历）至关重要。支持AVX-512和AMX扩展的现代CPU可以高效处理小批量推理。

内存墙： 最大的瓶颈是数据移动。典型的AI工作负载将60-80%的能量用于数据传输，而非计算。异构系统通过统一内存架构来解决这一问题。NVIDIA的Grace Hopper超级芯片使用NVLink-C2C在CPU和GPU之间提供900 GB/s的带宽，实现对统一内存池的缓存一致性访问。Intel的CXL（Compute Express Link）标准允许CPU、GPU和加速器以缓存行粒度共享内存，从而减少数据复制开销。

软件编排层： 最难的部分是编程。CUDA占据主导地位，但以GPU为中心。Intel的oneAPI提供了跨CPU、GPU和FPGA的统一编程模型。AMD的ROCm在开源GPU计算领域正获得关注。对于异构编排，Apache TVM和XLA（来自Google）等框架可自动跨设备划分计算图。开源仓库llama.cpp（GitHub上超过6万星）展示了如何在CPU+GPU混合系统上通过4位量化运行LLM，在单个消费级GPU上实现每秒30-50个token。另一个关键仓库是vLLM（超过3万星），它使用PagedAttention优化GPU内存用于推理，但其最新版本增加了用于KV-cache的CPU卸载，这是一种异构技术。

数据表：按工作负载类型的计算效率

| 工作负载类型 | GPU (H100) | NPU (昇腾910B) | ASIC (Groq LPU) | CPU (AMD EPYC) |
|---|---|---|---|---|
| LLM训练 (FP16) | 1.0 (基准) | 0.4x | N/A | 0.05x |
| LLM推理 (INT8, batch=1) | 0.3x | 1.2x | 2.5x | 0.1x |
| 视频生成 (扩散模型) | 1.0 | 0.6x | N/A | 0.02x |
| 推荐系统 (稀疏+嵌入) | 0.2x | 0.8x | 0.5x | 1.0x |
| 能效 (TOPS/瓦特) | 1.0 | 3.5x | 2.0x | 0.8x |

数据要点： 没有任何单一架构在所有工作负载上占据主导地位。Groq的LPU在单批次LLM推理上相比H100实现了2.5倍的加速，加上NPU 3.5倍的能效优势，证明异构系统可以为混合工作负载带来2-5倍的总拥有成本（TCO）改善。

关键玩家与案例研究

中科元机（Taichu Yuanji）： 一家专注于为中国AI巨头构建异构计算集群的中国AI基础设施公司。其策略是将华为昇腾NPU用于推理，寒武纪芯片用于训练，并通过定制互连创建统一资源池。Hong Yuan的公开声明强调，由于出口管制，中国AI行业必须跳过纯GPU阶段，这使得异构计算成为必然而非选择。其旗舰项目“太一”集群声称在混合工作负载下利用率达到80%，而纯GPU集群约为50%。

NVIDIA： 这家行业巨头并未停滞不前。Grace Hopper GH200和即将推出的Blackwell B200将CPU和GPU集成在单个封装中，通过900 GB/s的NVLink-C2C连接。NVIDIA的CUDA生态系统仍然是最强大的软件护城河，但他们正在增加对CPU卸载（例如用于数据预处理）和用于稀疏操作的类NPU Tensor Core的支持。然而，其商业模式依赖于销售昂贵的GPU，这与倾向于更便宜、更专用硬件的异构趋势产生了矛盾。

时间归档

延伸阅读

常见问题

这次公司发布“Heterogeneous Computing Becomes AI's New Bedrock: The End of GPU-Only Dominance”主要讲了什么？

The AI industry is entering a new compute cycle where the 'brute force' approach of massive GPU clusters is hitting hard economic and technical ceilings. Hong Yuan, a key figure at…

从“What is heterogeneous computing and why is it important for AI?”看，这家公司的这次发布为什么值得关注？

The fundamental driver of heterogeneous computing is the divergence of AI workload characteristics. A single GPU architecture optimized for dense matrix multiplication (FP16/FP32) is fundamentally inefficient for tasks l…

围绕“Taichu Yuanji Hong Yuan heterogeneous computing strategy analysis”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。