技术深度解析
华为昇腾系列处理器基于达芬奇架构,其核心是一个统一、可扩展的计算单元——Cube。每个Cube包含16个AI核心,架构通过在芯片上平铺多个Cube实现扩展。当前旗舰产品昇腾910B提供256 TFLOPS的FP16算力和512 TFLOPS的INT8性能,配备32 GB HBM2e内存,带宽达1.2 TB/s。即将推出的昇腾910C预计将采用HBM3,使内存带宽翻倍至2.4 TB/s,并通过更激进的7nm级制程提升计算密度。
然而,制造工艺才是关键瓶颈。中芯国际的N+2制程(相当于台积电7nm节点)因缺乏极紫外(EUV)光刻设备,不得不采用深紫外(DUV)光刻加多重图形化技术。这增加了制造复杂度,降低了良率,并限制了每片晶圆可产出的芯片数量。对于昇腾910B(约600 mm²)这样大小的芯片,一片典型的300mm晶圆大约产出80-100颗可用芯片,而台积电制造的同类芯片可达120-150颗。这一良率差距直接转化为更高的单颗芯片成本和受限的供应。
| 制程节点 | 等效台积电节点 | 是否需要EUV? | 预估良率(600mm²芯片) | 每片晶圆成本(预估) |
|---|---|---|---|---|
| 中芯国际 N+1 | 10nm | 否 | 60-70% | 4,500美元 |
| 中芯国际 N+2 | 7nm | 否 | 40-55% | 5,500美元 |
| 中芯国际 N+3(规划中) | 5nm | 是(有限使用) | 20-30%(预估) | 8,000美元以上 |
数据要点: 非EUV制造的良率惩罚十分严重,可用芯片数量比台积电减少30-50%。这直接限制了华为的产能扩展能力,即便需求无限。
华为的软件栈CANN(计算架构神经网络)已针对降低内存带宽压力和提升利用率进行了优化。最新基准测试显示,在CANN 7.0下,昇腾910B在GPT-3规模模型上的训练吞吐量已达到英伟达A100的85%,而一年前仅为65%。在推理方面差距更小,对于Llama 2-70B模型,当批处理大小达到32或更大时,910B已与A100持平。这些改进得益于更好的算子融合、内存池化和自动混合精度调度。
一个相关的开源项目是华为力推的MindSpore框架,旨在替代PyTorch。MindSpore的GitHub仓库已累计超过4000颗星,并支持与昇腾硬件紧密耦合的自动图优化。然而,其生态系统仍然碎片化,许多中国AI初创公司仍倾向于使用PyTorch配合自定义的昇腾后端。
关键玩家与案例研究
该生态系统的主要参与者包括华为(设计方与集成商)、中芯国际(代工厂),以及作为主要客户的中国云服务商和AI初创公司集群。
华为采取了双轨策略:一方面直接向阿里云、腾讯云、百度智能云等云服务商销售芯片,另一方面也在自己的昇腾云服务中部署这些芯片。内部消耗有助于验证性能并消化初期供应,但外部销售才是营收增长的关键。华为的芯片部门海思持续设计架构,但若无中芯国际,便无法实现大规模制造。
中芯国际是中国唯一能生产7nm级芯片的代工厂。其N+2制程产能估计为每月15,000-20,000片晶圆(WPM),其中据称华为占用了70-80%。剩余产能分配给少数其他客户,包括比特大陆(用于加密货币挖矿芯片)和一些汽车AI芯片。中芯国际在上海的新晶圆厂预计将增加10,000 WPM的N+2产能,但最早要到2026年底才能开始量产。
竞争方案: 多家中国AI芯片初创公司试图填补空白,但均未实现量产规模。
| 公司 | 芯片 | 制程节点 | FP16 TFLOPS | 状态 |
|---|---|---|---|---|
| 华为 | 昇腾910B | 中芯国际 N+2 | 256 | 量产中 |
| 寒武纪 | MLU370 | 台积电7nm(库存) | 128 | 供应有限 |
| 壁仞科技 | BR100 | 台积电7nm(库存) | 256 | 预生产 |
| 燧原科技 | T20 | 中芯国际 N+2 | 192 | 样品阶段 |
数据要点: 华为在性能和产量方面均占据绝对领先地位。寒武纪和壁仞科技依赖出口限制前囤积的台积电晶圆,限制了其扩展能力。燧原科技的T20前景可期,但仍在样品阶段,尚无量产时间表。
案例研究:字节跳动 字节跳动为抖音和推荐系统运行着庞大的AI工作负载,是华为最大的客户之一。2025年第一季度,字节跳动下单订购5万颗昇腾910B芯片,用于训练其下一代视频生成模型。由于晶圆短缺,交付延迟了8-12周,迫使字节跳动延长使用其在出口禁令前囤积的英伟达A100芯片。这一案例生动说明了制造瓶颈如何直接传导至下游应用层。