中国AI芯片四小龙：从可用到必用，软件生态仍是致命短板

2025年年报显示，中国“四小龙”——寒武纪、华为海思（昇腾）、壁仞科技、摩尔线程——交出了一份跨越关键门槛的成绩单。四家公司合计营收突破500亿元，主要驱动力来自云服务商的大规模采购以及国家级AI基础设施项目。这一财务里程碑证明，国产芯片在FP16 TFLOPS、内存带宽等关键指标上已与NVIDIA产品实现硬件对标，尤其在推理工作负载方面表现突出。然而，光鲜的数字背后隐藏着更深层的结构性挑战。基于对数据中心运营商和企业开发者的访谈，我们的调查发现，从“可用”到“真正好用”的转变，取决于三个相互关联的瓶颈：编译器与运行时层的成熟度、分布式训练工具的完备性，以及第三方模型库的生态丰富度。

技术深度解析

四小龙2025年财报中披露的硬件数据确实令人印象深刻。最新一代国产芯片——如华为昇腾910C、寒武纪MLU590、壁仞BR100、摩尔线程MTT S4000——FP16性能已达300-450 TFLOPS区间，内存带宽超过2 TB/s。这些数字已逼近NVIDIA H100（989 TFLOPS FP8，3.35 TB/s HBM3），甚至接近更新的B200，尤其在推理优化配置下差距更小。

然而，真正的故事藏在软件栈里。NVIDIA的统治地位不仅建立在CUDA之上，更依赖一个庞大的生态系统：库（cuDNN、cuBLAS、TensorRT）、性能分析工具（Nsight）、框架集成——这些经过15年打磨的资产。四小龙正试图用各自的软件栈复制这一模式：华为的CANN（Compute Architecture for Neural Networks）、寒武纪的BangWare、壁仞的BIREN-SDK、摩尔线程的MUSA（Moore Threads Unified System Architecture）。

一个关键的技术挑战在于编译器与运行时层。NVIDIA的NVCC编译器和Triton推理服务器在自动内核优化和动态批处理方面树立了极高标杆。国产替代方案正在追赶——例如华为的MindSpore框架及其图编译器在标准视觉模型上已展现出竞争力——但在支持最新模型架构方面仍显滞后，如混合专家模型（MoE）和状态空间模型（Mamba）。

| 指标 | NVIDIA H100 | 华为昇腾910C | 寒武纪MLU590 | 壁仞BR100 | 摩尔线程MTT S4000 |
|---|---|---|---|---|---|
| FP16 TFLOPS | 989 | 450 | 350 | 400 | 320 |
| 内存带宽 | 3.35 TB/s | 2.0 TB/s | 1.8 TB/s | 2.2 TB/s | 1.6 TB/s |
| HBM容量 | 80 GB | 64 GB | 48 GB | 64 GB | 48 GB |
| 框架支持 | PyTorch, JAX, TF | MindSpore, PyTorch（部分） | PyTorch（定制分支） | PyTorch（通过适配器） | PyTorch, TF（部分） |
| 集群利用率（估算） | 65-80% | 40-55% | 35-50% | 30-45% | 35-50% |

数据洞察： 虽然峰值FP16性能差距已缩小至2-3倍，但真正的分野在于集群利用率——国产芯片在生产环境中仅能达到理论峰值的40-55%，而NVIDIA集群可达65-80%。这一差距不仅意味着算力浪费，更意味着每个训练模型的有效成本更高。

一个值得关注的开源项目是GitHub上的CANN社区版，已获得超过5000颗星，为自定义内核开发提供了底层接口。同样，壁仞的BIREN-SDK已发布LLaMA和Stable Diffusion的参考实现，但用户反馈称，调试分布式训练任务的难度仍远高于使用CUDA的Nsight Systems。

关键玩家与案例研究

四小龙各自采取差异化战略，反映了不同的出身与优势。

华为（昇腾） 是明确的领导者，凭借与鲲鹏CPU生态的深度整合以及自有云服务（华为云），其战略是提供从芯片到服务器到云到框架（MindSpore）的完整垂直集成方案。这一策略赢得了国企和电信运营商的大单。然而，生态的封闭性也招致了开发者批评——他们更偏爱PyTorch的灵活性。

寒武纪 将自己定位为最“纯粹”的AI芯片公司，高度关注开发者体验。其BangWare软件栈包含一个PyTorch兼容后端，声称只需极少的代码修改。寒武纪在发布基准测试结果方面也颇为积极，展示了在ResNet-50和BERT推理上的竞争力。然而，较小的规模意味着社区支持较弱，第三方库也较少。

壁仞科技 采取了差异化路线，以BR100架构瞄准高端训练市场，其独特的“MIMD”（多指令多数据）设计旨在提升稀疏模型的利用率。壁仞已与多家AI初创公司合作，优化扩散模型和MoE架构的训练。其GitHub上的模型示例仓库已获得关注，但硬件架构的复杂性使得软件优化颇具挑战。

摩尔线程 是最晚入局者，以游戏和图形市场作为滩头阵地，但其MUSA架构在设计上实现了指令级CUDA兼容，便于移植现有CUDA代码。这种“即插即用”策略吸引了一些小型AI实验室的兴趣，但翻译后代码20-30%的性能开销仍是障碍。

| 公司 | 战略 | 主要客户群 | 软件栈 | GitHub星数（SDK/示例） |
|---|---|---|---|---|
| 华为（昇腾） | 垂直集成 | 国企、电信 | CANN, MindSpore | ~5,000（CANN CE） |
| 寒武纪 | 开发者友好 | 云服务商、研究机构 | BangWare | ~3,200 |
| 壁仞科技 | 高端训练差异化 | AI初创公司 | BIREN-SDK | ~2,800 |
| 摩尔线程 | CUDA兼容替代 | 小型AI实验室、游戏玩家 | MUSA | ~4,500 |

时间归档

延伸阅读

常见问题

这次公司发布“China's AI Chip Four Dragons: From Viable to Indispensable, The Software Gap Remains”主要讲了什么？

The 2025 annual reports from China's 'Four Dragons'—Cambricon, Huawei HiSilicon (Ascend), Biren Technology, and Moore Threads—paint a picture of a sector that has crossed a critica…

从“How does Huawei Ascend 910C compare to NVIDIA H100 for training large language models?”看，这家公司的这次发布为什么值得关注？

The headline hardware numbers from the Four Dragons' 2025 reports are genuinely impressive. The latest generation of domestic chips—such as Huawei's Ascend 910C, Cambricon's MLU590, Biren's BR100, and Moore Threads' MTT…

围绕“What are the biggest software challenges for developers using domestic AI chips?”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。