中国AI芯片四小龙:从可用到必用,软件生态仍是致命短板

April 2026
AI infrastructure归档:April 2026
中国四大国产AI芯片公司——合称“四小龙”——2025年营收首次突破500亿元人民币,标志着行业已从技术可行性验证阶段迈入市场份额争夺战。然而,AINews深度分析发现,尽管硬件性能已逼近国际标杆,软件生态的持续短板正成为制约其从“可用”走向“好用”的关键瓶颈。

2025年年报显示,中国“四小龙”——寒武纪、华为海思(昇腾)、壁仞科技、摩尔线程——交出了一份跨越关键门槛的成绩单。四家公司合计营收突破500亿元,主要驱动力来自云服务商的大规模采购以及国家级AI基础设施项目。这一财务里程碑证明,国产芯片在FP16 TFLOPS、内存带宽等关键指标上已与NVIDIA产品实现硬件对标,尤其在推理工作负载方面表现突出。然而,光鲜的数字背后隐藏着更深层的结构性挑战。基于对数据中心运营商和企业开发者的访谈,我们的调查发现,从“可用”到“真正好用”的转变,取决于三个相互关联的瓶颈:编译器与运行时层的成熟度、分布式训练工具的完备性,以及第三方模型库的生态丰富度。

技术深度解析

四小龙2025年财报中披露的硬件数据确实令人印象深刻。最新一代国产芯片——如华为昇腾910C、寒武纪MLU590、壁仞BR100、摩尔线程MTT S4000——FP16性能已达300-450 TFLOPS区间,内存带宽超过2 TB/s。这些数字已逼近NVIDIA H100(989 TFLOPS FP8,3.35 TB/s HBM3),甚至接近更新的B200,尤其在推理优化配置下差距更小。

然而,真正的故事藏在软件栈里。NVIDIA的统治地位不仅建立在CUDA之上,更依赖一个庞大的生态系统:库(cuDNN、cuBLAS、TensorRT)、性能分析工具(Nsight)、框架集成——这些经过15年打磨的资产。四小龙正试图用各自的软件栈复制这一模式:华为的CANN(Compute Architecture for Neural Networks)、寒武纪的BangWare、壁仞的BIREN-SDK、摩尔线程的MUSA(Moore Threads Unified System Architecture)。

一个关键的技术挑战在于编译器与运行时层。NVIDIA的NVCC编译器和Triton推理服务器在自动内核优化和动态批处理方面树立了极高标杆。国产替代方案正在追赶——例如华为的MindSpore框架及其图编译器在标准视觉模型上已展现出竞争力——但在支持最新模型架构方面仍显滞后,如混合专家模型(MoE)和状态空间模型(Mamba)。

| 指标 | NVIDIA H100 | 华为昇腾910C | 寒武纪MLU590 | 壁仞BR100 | 摩尔线程MTT S4000 |
|---|---|---|---|---|---|
| FP16 TFLOPS | 989 | 450 | 350 | 400 | 320 |
| 内存带宽 | 3.35 TB/s | 2.0 TB/s | 1.8 TB/s | 2.2 TB/s | 1.6 TB/s |
| HBM容量 | 80 GB | 64 GB | 48 GB | 64 GB | 48 GB |
| 框架支持 | PyTorch, JAX, TF | MindSpore, PyTorch(部分) | PyTorch(定制分支) | PyTorch(通过适配器) | PyTorch, TF(部分) |
| 集群利用率(估算) | 65-80% | 40-55% | 35-50% | 30-45% | 35-50% |

数据洞察: 虽然峰值FP16性能差距已缩小至2-3倍,但真正的分野在于集群利用率——国产芯片在生产环境中仅能达到理论峰值的40-55%,而NVIDIA集群可达65-80%。这一差距不仅意味着算力浪费,更意味着每个训练模型的有效成本更高。

一个值得关注的开源项目是GitHub上的CANN社区版,已获得超过5000颗星,为自定义内核开发提供了底层接口。同样,壁仞的BIREN-SDK已发布LLaMA和Stable Diffusion的参考实现,但用户反馈称,调试分布式训练任务的难度仍远高于使用CUDA的Nsight Systems。

关键玩家与案例研究

四小龙各自采取差异化战略,反映了不同的出身与优势。

华为(昇腾) 是明确的领导者,凭借与鲲鹏CPU生态的深度整合以及自有云服务(华为云),其战略是提供从芯片到服务器到云到框架(MindSpore)的完整垂直集成方案。这一策略赢得了国企和电信运营商的大单。然而,生态的封闭性也招致了开发者批评——他们更偏爱PyTorch的灵活性。

寒武纪 将自己定位为最“纯粹”的AI芯片公司,高度关注开发者体验。其BangWare软件栈包含一个PyTorch兼容后端,声称只需极少的代码修改。寒武纪在发布基准测试结果方面也颇为积极,展示了在ResNet-50和BERT推理上的竞争力。然而,较小的规模意味着社区支持较弱,第三方库也较少。

壁仞科技 采取了差异化路线,以BR100架构瞄准高端训练市场,其独特的“MIMD”(多指令多数据)设计旨在提升稀疏模型的利用率。壁仞已与多家AI初创公司合作,优化扩散模型和MoE架构的训练。其GitHub上的模型示例仓库已获得关注,但硬件架构的复杂性使得软件优化颇具挑战。

摩尔线程 是最晚入局者,以游戏和图形市场作为滩头阵地,但其MUSA架构在设计上实现了指令级CUDA兼容,便于移植现有CUDA代码。这种“即插即用”策略吸引了一些小型AI实验室的兴趣,但翻译后代码20-30%的性能开销仍是障碍。

| 公司 | 战略 | 主要客户群 | 软件栈 | GitHub星数(SDK/示例) |
|---|---|---|---|---|
| 华为(昇腾) | 垂直集成 | 国企、电信 | CANN, MindSpore | ~5,000(CANN CE) |
| 寒武纪 | 开发者友好 | 云服务商、研究机构 | BangWare | ~3,200 |
| 壁仞科技 | 高端训练差异化 | AI初创公司 | BIREN-SDK | ~2,800 |
| 摩尔线程 | CUDA兼容替代 | 小型AI实验室、游戏玩家 | MUSA | ~4,500 |

相关专题

AI infrastructure183 篇相关文章

时间归档

April 20262646 篇已发布文章

延伸阅读

华裔CEO如何重写AI芯片领导力规则一批华裔及亚裔美国CEO正重塑半导体行业格局。他们罕见地融合了硅谷算法、台积电制造与深圳需求,大幅压缩芯片开发周期,重新定义AI基础设施的构建与销售方式。DeepSeek蜕变:从价格战叛逆者到中国科技巨头共筑的AI基础设施DeepSeek不再孤军奋战。华为、腾讯、阿里巴巴联合注资,将其重塑为中国下一代AI应用的共享基础设施。这标志着独狼时代的终结,一个协作、成本驱动的新生态已然开启。AI's Insatiable Hunger for Power Transforms Pipelines Into the New Critical InfrastructureKinder Morgan just raised its dividend on the back of surging demand from AI data centers. This is not a typical energy 万亿美元光模块狂潮:AI隐藏的基础设施革命光模块板块一年暴涨超1000%,催生新的万亿美元市场龙头。这并非投机炒作,而是AI从算力堆叠转向互联效率的直接结果——多模态模型与世界模拟器对带宽的需求,唯有光子学能够满足。

常见问题

这次公司发布“China's AI Chip Four Dragons: From Viable to Indispensable, The Software Gap Remains”主要讲了什么?

The 2025 annual reports from China's 'Four Dragons'—Cambricon, Huawei HiSilicon (Ascend), Biren Technology, and Moore Threads—paint a picture of a sector that has crossed a critica…

从“How does Huawei Ascend 910C compare to NVIDIA H100 for training large language models?”看,这家公司的这次发布为什么值得关注?

The headline hardware numbers from the Four Dragons' 2025 reports are genuinely impressive. The latest generation of domestic chips—such as Huawei's Ascend 910C, Cambricon's MLU590, Biren's BR100, and Moore Threads' MTT…

围绕“What are the biggest software challenges for developers using domestic AI chips?”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。