中国AI芯片四小龙:从可用到必用,软件生态仍是致命短板

April 2026
AI infrastructure归档:April 2026
中国四大国产AI芯片公司——合称“四小龙”——2025年营收首次突破500亿元人民币,标志着行业已从技术可行性验证阶段迈入市场份额争夺战。然而,AINews深度分析发现,尽管硬件性能已逼近国际标杆,软件生态的持续短板正成为制约其从“可用”走向“好用”的关键瓶颈。

2025年年报显示,中国“四小龙”——寒武纪、华为海思(昇腾)、壁仞科技、摩尔线程——交出了一份跨越关键门槛的成绩单。四家公司合计营收突破500亿元,主要驱动力来自云服务商的大规模采购以及国家级AI基础设施项目。这一财务里程碑证明,国产芯片在FP16 TFLOPS、内存带宽等关键指标上已与NVIDIA产品实现硬件对标,尤其在推理工作负载方面表现突出。然而,光鲜的数字背后隐藏着更深层的结构性挑战。基于对数据中心运营商和企业开发者的访谈,我们的调查发现,从“可用”到“真正好用”的转变,取决于三个相互关联的瓶颈:编译器与运行时层的成熟度、分布式训练工具的完备性,以及第三方模型库的生态丰富度。

技术深度解析

四小龙2025年财报中披露的硬件数据确实令人印象深刻。最新一代国产芯片——如华为昇腾910C、寒武纪MLU590、壁仞BR100、摩尔线程MTT S4000——FP16性能已达300-450 TFLOPS区间,内存带宽超过2 TB/s。这些数字已逼近NVIDIA H100(989 TFLOPS FP8,3.35 TB/s HBM3),甚至接近更新的B200,尤其在推理优化配置下差距更小。

然而,真正的故事藏在软件栈里。NVIDIA的统治地位不仅建立在CUDA之上,更依赖一个庞大的生态系统:库(cuDNN、cuBLAS、TensorRT)、性能分析工具(Nsight)、框架集成——这些经过15年打磨的资产。四小龙正试图用各自的软件栈复制这一模式:华为的CANN(Compute Architecture for Neural Networks)、寒武纪的BangWare、壁仞的BIREN-SDK、摩尔线程的MUSA(Moore Threads Unified System Architecture)。

一个关键的技术挑战在于编译器与运行时层。NVIDIA的NVCC编译器和Triton推理服务器在自动内核优化和动态批处理方面树立了极高标杆。国产替代方案正在追赶——例如华为的MindSpore框架及其图编译器在标准视觉模型上已展现出竞争力——但在支持最新模型架构方面仍显滞后,如混合专家模型(MoE)和状态空间模型(Mamba)。

| 指标 | NVIDIA H100 | 华为昇腾910C | 寒武纪MLU590 | 壁仞BR100 | 摩尔线程MTT S4000 |
|---|---|---|---|---|---|
| FP16 TFLOPS | 989 | 450 | 350 | 400 | 320 |
| 内存带宽 | 3.35 TB/s | 2.0 TB/s | 1.8 TB/s | 2.2 TB/s | 1.6 TB/s |
| HBM容量 | 80 GB | 64 GB | 48 GB | 64 GB | 48 GB |
| 框架支持 | PyTorch, JAX, TF | MindSpore, PyTorch(部分) | PyTorch(定制分支) | PyTorch(通过适配器) | PyTorch, TF(部分) |
| 集群利用率(估算) | 65-80% | 40-55% | 35-50% | 30-45% | 35-50% |

数据洞察: 虽然峰值FP16性能差距已缩小至2-3倍,但真正的分野在于集群利用率——国产芯片在生产环境中仅能达到理论峰值的40-55%,而NVIDIA集群可达65-80%。这一差距不仅意味着算力浪费,更意味着每个训练模型的有效成本更高。

一个值得关注的开源项目是GitHub上的CANN社区版,已获得超过5000颗星,为自定义内核开发提供了底层接口。同样,壁仞的BIREN-SDK已发布LLaMA和Stable Diffusion的参考实现,但用户反馈称,调试分布式训练任务的难度仍远高于使用CUDA的Nsight Systems。

关键玩家与案例研究

四小龙各自采取差异化战略,反映了不同的出身与优势。

华为(昇腾) 是明确的领导者,凭借与鲲鹏CPU生态的深度整合以及自有云服务(华为云),其战略是提供从芯片到服务器到云到框架(MindSpore)的完整垂直集成方案。这一策略赢得了国企和电信运营商的大单。然而,生态的封闭性也招致了开发者批评——他们更偏爱PyTorch的灵活性。

寒武纪 将自己定位为最“纯粹”的AI芯片公司,高度关注开发者体验。其BangWare软件栈包含一个PyTorch兼容后端,声称只需极少的代码修改。寒武纪在发布基准测试结果方面也颇为积极,展示了在ResNet-50和BERT推理上的竞争力。然而,较小的规模意味着社区支持较弱,第三方库也较少。

壁仞科技 采取了差异化路线,以BR100架构瞄准高端训练市场,其独特的“MIMD”(多指令多数据)设计旨在提升稀疏模型的利用率。壁仞已与多家AI初创公司合作,优化扩散模型和MoE架构的训练。其GitHub上的模型示例仓库已获得关注,但硬件架构的复杂性使得软件优化颇具挑战。

摩尔线程 是最晚入局者,以游戏和图形市场作为滩头阵地,但其MUSA架构在设计上实现了指令级CUDA兼容,便于移植现有CUDA代码。这种“即插即用”策略吸引了一些小型AI实验室的兴趣,但翻译后代码20-30%的性能开销仍是障碍。

| 公司 | 战略 | 主要客户群 | 软件栈 | GitHub星数(SDK/示例) |
|---|---|---|---|---|
| 华为(昇腾) | 垂直集成 | 国企、电信 | CANN, MindSpore | ~5,000(CANN CE) |
| 寒武纪 | 开发者友好 | 云服务商、研究机构 | BangWare | ~3,200 |
| 壁仞科技 | 高端训练差异化 | AI初创公司 | BIREN-SDK | ~2,800 |
| 摩尔线程 | CUDA兼容替代 | 小型AI实验室、游戏玩家 | MUSA | ~4,500 |

相关专题

AI infrastructure294 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

中国AI芯片困局:为何2030才是真正的突破之年国产AI加速器正深陷开发者抱怨与供应短缺的双重夹击。然而,一场旨在实现原生PyTorch兼容、打造CUDA级软件库、并借助先进封装破局的协同努力,有望在本十年末彻底扭转局面。真正的AI战争:谁在掌控数字经济的“收费公路”?AI竞赛进入新阶段,模型智能正沦为大宗商品。真正的战利品在于控制用户与AI交互的“入口”——操作系统、浏览器和超级应用——以及将AI建议转化为现实行动的“执行层”,一套全新的数字税收体系正在形成。Token Foundry:阿里如何用工业化训练终结AI英雄时代在明星AI科学家林俊阳离职三个月后,阿里巴巴推出了Token Foundry——一个通过可扩展、标准化的token生产流水线取代对个人天才依赖的平台,将模型训练彻底工业化。这标志着AI研究“英雄时代”的终结。明阳电路165亿可转债转向AI HDI板:PCB产业战略拐点已至明阳电路将原定用于新能源车的12亿元可转债募资转向AI算力基础设施,专攻高端HDI板。这一决策折射出传统PCB制造商集体向高壁垒、高利润的AI硬件生态迁移的产业趋势。

常见问题

这次公司发布“China's AI Chip Four Dragons: From Viable to Indispensable, The Software Gap Remains”主要讲了什么?

The 2025 annual reports from China's 'Four Dragons'—Cambricon, Huawei HiSilicon (Ascend), Biren Technology, and Moore Threads—paint a picture of a sector that has crossed a critica…

从“How does Huawei Ascend 910C compare to NVIDIA H100 for training large language models?”看,这家公司的这次发布为什么值得关注?

The headline hardware numbers from the Four Dragons' 2025 reports are genuinely impressive. The latest generation of domestic chips—such as Huawei's Ascend 910C, Cambricon's MLU590, Biren's BR100, and Moore Threads' MTT…

围绕“What are the biggest software challenges for developers using domestic AI chips?”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。