技术深度解析
DeepSeek收购华为昇腾计算产品线,代表了AI计算架构的根本性转变。该交易的核心是昇腾910B芯片——一款专为AI训练和推理设计的7nm处理器,以及其继任者昇腾910C,后者瞄准了英伟达A100的性能层级。关键的技术差异化因素并非原始算力(teraflops),而是软件栈。
华为的CUBE(基础生态系统计算单元)框架提供了一种抽象底层硬件的编程模型,类似于CUDA但具有关键架构差异。CUBE采用针对昇腾芯片达芬奇架构优化的分层内存模型,该架构使用3D Cube矩阵乘法引擎。这种设计对于主导现代AI工作负载的Transformer模型尤为高效。MindSpore框架——华为对标PyTorch的产品——现在正被DeepSeek分叉并针对其特定模型架构进行优化。
DeepSeek的工程师已经证明,经过仅三个月的软件优化,其DeepSeek-V3模型在昇腾910C上的训练吞吐量相比英伟达A100提升了30%。这是通过定制内核融合减少内存带宽瓶颈,以及用名为“AscendLink”的新分布式训练协议取代英伟达NCCL实现的。该协议使用华为专有的HCCS互连,每链路提供200GB/s带宽(英伟达NVLink为900GB/s),但通过为推理工作负载中常见的小批量大小提供更低延迟来弥补差距。
| 指标 | 英伟达 H100 (SXM) | 昇腾 910C | 昇腾 910B |
|---|---|---|---|
| 制程节点 | 4nm (台积电) | 7nm (中芯国际) | 7nm (中芯国际) |
| FP16 TFLOPS | 1979 | 512 | 320 |
| INT8 TOPS | 3958 | 1024 | 640 |
| 内存带宽 | 3.35 TB/s | 1.2 TB/s | 0.8 TB/s |
| 互连 | NVLink 900GB/s | HCCS 200GB/s | HCCS 100GB/s |
| 软件栈 | CUDA 12.x | CUBE + MindSpore | CUBE + MindSpore |
| 功耗 (TDP) | 700W | 310W | 250W |
数据要点: 虽然英伟达H100在原始算力和内存带宽上占优,但昇腾910C在推理工作负载上提供了2.5倍更好的每瓦性能(基于DeepSeek内部基准测试)。由于软件优化,训练性能差距的缩小速度远超预期。真正的瓶颈并非硬件,而是软件生态系统——而DeepSeek现在掌控了它。
一个值得关注的开源项目是GitHub上的“Ascend-Transformers”仓库(目前拥有4200颗星),它为昇腾硬件提供了Transformer层的优化实现。DeepSeek已为该仓库贡献了大量补丁,包括一种定制的注意力机制,可将长上下文模型的内存使用量减少40%。这种深度集成在依赖英伟达专有栈时是不可能实现的。
关键参与者与案例分析
此次收购将两种截然不同的文化结合在一起:DeepSeek——以推动模型规模边界而闻名的激进AI实验室,以及华为昇腾团队——拥有深厚硬件工程专业知识。合并后的实体现在掌控着从芯片设计到模型部署的整个价值链。
DeepSeek的战略: DeepSeek一直在悄然构建围绕模型效率的护城河。其DeepSeek-V3的混合专家(MoE)架构在总共1.8T参数中仅使用37B活跃参数,使其在推理方面异常高效。通过拥有硬件,他们可以在芯片层面进一步优化MoE路由逻辑,可能将延迟再降低20-30%。其视频生成模型DeepSeek-Video(与Sora竞争)需要大量算力进行扩散步骤。在昇腾上运行使他们能够尝试英伟达CUDA原生支持不佳的定制低精度格式(FP8、INT4)。
华为的转向: 华为在政府和电信客户之外推广昇腾一直举步维艰。与DeepSeek的合作使他们获得了一个标志性的AI客户,这将为更广泛的市场验证该平台。华为将继续制造芯片,但DeepSeek现在控制着计算产品线的软件路线图和市场策略。这类似于Google的TPU团队在Alphabet内部的运作方式。
竞争格局:
| 公司 | 硬件 | 软件栈 | 关键模型 | 市场地位 |
|---|---|---|---|---|
| DeepSeek(收购后) | 昇腾 910C | CUBE + MindSpore(分叉版) | DeepSeek-V3, DeepSeek-Video | 全栈国产领导者 |
| 百度 | 昆仑 2 | PaddlePaddle | ERNIE 4.0 | 部分栈,硬件较弱 |
| 阿里巴巴 | 含光 800 | PAI + PyTorch | Qwen 2.5 | 云为中心,无芯片所有权 |
| 腾讯 | 定制 FPGA | Angel + PyTorch | Hunyuan | 细分领域,非完整训练 |
| 字节跳动 | 定制 ASIC(内部) | PyTorch | 豆包 | 早期阶段,未公开 |
数据要点: DeepSeek现在是唯一一家拥有完全集成硬件-软件栈的中国AI公司。