技术深度解析
DeepSeek与华为的联盟代表了对AI堆栈架构的根本性重新思考。其核心在于,DeepSeek的模型——特别是DeepSeek-V2和最新发布的DeepSeek-R1——采用了混合专家(MoE)架构,大幅减少了每个token激活的参数数量。据估计,像GPT-4这样的稠密模型每次前向传播需要激活全部约1.8万亿个参数,而DeepSeek-V2每个token仅激活236亿总参数中的约210亿个。这种稀疏性是其成本优势的主要来源。
但真正的创新在于DeepSeek的多头潜在注意力(MLA)机制。MLA将键值(KV)缓存压缩到低秩潜在空间中,与标准多头注意力相比,推理期间的内存消耗减少了约75%。这对于部署在华为昇腾910B和910C芯片上至关重要,因为这些芯片的HBM带宽相比Nvidia H100或B200有限。通过设计架构以最小化内存压力,DeepSeek实际上使硬件的局限性变得无关紧要。
在硬件方面,华为的昇腾生态系统并非直接的CUDA竞争对手——它是一种根本不同的方法。昇腾芯片采用达芬奇架构,配备自定义指令集和CANN(神经网络计算架构)软件栈。CANN包含一个图编译器,可自动针对硬件优化模型图,包括算子融合和内存布局优化。开源框架MindSpore为昇腾提供原生支持,但关键的是,社区开发了ONNX到CANN的转换器和PyTorch适配器(torch_npu),使得在CUDA上训练的模型只需极少的代码更改即可部署在昇腾上。
双向优化体现在多个方面。DeepSeek发布了模型权重和训练配方,其中包含针对昇腾张量核心优化的特定内核实现。作为回报,华为向DeepSeek的GitHub仓库(已超过15,000颗星)贡献了补丁,提升了MoE路由算法在昇腾硬件上的效率。这种共同进化正在形成一个反馈循环:随着DeepSeek模型的改进,它们暴露出新的硬件瓶颈,华为在下一代芯片修订中解决这些问题,进而实现更深入的模型优化。
| 指标 | DeepSeek-V2 on Ascend 910B | GPT-4 on H100 (估计) | 成本比率 |
|---|---|---|---|
| 训练成本 (美元) | 560万 | ~1亿+ | 1:18 |
| 每百万token推理成本 | 0.14美元 | 2.50美元 | 1:18 |
| KV缓存内存 (每token) | 2.1 MB | 8.4 MB | 1:4 |
| 每token激活参数 | 210亿 | ~2000亿 (估计) | 1:9.5 |
| MMLU得分 | 78.4 | 88.7 | — |
数据要点: DeepSeek以1/18的成本实现了GPT-4在MMLU上78%的性能。MLA带来的内存效率提升是在昇腾等低带宽硬件上部署的关键推动因素。
关键玩家与案例分析
DeepSeek 是一家由量化对冲基金经理梁文峰创立的中国AI实验室。与西方实验室烧钱数十亿用于算力不同,DeepSeek秉持精益理念:在扩展硬件之前先最大化算法效率。该实验室的开源发布——包括DeepSeek-V2聊天模型和DeepSeek-Coder系列——在Hugging Face上的下载量已超过1000万次。其策略是将模型层商品化,迫使竞争对手在生态系统和应用层面竞争,而非单纯的模型质量。
华为昇腾部门 一直在悄然构建完整的AI基础设施堆栈。2025年底发布的昇腾910C每芯片可实现256 TFLOPS(FP16),而H100为989 TFLOPS。但原始性能具有误导性——华为专注于集群级效率。CloudEngine系列交换机提供每端口800Gbps带宽,并内置针对分布式训练优化的拥塞控制算法,在1024芯片集群中实现了95%的线性扩展效率。这与Nvidia的NVLink + InfiniBand组合相当,但总拥有成本低40%。
Anthropic 代表了相反的哲学。该公司据估计在训练Claude 3.5上花费了25亿美元的算力,并高度重视安全研究,这需要大量的红队测试和可解释性工作。其模型闭源并通过API访问,商业模式建立在为企业客户提供高利润服务的基础上,这些客户重视安全性和可靠性。DeepSeek-华为的威胁对Anthropic来说是生存性的,因为它提供了一个既更便宜又更透明的可行替代方案——这两个属性对同样的企业客户具有吸引力。
Nvidia 的处境更为复杂。虽然黄仁勋公开淡化这一威胁,但该公司近期的举措却透露出不同信息。Nvidia已开始通过第三方合作伙伴为中国客户提供自定义CUDA内核优化服务,并且已