DeepSeek的500亿美元转身：从自筹资金的反叛者到国家AI冠军

DeepSeek由量化交易巨头梁文锋创立，长期以来一直是AI行业的异类。凭借数十亿美元的个人财富和4万至5万块英伟达GPU的储备，梁文锋曾断然拒绝腾讯、阿里巴巴及其他顶级风投的橄榄枝，认为风投资金是一种负担，会分散对纯研究的专注。这种自筹资金的方式让DeepSeek得以异常独立地运营，以宽松的MIT许可发布DeepSeek-V2和DeepSeek-R1等模型，无需承受变现压力。

然而，在2026年4月，DeepSeek发布了V4，一个万亿参数的混合专家（MoE）模型，这标志着一次根本性的转变。首次，整个训练和推理流程运行在华为的昇腾AI芯片上，而非英伟达。这一转变不仅是技术上的，更是战略上的：DeepSeek正从一家独立的研究实验室，转型为国家级AI基础设施的支柱。500亿美元的融资——据信来自中国国家集成电路产业投资基金（大基金）和地方政府实体——将用于建设一个由10万块昇腾芯片组成的集群，目标是在2027年前实现“通用人工智能”（AGI）。

批评者认为，DeepSeek正在牺牲性能以换取政治庇护。但支持者认为，这是中国AI生态系统的关键时刻：一个世界级的模型正在本土硬件上构建，证明了算法创新可以弥补芯片差距。

技术深度解析

DeepSeek V4迁移至华为昇腾并非简单的移植。这是对AI技术栈的根本性重构。V4模型采用混合专家（MoE）架构，拥有超过1万亿参数，每次仅激活部分专家以控制推理成本。在英伟达硬件上，DeepSeek依赖CUDA、cuDNN和NCCL进行通信。在昇腾上，对应的则是华为的CANN（计算架构神经网络）和HCCL（华为集合通信库）。

关键技术挑战：
- 算子兼容性： 许多自定义CUDA内核（如FlashAttention、MoE门控）必须为昇腾的达芬奇架构重写。华为的MindSpore框架和PyTorch适配器（torch_npu）仍在成熟过程中。据报道，DeepSeek向GitHub上的开源torch_npu仓库贡献了数百个补丁，该仓库的星标数在六个月内从2000飙升至12000。
- 内存带宽： 昇腾910B芯片提供约1.6 TB/s的内存带宽，而英伟达H100为3.35 TB/s。为弥补这一差距，DeepSeek实施了激进的量化策略（FP8训练、INT4推理）和一种新颖的层级专家并行机制，将跨芯片通信量减少了40%。
- 扩展效率： DeepSeek发布的一项基准测试显示，一个4096块昇腾集群在V4训练中实现了78%的模型算力利用率（MFU），而同等规模的英伟达集群为85%。随着每次软件更新，这一差距正在缩小。

| 指标 | 英伟达H100（8-GPU节点） | 华为昇腾910B（8芯片节点） | 差异 |
|---|---|---|---|
| 峰值TFLOPS（FP16） | 1,979 | 1,280 | -35% |
| 内存带宽 | 3.35 TB/s | 1.6 TB/s | -52% |
| 互连带宽（NVLink vs HCCS） | 900 GB/s | 600 GB/s | -33% |
| V4训练MFU（4096芯片） | 85% | 78% | -7个百分点 |
| 推理延迟（100万token，批大小=1） | 12ms | 18ms | +50% |
| 每100万token推理成本 | $0.50 | $0.35 | -30% |

数据要点： 尽管昇腾在原始性能上落后，但推理成本降低30%对于大规模部署而言是一个游戏规则改变者。DeepSeek押注于规模效应和软件优化将在18个月内缩小性能差距。

相关GitHub仓库：
- torch_npu（华为的PyTorch适配器）：12000星标，对于在昇腾上运行PyTorch模型至关重要。
- DeepSeek-V4-Open（官方仓库）：8000星标，包含模型权重和针对昇腾优化的推理代码。
- MindSpore（华为原生框架）：25000星标，用于训练流程。

关键人物与案例研究

梁文锋（DeepSeek CEO）： 前量化交易员，创立了中国最大对冲基金之一幻方量化。他的哲学始终是“金钱是工具，而非目标”。通过拒绝风投，他避开了困扰许多AI初创公司的短期变现压力。如今，他转向拥抱国有资本，这一举动表明他志在构建国家级规模的AI基础设施。

华为（昇腾部门）： 华为的昇腾910B是旗舰AI芯片，但其软件生态系统（CANN、MindSpore）一直是短板。DeepSeek的采用是一次巨大的验证。据报道，华为已指派500名工程师支持DeepSeek的迁移工作，两家公司正在共同开发针对MoE架构优化的下一代芯片（昇腾920）。

竞品模型：

| 模型 | 参数 | 架构 | 硬件 | 许可 | MMLU得分 |
|---|---|---|---|---|---|
| DeepSeek V4 | 1T（MoE） | MoE，256专家 | 华为昇腾 | MIT | 91.2 |
| GPT-5（OpenAI） | ~2T（估计） | 密集+MoE混合 | 英伟达B200 | 专有 | 93.5 |
| Claude 4（Anthropic） | ~1.5T（估计） | 密集 | 英伟达B200 | 专有 | 92.8 |
| Qwen 3（阿里巴巴） | 500B（MoE） | MoE，64专家 | 英伟达H100 | Apache 2.0 | 89.5 |
| Ernie 5（百度） | 400B（密集） | 密集 | 昆仑+英伟达 | 专有 | 87.0 |

数据要点： DeepSeek V4的MMLU得分91.2与顶级专有模型不相上下，尽管运行在性能较弱的硬件上。这表明算法创新（MoE、量化）可以部分弥补硬件劣势。

行业影响与市场动态

DeepSeek的转变正在从三个方面重塑AI格局：

1. 加速中国芯片自主化： 中国政府一直在推动国产AI芯片的采用，但由于软件成熟度不足，进展缓慢。DeepSeek的成功提供了一个蓝图。预计其他中国AI实验室（如智谱AI、百川智能）将效仿，形成软件优化的良性循环。

2. 重新定义AI商业模式： DeepSeek的500亿美元融资对于一家中国AI初创公司来说是前所未有的。这标志着从“模型即产品”向“基础设施即服务”的转变。DeepSeek计划以成本价提供推理API，比OpenAI和Anthropic低50-70%，同时通过企业定制和政府合同盈利。

3. 颠覆全球市场： 如果DeepSeek能够提供GPT-5级别的性能，同时成本降低70%，全球AI市场将面临价格战。OpenAI和Anthropic将被迫降低价格或证明其溢价合理性。对于开发者而言，这意味着更低的成本和更多的选择——但前提是昇腾的软件生态系统能够保持稳定。

风险与争议： 批评者指出，DeepSeek对华为硬件的依赖使其容易受到出口管制和供应链瓶颈的影响。此外，昇腾的软件栈仍存在bug；DeepSeek内部人士透露，V4训练过程中有15%的时间因硬件故障而停机，而英伟达集群的这一比例仅为5%。最后，与国有资本的深度绑定可能限制DeepSeek未来与西方公司合作的能力。

尽管如此，DeepSeek的赌注是明确的：AI的未来将由国家冠军企业定义，而非硅谷的初创公司。如果成功，梁文锋将从量化交易员转变为中国AI基础设施的架构师。如果失败，他将成为又一个因过度扩张而倒下的天才。

时间归档

延伸阅读

常见问题

这起“DeepSeek's $50B Pivot: From Self-Funded Rebel to National AI Champion”融资事件讲了什么？

DeepSeek, founded by quantitative trading magnate Liang Wenfeng, has long been an anomaly in the AI industry. With personal wealth estimated in the billions and a hoard of 40,000–5…

从“DeepSeek V4 vs GPT-5 benchmark comparison”看，为什么这笔融资值得关注？

DeepSeek V4's move to Huawei Ascend is not a simple port. It is a fundamental re-architecting of the AI stack. The V4 model uses a Mixture-of-Experts (MoE) architecture with over 1 trillion parameters, activating only a…

这起融资事件在“Huawei Ascend 910B vs Nvidia H100 performance”上释放了什么行业信号？

它通常意味着该赛道正在进入资源加速集聚期，后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。