DeepSeek 70亿美元融资：创始人押注个人财富，重塑AI估值新模型

Q: 这起融资事件在“What is Liang Wenfeng's net worth and how much did he personally invest in DeepSeek?”上释放了什么行业信号？

它通常意味着该赛道正在进入资源加速集聚期，后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。

中国AI实验室DeepSeek，以突破性的R1推理模型闻名，已完成首轮外部融资，金额超70亿美元（约合500亿元人民币），成为AI史上最大单轮融资之一。最引人注目的细节是：创始人梁文峰个人从其财富中贡献了近28亿美元（约合200亿元人民币）。这不仅仅是一次资本事件，更是一次战略宣言。梁文峰的个人押注表明，在竞争白热化的AI领域，仅靠外部融资无法维系长期信任。DeepSeek正在开创一种三层估值框架：第一，技术前沿（高效模型架构与低成本推理）以拓展估值天花板；第二，战略资产（专有计算集群、顶尖人才、垂直领域数据）以构建护城河；第三，创始人承诺（个人财富与战略控制权）以锚定长期价值。

技术深度解析

DeepSeek的技术根基在于其混合专家（MoE）架构，该团队于2025年初将其开源。与GPT-4或Claude 3.5等密集模型不同，DeepSeek的MoE设计每个token仅激活部分参数，大幅降低推理成本。例如，R1模型总参数量达6710亿，但每次前向传播仅激活约370亿参数。这种稀疏激活是其效率的关键。

架构亮点：
- 多头潜在注意力（MLA）： 一种新型注意力机制，将键值缓存压缩75%，降低长上下文推理期间的内存带宽需求。
- 分组查询注意力（GQA）： 借鉴自LLaMA-2，但针对MoE路由进行了优化，以平衡专家负载。
- 无辅助损失负载均衡： DeepSeek的训练流程消除了平衡专家利用率所需的辅助损失，采用一种实时自适应动态路由算法。该技术在其论文《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》（arXiv:2405.04434）中有详细阐述。

基准性能对比：

| 模型 | 参数（激活） | MMLU | MATH | HumanEval | 每百万token推理成本 |
|---|---|---|---|---|---|
| DeepSeek-R1 | 671B (37B) | 90.1 | 92.5 | 85.4 | $0.14 |
| GPT-4o | ~200B (估计) | 88.7 | 76.6 | 87.1 | $5.00 |
| Claude 3.5 Sonnet | — | 88.3 | 71.5 | 84.2 | $3.00 |
| Gemini 1.5 Pro | — | 86.4 | 70.8 | 80.6 | $3.50 |

数据要点： DeepSeek-R1在推理基准测试中达到具有竞争力甚至更优的水平（MATH: 92.5 vs GPT-4o的76.6），而推理成本仅为GPT-4o的约1/35。这一成本优势是DeepSeek估值逻辑的核心：他们能够在保持质量的同时，以价格优势击败现有巨头。

GitHub生态系统： DeepSeek团队维护着多个活跃仓库。`deepseek-ai/DeepSeek-V2`（12k+星标）包含MoE架构的训练和推理代码。`deepseek-ai/DeepSeek-R1`（8k+星标）包含推理模型权重以及针对其MLA机制优化的自定义推理服务器。社区还构建了支持DeepSeek量化格式的`llama.cpp`分支，使得在消费级GPU上进行本地部署成为可能。

工程权衡： MoE架构引入了分布式训练的复杂性——专家并行需要在GPU间进行精细的分片。DeepSeek团队通过一个名为`DeepEP`（也已开源）的自定义通信库解决了这一问题，该库相比标准NCCL实现，将全对全通信延迟降低了40%。这一工程护城河是一项关键战略资产。

关键人物与案例研究

梁文峰（创始人兼CEO）： 梁文峰曾是幻方量化的量化交易高管，以资本效率著称。其个人财富（据估计来自其交易公司的40-50亿美元）如今高度集中于DeepSeek。此举类似于黄仁勋早期对CUDA的押注，但发生在创始人层面。梁文峰的信念是，AI的边际推理成本将趋近于零，而DeepSeek的架构最适合迎接这一未来。

竞争格局对比：

| 公司 | 累计融资 | 创始人持股 | 关键差异化 | 推理成本（每百万token） |
|---|---|---|---|---|
| DeepSeek | 70亿+美元（本轮） | >60%（梁文峰） | MoE效率 | $0.14 |
| OpenAI | 200亿+美元 | <5%（Altman） | 品牌与生态系统 | $5.00 |
| Anthropic | 100亿+美元 | <10%（Amodei） | 安全与对齐 | $3.00 |
| Mistral AI | 15亿美元 | ~30%（Mensch） | 开源理念 | $0.50 |

数据要点： DeepSeek的创始人持股比例是一个异类。大多数AI创始人在多轮融资后持股已稀释至10%以下。梁文峰超过60%的持股意味着他保留着完全的战略控制权，而他个人28亿美元的注资表明，他不会迫于压力追求短期收入最大化。

案例研究：Mistral AI的发展轨迹。 Mistral在2024年以60亿欧元估值融资6亿欧元，但一直难以将开源人气转化为企业收入。其CEO Arthur Mensch公开表示，“开源是一种分发策略，而非商业模式。”DeepSeek正在密切关注这一点——他们将基础模型开源，但将微调和企业服务保持为专有。70亿美元的资金储备使他们能够招募500多名研究员，并确保10万块以上H100等效GPU的供应。

战略资产： DeepSeek已与一家中国主要云提供商签订多年合同，获得5万块H100 GPU（通过英伟达合规渠道），并正在与一家中国台湾晶圆厂合作，构建用于推理加速的自定义ASIC。这些资产难以复制，构成了估值的下限。

行业影响与市场动态

本轮融资是AI估值的一个分水岭。传统的VC指标——ARR增长、客户获取成本、毛利率——正在被一种新框架所补充：

1. 技术天花板： 该架构能扩展到何种程度？

时间归档

延伸阅读

常见问题

这起“DeepSeek's $7B Funding Round: Founder Bets Personal Fortune on New AI Valuation Model”融资事件讲了什么？

DeepSeek, the Chinese AI lab behind the groundbreaking R1 reasoning model, has closed its first external funding round at over $7 billion (approximately ¥500 billion), making it on…

从“How does DeepSeek's MoE architecture reduce inference costs compared to dense models?”看，为什么这笔融资值得关注？

DeepSeek's technical foundation rests on its Mixture-of-Experts (MoE) architecture, which the team open-sourced in early 2025. Unlike dense models like GPT-4 or Claude 3.5, DeepSeek's MoE design activates only a subset o…

这起融资事件在“What is Liang Wenfeng's net worth and how much did he personally invest in DeepSeek?”上释放了什么行业信号？

它通常意味着该赛道正在进入资源加速集聚期，后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。