技术深度解析
DeepSeek 最初的“成本奇迹”建立在算法效率的基础之上。其旗舰模型 DeepSeek-V2 在 MMLU(84.7%)和 HumanEval(73.2%)等基准测试中取得了与 GPT-4 相媲美的性能,而训练仅使用了约 280 万 GPU 小时——大约是传闻中 GPT-4 所需 2500-3000 万 GPU 小时的十分之一。这一成就得益于混合专家(MoE)架构的创新,特别是其新颖的门控机制降低了 token 路由开销,以及激进的量化技术,在不牺牲准确性的前提下降低了内存占用。
然而,这笔新融资标志着该路径的转向。该公司目前正投资建设一个超过 10 万块 GPU 的集群,很可能使用 NVIDIA H100 和 B200 芯片,用于训练参数规模达 1-2 万亿的模型。这不仅仅是关于更大的模型;更是关于解锁需要巨大算力预算的新能力。例如,像 OpenAI 的 Sora 和 Google 的 Veo 这样的视频生成模型需要在数百万小时的视频数据上进行训练,这需要的算力比纯文本模型高出几个数量级。同样,为机器人或自动驾驶模拟物理和因果关系的世界模型需要大规模强化学习,而这正是计算密集型的。
一个关键的技术问题是,DeepSeek 能否在规模扩张的同时保持其效率优势。该公司的开源仓库 DeepSeek-MoE(目前在 GitHub 上拥有 12.5k 星标)包含其高效 MoE 实现的代码。但扩展到 10 万块 GPU 会带来新的挑战:在如此庞大的集群上进行分布式训练需要复杂的并行策略(数据、模型、流水线和张量并行)以及容错基础设施。Google 的 Pathways 系统和 Meta 的 PyTorch FSDP 是参考架构,但 DeepSeek 需要开发定制解决方案以避免通信瓶颈。
| 指标 | DeepSeek-V2(精益时代) | 假设的 DeepSeek-V3(资本时代) |
|---|---|---|
| 预估训练算力 | 280 万 GPU 小时 | 5000 万 - 1 亿 GPU 小时 |
| 参数量 | 236B(MoE,21B 活跃) | 1-2T(MoE,200-400B 活跃) |
| MMLU 分数 | 84.7% | 目标:90% 以上 |
| 训练成本 | 约 500 万美元 | 约 5 亿 - 10 亿美元 |
| 集群规模 | 约 10,000 块 GPU | 100,000+ 块 GPU |
数据要点: 算力投资增长 20-40 倍,而 MMLU 仅可能提升 5-7%,这充分说明了在现有基准测试上规模扩张的收益递减。真正的价值在于解锁新能力——视频、多模态推理、智能体行为——这些无法仅通过 MMLU 来评估。
关键玩家与案例研究
DeepSeek 并非孤例。从效率到资本密集型的转变正在整个行业上演。曾经是非营利研究实验室的 OpenAI 已从 Microsoft 等机构筹集了超过 130 亿美元,目前运营着一个超过 10 万块 GPU 的集群。以安全性和可解释性为创立宗旨的 Anthropic 已筹集 76 亿美元,并正在建设自己的大规模算力基础设施。Google DeepMind 凭借其母公司无限的资源,正在为 Gemini 投资 TPU v5 集群。
但最具启发性的比较对象是法国初创公司 Mistral AI。与 DeepSeek 一样,Mistral 也曾因其精益方法而备受赞誉。其 Mixtral 8x7B 模型以小型团队和适度的算力取得了令人瞩目的成果。然而,Mistral 此后已筹集 6 亿欧元,并正在建设更大的团队和基础设施,承认“小模型,大影响”的策略存在天花板。
| 公司 | 总融资额 | 预估团队规模 | 算力策略 | 关键差异化优势 |
|---|---|---|---|---|
| DeepSeek | 700 亿美元(5000 亿元) | 500 → 1,000+ | 10 万 GPU 集群 | 效率优先的历史;现正扩张 |
| OpenAI | 130 亿美元以上 | 约 3,000 | 10 万+ GPU 集群 | 先发优势;GPT 生态系统 |
| Anthropic | 76 亿美元 | 约 800 | 5 万+ GPU 集群 | 安全导向;Claude 模型 |
| Mistral AI | 6 亿欧元 | 约 100 | 1-2 万 GPU 集群 | 开源;欧洲冠军 |
| Google DeepMind | 不适用(Alphabet) | 约 5,000 | TPU v5 集群 | 垂直整合;研究广度 |
数据要点: 融资额与算力规模之间的相关性显而易见。DeepSeek 的 5000 亿元融资使其在资本火力上与 OpenAI 和 Anthropic 处于同一级别,但其团队规模仍小一个数量级。此次招聘热潮正是为了缩小这一差距。
行业影响与市场动态
DeepSeek 的转向对 AI 行业的商业模式具有深远影响。“效率优先”的叙事曾是初创公司和开源倡导者强大的营销工具,暗示巧妙的工程可以克服大型科技公司的算力优势。DeepSeek 此举实际上承认了这一叙事的有效期有限。其结果是市场出现分化:少数资本密集型玩家(OpenAI、Google、Anthropic、DeepSeek)将争夺前沿