技术深度解析
DeepSeek的转向是对自身技术历史的直接否定。该公司之前的成功建立在一系列效率创新之上,最著名的是其混合专家(MoE)架构。例如,DeepSeek-V2使用了一种新颖的MoE变体,每个token仅激活总参数的一小部分,大幅降低了推理成本。该公司还在训练中率先采用了多token预测(MTP)技术,这种技术在不增加数据需求的情况下提高了样本效率和模型连贯性。这些创新使DeepSeek能够以估计比GPT-4低70-80%的算力成本达到与之相当的性能。
然而,新战略放弃了将效率作为首要目标的专注。大规模招聘潮并非针对更多算法研究员,而是面向基础设施工程师。DeepSeek现在招聘的岗位明确专注于构建和运营10万+GPU集群、开发定制网络协议栈以及设计AI专用芯片。这表明公司正向“缩放定律”方法转变:简单地用更多数据和更多算力构建更大的模型,依靠原始规模来提升性能。
一个关键的技术问题是,DeepSeek是否会继续大规模使用其MoE架构,还是转向稠密模型。权衡是明确的:MoE模型在推理时更高效,但由于负载均衡问题,在超大规模下训练和服务更困难。稠密模型更简单但更昂贵。DeepSeek的GitHub仓库,例如`deepseek-ai/DeepSeek-V2`(已获得超过8000颗星),显示近期有大量与分布式训练和推理优化相关的提交,表明工程团队正在为新的、更大的模型做准备。
| 模型 | 参数(活跃/总参数量) | 训练算力(FLOPs) | MMLU得分 | 推理成本(每100万token) |
|---|---|---|---|---|
| DeepSeek-V2 | 21B / 236B | ~5e24 | 78.5 | $0.14 |
| GPT-4(估计) | ~200B / 1.8T | ~2e25 | 86.4 | $5.00 |
| Llama 3 405B | 405B / 405B | ~3e25 | 87.8 | $2.50 |
| DeepSeek Next(预估) | 未知 | >1e26(估计) | 90+(目标) | 未知 |
数据要点: 表格显示了DeepSeek正在放弃的效率差距。DeepSeek-V2以GPT-4一小部分的算力和成本取得了可观的MMLU得分。在新战略下,预估的“DeepSeek Next”模型很可能会牺牲这种效率以换取原始性能,目标是将MMLU得分提升至90以上——这是一个只有通过大规模算力才能达到的水平。该公司正在押注,市场愿意为最佳性能支付溢价,即使交付成本更高。
关键玩家与案例研究
DeepSeek的转型反映了更广泛的行业趋势,但带有独特的中国色彩。最直接的类比是OpenAI的演变。最初是一个专注于安全AGI的非营利研究实验室,OpenAI转向营利模式并大规模扩张,最终催生了GPT-3、ChatGPT以及庞大的Azure算力合作。DeepSeek正在遵循类似的剧本:从研究卓越起步,然后为商业主导地位而扩张。
然而,DeepSeek的背景不同。它在中国市场运营,而美国出口管制限制了对最佳硬件(NVIDIA H100/B200 GPU)的获取。这使得“不惜一切代价追求规模”的战略风险更大。该公司在芯片设计方面的新招聘表明,它正在探索替代方案,可能开发自己的AI加速器,或与华为(昇腾系列)或寒武纪等国内芯片制造商合作。这是对当前硬件格局的直接挑战。
另一个值得关注的关键玩家是字节跳动,该公司也通过其“豆包”模型家族积极扩展AI业务。字节跳动的优势在于来自TikTok和抖音的海量用户数据,以及经过验证的规模化消费产品能力。相比之下,DeepSeek历来是一家以研究为先的公司,消费者业务有限。此次招聘潮包括许多产品和业务开发岗位,表明其正在推动构建商业生态系统。
| 公司 | 战略 | 关键优势 | 关键风险 | 近期融资/估值 |
|---|---|---|---|---|
| DeepSeek | 转向规模化 | 算法传统、研究人才 | 硬件获取、组织臃肿 | 5000亿美元+(2026年) |
| 字节跳动 | 垂直整合 | 用户数据、消费者分发 | 监管审查、模型质量 | 3000亿美元+(2026年,估计) |
| 智谱AI | 开源生态系统 | 开发者社区、合作伙伴关系 | 商业化、算力成本 | 250亿美元(2025年) |
| 百度(文心一言) | 全栈AI | 云基础设施、自动驾驶 | 传统业务拖累、创新速度 | 400亿美元(2025年,AI部门) |
数据要点: 估值差距十分显著。DeepSeek的5000亿美元估值是对其执行这一转向能力的巨大赌注。如今,它的价值超过了所有其他中国竞争对手AI部门的总和。这一估值基于一个假设:DeepSeek能够克服硬件限制,建立世界级的基础设施,并将其研究优势转化为可持续的商业优势。如果成功,它将重新定义中国AI的竞争格局;如果失败,这将是科技史上最昂贵的战略失误之一。