技术深度解析
DeepSeek 的战略远不止是购买更多 GPU;它正在构建一种全新的人工智能基础设施。其核心技术赌注押在世界模型和自主智能体上——这些系统不仅能生成文本,还能理解并模拟真实世界环境中的因果动态。这需要一种与当前基于 Transformer 的大型语言模型(LLM)截然不同的计算堆栈。
世界模型架构: 据报道,DeepSeek 正在大力投资一种混合架构,该架构将用于感知的扩散模型与用于推理的基于 Transformer 的规划器相结合。这与 Google DeepMind 的 Genie 和 OpenAI 的 Sora 所采用的方法类似,但针对智能体任务进行了规模化扩展。其关键创新在于“潜在动作空间”——一种对可能动作的压缩表示,模型可以在现实世界中执行之前先在内部进行模拟。这使得智能体能够在行动之前“思考”,从而减少在物理或模拟环境中进行代价高昂的试错。
计算瓶颈: 当前的 LLM(如 GPT-4 或 Claude 3.5)在推理时所需的算力大约是训练时的 10 倍。对于运行连续模拟的世界模型来说,这一比例会急剧膨胀。DeepSeek 的融资旨在通过多年合同,预先锁定对 Nvidia H100 以及即将推出的 B200 'Blackwell' GPU 集群的访问权限,合作方可能包括 CoreWeave 和 Lambda Labs 等云服务提供商。其目标是确保至少 10 万块 H100 等效 GPU 的专用算力,这一规模足以媲美地球上最大的超级计算机。
开源贡献: DeepSeek 一直是开源生态系统的多产贡献者。他们在 GitHub 上的 DeepSeek-Coder 和 DeepSeek-MoE 仓库已分别获得超过 15,000 和 8,000 颗星。MoE(混合专家)架构在此尤为关键——它允许模型参数的稀疏激活,与密集模型相比,推理成本可降低多达 5 倍。这对于低延迟至关重要的智能体系统来说至关重要。社区已经开始尝试微调 DeepSeek 的模型以用于机器人控制,这直接指向具身 AI 的道路。
| 模型 | 参数 | MMLU 得分 | 推理成本(每百万 token) | 每次前向传播的活跃参数 |
|---|---|---|---|---|
| DeepSeek-MoE-16B | 160亿(总计) | 67.8 | $0.14 | 28亿 |
| GPT-4o | ~2000亿(估计) | 88.7 | $5.00 | ~2000亿 |
| Claude 3.5 Sonnet | — | 88.3 | $3.00 | — |
| Llama 3 70B | 700亿 | 82.0 | $0.90 | 700亿 |
数据要点: DeepSeek 的 MoE 模型每 token 成本比 GPT-4o 降低了 35 倍,同时在基准测试中仍具有竞争力。这种效率是扩展智能体系统的秘密武器,因为这类系统每项任务会消耗数百万个 token。代价是原始准确率较低,但对于优先考虑速度和模拟吞吐量的世界模型而言,这是可以接受的。
关键玩家与案例研究
这场融资战争主要有三大阵营:美国现有巨头(OpenAI、Google、Anthropic)、中国挑战者(DeepSeek、百度、阿里巴巴)以及基础设施提供商(Nvidia、CoreWeave、Lambda Labs)。
DeepSeek 的战略: 与百度的文心一言或阿里巴巴的通义千问专注于面向消费者的聊天机器人不同,DeepSeek 瞄准的是企业自动化和机器人领域。他们已与 比亚迪 和 大疆 合作,测试由其世界模型驱动的自动驾驶和无人机导航系统。这是直接进军工业物联网市场,麦肯锡估计该市场到 2030 年将价值 12.6 万亿美元。
OpenAI 的反击: OpenAI 最近推出了 Operator,一个可以浏览网页并执行预订航班等任务的智能体。然而,Operator 的成本高昂——每次会话可能消耗 0.50 到 2.00 美元的算力。DeepSeek 的效率优势可能将其成本降低 10 倍,从而使智能体在大众市场部署中变得可行。OpenAI 的回应是筹集一轮新的 400 亿美元融资,估值达 3000 亿美元,但其烧钱率已经达到每年 70 亿美元。
Anthropic 的安全优先: Anthropic 选择了不同的道路,专注于“宪法式 AI”和可解释性。他们的 Claude 3.5 Opus 模型被认为是高风险决策中最安全的,但运行成本也最高。DeepSeek 的激进扩张可能迫使 Anthropic 为了跟上步伐而在安全性上做出妥协,该公司已公开承认这一风险。
| 公司 | 最新融资 | 估值 | 主要方向 | 算力容量(估计 H100 等效) |
|---|---|---|---|---|
| DeepSeek | 70亿美元 | 280亿美元(估计) | 世界模型、智能体、机器人 | 100,000+ |
| OpenAI | 400亿美元 | 3000亿美元 | LLM、智能体、多模态 | 200,000+ |
| Anthropic | 75亿美元 | 184亿美元 | 安全 AI、可解释性 | 30,000 |
| Google DeepMind | — | — | 研究、Gemini、机器人 | 150,000+ |
数据要点: DeepSeek 的融资额与 Anthropic 的总融资额相当,但其