美国全球警告DeepSeek点燃AI冷战：科技脱钩升级为外交对决

美国国务院向盟国发出正式警告，指控中国AI公司DeepSeek系统性地窃取知识产权，此举标志着美中科技竞争急剧升级。这并非普通的贸易争端，而是一场将AI模型安全定性为国家安全威胁、要求协调多边行动的外交攻势。该警告直接质疑了DeepSeek快速技术进步——尤其是其高性价比训练方法和开源模型发布——的合法性，这些进展近期挑战了OpenAI和谷歌等西方AI巨头的主导地位。从技术角度看，DeepSeek使用的模型压缩和知识蒸馏技术本身是合法的，但美国指控其未经授权地从GPT-4和Claude等专有模型中提取知识。DeepSeek以不到600万美元的训练成本实现了与GPT-4o相当的MMLU性能，这一巨大成本差距成为怀疑的技术根源。美国政府的案件将取决于能否证明DeepSeek未经授权访问了专有美国模型。

技术深度解析

美国对DeepSeek指控的核心在于其涉嫌未经授权使用来自GPT-4和Claude等美国专有模型的知识蒸馏技术。知识蒸馏是一种成熟的机器学习技术，其中较小的“学生”模型被训练来复制较大“教师”模型的行为。这通常通过使用教师的输出概率（软标签）作为训练目标来实现。DeepSeek报告称，其训练成本不到600万美元，却实现了与GPT-4o相媲美的性能，这一事实在整个行业引起广泛关注。关键问题在于，这种效率是通过合法的算法创新实现的，还是通过系统性地提取专有模型输出而达成的。

DeepSeek公开详细介绍了其使用混合专家（MoE）架构和多头潜在注意力机制。MoE方法允许模型针对任何给定输入仅激活其参数的一个子集，从而大幅降低计算成本。然而，用于决定激活哪些专家的“路由器”的训练数据通常需要高质量的教师输出。如果这些教师输出是通过反复向OpenAI或Anthropic的API发起查询，并明确以逆向工程模型的决策边界为目标而获得的，那么这可能构成违反服务条款，甚至可能违反商业秘密法。

一个值得读者关注的相关开源项目是llm-distillation仓库（目前在GitHub上约有4000颗星），它提供了一个将大型语言模型蒸馏为更小、更高效版本的框架。另一个是textbooks-are-all-you-need（由微软开发，约7000颗星），该项目探索从大型模型生成合成训练数据以训练较小模型。这些项目表明，该技术本身并非非法，但训练信号的来源是关键的合法与道德界限。

| 模型 | 参数（估计） | MMLU分数 | 训练成本（估计） | 每百万token推理成本 |
|---|---|---|---|---|
| GPT-4o | ~200B（MoE） | 88.7 | 1亿美元以上 | $5.00 |
| DeepSeek-V3 | ~671B（MoE，37B活跃） | 88.5 | 560万美元 | $0.48 |
| Claude 3.5 Sonnet | ~175B（估计） | 88.3 | 5000万美元以上 | $3.00 |
| Llama 3.1 405B | 405B（密集） | 87.3 | 1亿美元以上 | $2.80 |

数据要点： DeepSeek的成本效率前所未有，以大约5%的训练成本实现了GPT-4o级别的MMLU性能。这种差距是怀疑的技术根源。虽然架构创新（MoE、多头潜在注意力）解释了部分差距，但如此巨大的幅度表明，从非常大且高质量的教师模型中进行蒸馏可能发挥了重要作用。美国政府的案件很可能取决于能否证明教师模型是未经授权访问的美国专有模型。

关键参与者与案例研究

美国国务院的警告明确点名DeepSeek，但其影响波及更广泛的生态系统。总部位于中国杭州的DeepSeek由量化对冲基金High-Flyer支持。该公司积极开源其模型，发布权重和训练配方，从而加速了全球开发者社区的采用。这种开源策略直接挑战了OpenAI和Anthropic的闭源、基于API的商业模式。

在美国方面，关键参与者是发出警告的国务院经济与商业事务局，以及据报道正在调查中国实体获取NVIDIA H100芯片相关潜在出口管制违规行为的司法部。该警告也是向美国盟友——尤其是在欧洲和亚洲——发出的信号，要求它们将AI出口管制和知识产权执法与美国标准保持一致。

一个关键的案例研究是美国此前对华为的制裁。美国成功施压盟友将华为排除在5G网络之外，理由是国家安全。对DeepSeek的警告遵循了类似的策略：将一项商业技术定性为国家安全威胁，并要求盟友合作。然而，AI比5G更为分散。它不是单一的硬件，而是一组算法、数据和模型，可以通过互联网在全球范围内复制和共享。这使得执法更具挑战性。

| 公司 | 商业模式 | 关键模型 | 开源政策 | 估值（估计） |
|---|---|---|---|---|
| DeepSeek | 开源 + API | DeepSeek-V3, DeepSeek-R1 | 完全开放权重 | 30亿美元 |
| OpenAI | 闭源API | GPT-4o, o1 | 闭源 | 3000亿美元 |
| Anthropic | 闭源API | Claude 3.5, Claude 4 | 闭源 | 600亿美元 |
| Meta | 开源 + 广告 | Llama 3.1, Llama 4 | 开放权重 | 1.2万亿美元（市值） |
| Mistral AI | 开源 + API | Mistral Large, Mixtral | 开放权重 | 60亿美元 |

数据要点： 开源与闭源的分歧现在已成为地缘政治断层线。DeepSeek和Mistral代表开源阵营，而OpenAI和Anthropic

时间归档

延伸阅读

常见问题

这次模型发布“US Global DeepSeek Warning Ignites AI Cold War: Tech Decoupling Goes Diplomatic”的核心内容是什么？

In a move that signals a dramatic escalation in the technology competition between the United States and China, the US State Department has issued a formal warning to allied nation…

从“What is knowledge distillation and is it illegal?”看，这个模型发布为什么重要？

The core of the US accusation against DeepSeek centers on its alleged use of unauthorized knowledge distillation from proprietary US models, such as GPT-4 and Claude. Knowledge distillation is a well-established machine…

围绕“How does DeepSeek's training cost compare to GPT-4?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。