技术深度解析
美国对DeepSeek指控的核心在于其涉嫌未经授权使用来自GPT-4和Claude等美国专有模型的知识蒸馏技术。知识蒸馏是一种成熟的机器学习技术,其中较小的“学生”模型被训练来复制较大“教师”模型的行为。这通常通过使用教师的输出概率(软标签)作为训练目标来实现。DeepSeek报告称,其训练成本不到600万美元,却实现了与GPT-4o相媲美的性能,这一事实在整个行业引起广泛关注。关键问题在于,这种效率是通过合法的算法创新实现的,还是通过系统性地提取专有模型输出而达成的。
DeepSeek公开详细介绍了其使用混合专家(MoE)架构和多头潜在注意力机制。MoE方法允许模型针对任何给定输入仅激活其参数的一个子集,从而大幅降低计算成本。然而,用于决定激活哪些专家的“路由器”的训练数据通常需要高质量的教师输出。如果这些教师输出是通过反复向OpenAI或Anthropic的API发起查询,并明确以逆向工程模型的决策边界为目标而获得的,那么这可能构成违反服务条款,甚至可能违反商业秘密法。
一个值得读者关注的相关开源项目是llm-distillation仓库(目前在GitHub上约有4000颗星),它提供了一个将大型语言模型蒸馏为更小、更高效版本的框架。另一个是textbooks-are-all-you-need(由微软开发,约7000颗星),该项目探索从大型模型生成合成训练数据以训练较小模型。这些项目表明,该技术本身并非非法,但训练信号的来源是关键的合法与道德界限。
| 模型 | 参数(估计) | MMLU分数 | 训练成本(估计) | 每百万token推理成本 |
|---|---|---|---|---|
| GPT-4o | ~200B(MoE) | 88.7 | 1亿美元以上 | $5.00 |
| DeepSeek-V3 | ~671B(MoE,37B活跃) | 88.5 | 560万美元 | $0.48 |
| Claude 3.5 Sonnet | ~175B(估计) | 88.3 | 5000万美元以上 | $3.00 |
| Llama 3.1 405B | 405B(密集) | 87.3 | 1亿美元以上 | $2.80 |
数据要点: DeepSeek的成本效率前所未有,以大约5%的训练成本实现了GPT-4o级别的MMLU性能。这种差距是怀疑的技术根源。虽然架构创新(MoE、多头潜在注意力)解释了部分差距,但如此巨大的幅度表明,从非常大且高质量的教师模型中进行蒸馏可能发挥了重要作用。美国政府的案件很可能取决于能否证明教师模型是未经授权访问的美国专有模型。
关键参与者与案例研究
美国国务院的警告明确点名DeepSeek,但其影响波及更广泛的生态系统。总部位于中国杭州的DeepSeek由量化对冲基金High-Flyer支持。该公司积极开源其模型,发布权重和训练配方,从而加速了全球开发者社区的采用。这种开源策略直接挑战了OpenAI和Anthropic的闭源、基于API的商业模式。
在美国方面,关键参与者是发出警告的国务院经济与商业事务局,以及据报道正在调查中国实体获取NVIDIA H100芯片相关潜在出口管制违规行为的司法部。该警告也是向美国盟友——尤其是在欧洲和亚洲——发出的信号,要求它们将AI出口管制和知识产权执法与美国标准保持一致。
一个关键的案例研究是美国此前对华为的制裁。美国成功施压盟友将华为排除在5G网络之外,理由是国家安全。对DeepSeek的警告遵循了类似的策略:将一项商业技术定性为国家安全威胁,并要求盟友合作。然而,AI比5G更为分散。它不是单一的硬件,而是一组算法、数据和模型,可以通过互联网在全球范围内复制和共享。这使得执法更具挑战性。
| 公司 | 商业模式 | 关键模型 | 开源政策 | 估值(估计) |
|---|---|---|---|---|
| DeepSeek | 开源 + API | DeepSeek-V3, DeepSeek-R1 | 完全开放权重 | 30亿美元 |
| OpenAI | 闭源API | GPT-4o, o1 | 闭源 | 3000亿美元 |
| Anthropic | 闭源API | Claude 3.5, Claude 4 | 闭源 | 600亿美元 |
| Meta | 开源 + 广告 | Llama 3.1, Llama 4 | 开放权重 | 1.2万亿美元(市值) |
| Mistral AI | 开源 + API | Mistral Large, Mixtral | 开放权重 | 60亿美元 |
数据要点: 开源与闭源的分歧现在已成为地缘政治断层线。DeepSeek和Mistral代表开源阵营,而OpenAI和Anthropic