美国全球警告DeepSeek点燃AI冷战:科技脱钩升级为外交对决

Hacker News May 2026
来源:Hacker NewsDeepSeek归档:May 2026
美国国务院史无前例地向盟友发出全球警告,指控中国AI公司DeepSeek窃取知识产权。这一外交攻势将AI军备竞赛从企业间的摩擦升级为全面的地缘政治对抗,全球AI生态系统面临沿地缘政治路线分裂的威胁。

美国国务院向盟国发出正式警告,指控中国AI公司DeepSeek系统性地窃取知识产权,此举标志着美中科技竞争急剧升级。这并非普通的贸易争端,而是一场将AI模型安全定性为国家安全威胁、要求协调多边行动的外交攻势。该警告直接质疑了DeepSeek快速技术进步——尤其是其高性价比训练方法和开源模型发布——的合法性,这些进展近期挑战了OpenAI和谷歌等西方AI巨头的主导地位。从技术角度看,DeepSeek使用的模型压缩和知识蒸馏技术本身是合法的,但美国指控其未经授权地从GPT-4和Claude等专有模型中提取知识。DeepSeek以不到600万美元的训练成本实现了与GPT-4o相当的MMLU性能,这一巨大成本差距成为怀疑的技术根源。美国政府的案件将取决于能否证明DeepSeek未经授权访问了专有美国模型。

技术深度解析

美国对DeepSeek指控的核心在于其涉嫌未经授权使用来自GPT-4和Claude等美国专有模型的知识蒸馏技术。知识蒸馏是一种成熟的机器学习技术,其中较小的“学生”模型被训练来复制较大“教师”模型的行为。这通常通过使用教师的输出概率(软标签)作为训练目标来实现。DeepSeek报告称,其训练成本不到600万美元,却实现了与GPT-4o相媲美的性能,这一事实在整个行业引起广泛关注。关键问题在于,这种效率是通过合法的算法创新实现的,还是通过系统性地提取专有模型输出而达成的。

DeepSeek公开详细介绍了其使用混合专家(MoE)架构和多头潜在注意力机制。MoE方法允许模型针对任何给定输入仅激活其参数的一个子集,从而大幅降低计算成本。然而,用于决定激活哪些专家的“路由器”的训练数据通常需要高质量的教师输出。如果这些教师输出是通过反复向OpenAI或Anthropic的API发起查询,并明确以逆向工程模型的决策边界为目标而获得的,那么这可能构成违反服务条款,甚至可能违反商业秘密法。

一个值得读者关注的相关开源项目是llm-distillation仓库(目前在GitHub上约有4000颗星),它提供了一个将大型语言模型蒸馏为更小、更高效版本的框架。另一个是textbooks-are-all-you-need(由微软开发,约7000颗星),该项目探索从大型模型生成合成训练数据以训练较小模型。这些项目表明,该技术本身并非非法,但训练信号的来源是关键的合法与道德界限。

| 模型 | 参数(估计) | MMLU分数 | 训练成本(估计) | 每百万token推理成本 |
|---|---|---|---|---|
| GPT-4o | ~200B(MoE) | 88.7 | 1亿美元以上 | $5.00 |
| DeepSeek-V3 | ~671B(MoE,37B活跃) | 88.5 | 560万美元 | $0.48 |
| Claude 3.5 Sonnet | ~175B(估计) | 88.3 | 5000万美元以上 | $3.00 |
| Llama 3.1 405B | 405B(密集) | 87.3 | 1亿美元以上 | $2.80 |

数据要点: DeepSeek的成本效率前所未有,以大约5%的训练成本实现了GPT-4o级别的MMLU性能。这种差距是怀疑的技术根源。虽然架构创新(MoE、多头潜在注意力)解释了部分差距,但如此巨大的幅度表明,从非常大且高质量的教师模型中进行蒸馏可能发挥了重要作用。美国政府的案件很可能取决于能否证明教师模型是未经授权访问的美国专有模型。

关键参与者与案例研究

美国国务院的警告明确点名DeepSeek,但其影响波及更广泛的生态系统。总部位于中国杭州的DeepSeek由量化对冲基金High-Flyer支持。该公司积极开源其模型,发布权重和训练配方,从而加速了全球开发者社区的采用。这种开源策略直接挑战了OpenAI和Anthropic的闭源、基于API的商业模式。

在美国方面,关键参与者是发出警告的国务院经济与商业事务局,以及据报道正在调查中国实体获取NVIDIA H100芯片相关潜在出口管制违规行为的司法部。该警告也是向美国盟友——尤其是在欧洲和亚洲——发出的信号,要求它们将AI出口管制和知识产权执法与美国标准保持一致。

一个关键的案例研究是美国此前对华为的制裁。美国成功施压盟友将华为排除在5G网络之外,理由是国家安全。对DeepSeek的警告遵循了类似的策略:将一项商业技术定性为国家安全威胁,并要求盟友合作。然而,AI比5G更为分散。它不是单一的硬件,而是一组算法、数据和模型,可以通过互联网在全球范围内复制和共享。这使得执法更具挑战性。

| 公司 | 商业模式 | 关键模型 | 开源政策 | 估值(估计) |
|---|---|---|---|---|
| DeepSeek | 开源 + API | DeepSeek-V3, DeepSeek-R1 | 完全开放权重 | 30亿美元 |
| OpenAI | 闭源API | GPT-4o, o1 | 闭源 | 3000亿美元 |
| Anthropic | 闭源API | Claude 3.5, Claude 4 | 闭源 | 600亿美元 |
| Meta | 开源 + 广告 | Llama 3.1, Llama 4 | 开放权重 | 1.2万亿美元(市值) |
| Mistral AI | 开源 + API | Mistral Large, Mixtral | 开放权重 | 60亿美元 |

数据要点: 开源与闭源的分歧现在已成为地缘政治断层线。DeepSeek和Mistral代表开源阵营,而OpenAI和Anthropic

更多来自 Hacker News

GPT-5.5智商缩水:为何顶尖AI连简单指令都执行不了AINews发现,OpenAI最先进的推理模型GPT-5.5正出现一种日益严重的能力退化模式。多位开发者反映,尽管该模型在复杂逻辑推理和代码生成基准测试中表现出色,却明显丧失了遵循简单多步骤指令的能力。一位开发者描述了一个案例:GPT-5.一条推文代价20万美元:AI Agent对社交信号的致命信任2026年初,一个在Solana区块链上管理加密货币投资组合的自主AI Agent,被诱骗将价值20万美元的USDC转移至攻击者钱包。触发点是一条精心伪造的推文,伪装成来自可信DeFi协议的智能合约升级通知。该Agent被设计为抓取社交媒体Unsloth 联手 NVIDIA,消费级 GPU 大模型训练速度飙升 25%专注于高效 LLM 微调的初创公司 Unsloth 与 NVIDIA 合作,在 RTX 4090 等消费级 GPU 上实现了 25% 的训练速度提升。该优化针对 CUDA 内核内存带宽调度,从硬件中榨取出每一丝性能——此前这些硬件被认为不足查看来源专题页Hacker News 已收录 3035 篇文章

相关专题

DeepSeek29 篇相关文章

时间归档

May 2026785 篇已发布文章

延伸阅读

纳米革命:小模型如何重塑AI推理经济一场无声的革命正在AI行业上演:推理基础设施正从巨型模型转向紧凑的纳米级架构。这一变革大幅削减成本,赋能实时边缘应用,并挑战了规模定律的主导地位。Musk vs Altman: Distillation, Deception, and the AI Safety ParadoxElon Musk and Sam Altman's public battle has escalated into a war over AI's soul. Musk admits xAI distilled OpenAI's modConvera开源运行时:LLM部署的“Linux时刻”已至Convera正式开源其专为大语言模型打造的运行时环境,旨在统一LLM执行标准,大幅降低开发者部署门槛。此举标志着AI行业正从模型军备竞赛转向模块化、开放的基础设施层,有望彻底民主化AI应用开发。过度工程化陷阱:为何简洁才是AI后端的终极智慧一位开发者的坦诚复盘揭示:堆叠蒸馏、路由、嵌入等高级组件,如何将精简的AI后端变成性能噩梦。AINews深入调查过度工程化的隐性成本,以及为何在边缘计算领域,简洁正成为终极竞争优势。

常见问题

这次模型发布“US Global DeepSeek Warning Ignites AI Cold War: Tech Decoupling Goes Diplomatic”的核心内容是什么?

In a move that signals a dramatic escalation in the technology competition between the United States and China, the US State Department has issued a formal warning to allied nation…

从“What is knowledge distillation and is it illegal?”看,这个模型发布为什么重要?

The core of the US accusation against DeepSeek centers on its alleged use of unauthorized knowledge distillation from proprietary US models, such as GPT-4 and Claude. Knowledge distillation is a well-established machine…

围绕“How does DeepSeek's training cost compare to GPT-4?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。