中国封堵西方AI模型，硅谷却拥抱DeepSeek开源力量

2026年6月13日 11:31 AINews Hacker News June 2026

来源：Hacker News DeepSeek open-source AI 归档：June 2026

北京最新监管重拳针对西方大语言模型，提出严格的数据本地化与内容合规要求；然而，硅谷正积极将中国开源模型DeepSeek融入核心技术栈。这一看似矛盾的现象，标志着全球AI供应链的深度重构。

中华人民共和国已升级对西方AI模型的监管姿态，规定任何在其境内运营的外国大语言模型必须将所有用户数据存储于国内服务器，并通过国家管理的内容安全审查。此举实际上将OpenAI、Anthropic和谷歌等公司在中国市场的合规成本提升至近乎禁止的水平。然而，一个凸显AI全球化格局变迁的转折点是，从隐身模式的初创公司到上市科技巨头，一大批美国企业正围绕DeepSeek（一家中国量化对冲基金开发的模型）构建生产系统。DeepSeek的混合专家（MoE）架构在性能上已展现出与GPT-4和Claude 3.5相抗衡的实力，而其极低的推理成本——每百万token仅约0.14美元（自托管估算），仅为GPT-4 Turbo的1.4%——成为其被硅谷广泛采用的核心驱动力。这一趋势正在重塑AI基础设施供应商的商业模式，并对专有模型厂商形成巨大压力。

技术深度解析

DeepSeek的架构是其吸引力的关键所在。该模型采用混合专家（MoE）设计，具体来说是名为DeepSeekMoE的变体，该设计仅为每个输入token激活其总参数的一个子集。这与GPT-4（估计总参数1.8万亿，但可能为密集模型）或Llama 3（405B密集模型）等密集模型截然不同。最新开源版本DeepSeek-V2拥有2360亿总参数，但每个token仅激活210亿参数。这种稀疏激活是其秘诀：它提供了远大于自身规模的模型的推理能力，同时保持了较低的推理成本和延迟。

从工程角度来看，DeepSeek引入了两项关键创新。首先，其“多头潜在注意力”机制压缩了键值缓存，与标准多头注意力相比，在长上下文生成过程中将内存占用减少了约30%。其次，其“无辅助损失负载均衡”策略防止了常见的MoE故障模式（即只有少数专家主导训练），确保所有256个专家都得到高效利用。开源社区对此反响热烈。在GitHub上，“deepseek-ai/DeepSeek-V2”仓库已超过15,000颗星，活跃的分支专注于量化（例如4-bit GPTQ版本）和在消费级硬件上的部署。一个值得注意的社区项目“deepseek-coder-v2-instruct”在900亿token的代码数据上对基础模型进行了微调，在HumanEval+上达到了79.2%的通过率，超过了GPT-4 Turbo的76.8%。

基准性能对比

| 模型 | 总参数 | 激活参数 | MMLU (5-shot) | HumanEval (Pass@1) | 每百万token成本 (API) |
|---|---|---|---|---|---|
| DeepSeek-V2 | 236B | 21B | 78.5 | 74.5% | $0.14 (自托管估算) |
| GPT-4 Turbo | ~1.8T (估算) | ~1.8T (密集) | 86.4 | 76.8% | $10.00 |
| Claude 3.5 Sonnet | — | — | 88.3 | 72.0% | $3.00 |
| Llama 3 405B | 405B | 405B (密集) | 85.2 | 78.1% | $1.00 (自托管估算) |

数据要点： DeepSeek-V2在MMLU性能上达到了GPT-4 Turbo的大约90%，而使用的激活参数仅为后者的1.2%，每token成本约为后者的1.4%。这种效率差距是其被采用的核心驱动力——美国公司正在用微小的精度损失换取巨大的成本削减。

关键参与者与案例研究

采用模式呈现出清晰的分层。在顶层，一家主要的美国云提供商（普遍认为是AWS或Azure）已悄然将DeepSeek-V2添加到其SageMaker JumpStart和Azure AI Studio产品中，允许企业客户一键部署该模型。这是对模型生产就绪状态的默示认可。

更具揭示性的是初创公司。Replit，在线IDE平台，于2025年4月用微调后的DeepSeek-Coder-V2替换了其内部代码补全模型，称建议接受率提高了40%，推理成本降低了70%。Harvey，法律AI助手，将DeepSeek-V2集成为合同分析的辅助推理引擎，用于处理常规条款提取，同时将GPT-4保留用于高风险的诉讼策略。结果：其企业客户的API成本降低了55%。

在金融领域，Jane Street，量化交易公司，一直在试验将DeepSeek用于实时市场情绪分析，被该模型在其已拥有的GPU集群上的低延迟所吸引。一位熟悉该设置的消息人士指出，DeepSeek的MoE架构允许他们在较旧的A100 GPU上运行推理，从而避免了采购H100的需求。

竞争格局：开源模型采用情况

| 公司 | 使用模型 | 用例 | 与GPT-4相比的成本节省 | 采用日期 |
|---|---|---|---|---|
| Replit | DeepSeek-Coder-V2 | 代码补全 | 70% | 2025年4月 |
| Harvey | DeepSeek-V2 | 合同分析 | 55% | 2025年3月 |
| Jane Street | DeepSeek-V2 | 情绪分析 | 65% | 2025年2月 |
| Notion | Llama 3 405B | 问答助手 | 50% | 2025年1月 |

数据要点： DeepSeek在成本效率上胜出，但它并非唯一的开源竞争者。Llama 3在通用知识任务上保持领先。关键区别在于DeepSeek在每参数代码生成和推理方面的卓越表现，使其成为专业工程和分析任务的默认选择。

行业影响与市场动态

这一趋势正在重塑AI基础设施供应商的商业模式。Together AI、Fireworks AI和Anyscale——这些为开源模型提供托管推理的公司——均报告称，自2025年1月以来，DeepSeek-V2的API调用量增长了300-400%。该模型现在占Together AI平台上所有推理请求的22%，仅次于Llama 3（35%）。

对于专有模型供应商而言，压力正在积聚。OpenAI的收入增长率从2024年第四季度的40%环比下降至2025年第一季度的28%，部分原因归咎于企业迁移到更便宜的开源替代方案。

时间归档

常见问题

这次公司发布“China Blocks Western AI Models as Silicon Valley Embraces DeepSeek's Open-Source Power”主要讲了什么？

The People's Republic of China has escalated its regulatory posture against Western AI models, mandating that any foreign LLM operating within its borders must store all user data…

从“DeepSeek model architecture MoE vs dense models comparison”看，这家公司的这次发布为什么值得关注？

DeepSeek's architecture is the linchpin of its appeal. The model employs a Mixture-of-Experts (MoE) design, specifically a variant called DeepSeekMoE, which activates only a subset of its total parameters for each input…

围绕“How to deploy DeepSeek-V2 on AWS SageMaker step by step”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。