中国封堵西方AI模型,硅谷却拥抱DeepSeek开源力量

Hacker News June 2026
来源:Hacker NewsDeepSeekopen-source AI归档:June 2026
北京最新监管重拳针对西方大语言模型,提出严格的数据本地化与内容合规要求;然而,硅谷正积极将中国开源模型DeepSeek融入核心技术栈。这一看似矛盾的现象,标志着全球AI供应链的深度重构。

中华人民共和国已升级对西方AI模型的监管姿态,规定任何在其境内运营的外国大语言模型必须将所有用户数据存储于国内服务器,并通过国家管理的内容安全审查。此举实际上将OpenAI、Anthropic和谷歌等公司在中国市场的合规成本提升至近乎禁止的水平。然而,一个凸显AI全球化格局变迁的转折点是,从隐身模式的初创公司到上市科技巨头,一大批美国企业正围绕DeepSeek(一家中国量化对冲基金开发的模型)构建生产系统。DeepSeek的混合专家(MoE)架构在性能上已展现出与GPT-4和Claude 3.5相抗衡的实力,而其极低的推理成本——每百万token仅约0.14美元(自托管估算),仅为GPT-4 Turbo的1.4%——成为其被硅谷广泛采用的核心驱动力。这一趋势正在重塑AI基础设施供应商的商业模式,并对专有模型厂商形成巨大压力。

技术深度解析

DeepSeek的架构是其吸引力的关键所在。该模型采用混合专家(MoE)设计,具体来说是名为DeepSeekMoE的变体,该设计仅为每个输入token激活其总参数的一个子集。这与GPT-4(估计总参数1.8万亿,但可能为密集模型)或Llama 3(405B密集模型)等密集模型截然不同。最新开源版本DeepSeek-V2拥有2360亿总参数,但每个token仅激活210亿参数。这种稀疏激活是其秘诀:它提供了远大于自身规模的模型的推理能力,同时保持了较低的推理成本和延迟。

从工程角度来看,DeepSeek引入了两项关键创新。首先,其“多头潜在注意力”机制压缩了键值缓存,与标准多头注意力相比,在长上下文生成过程中将内存占用减少了约30%。其次,其“无辅助损失负载均衡”策略防止了常见的MoE故障模式(即只有少数专家主导训练),确保所有256个专家都得到高效利用。开源社区对此反响热烈。在GitHub上,“deepseek-ai/DeepSeek-V2”仓库已超过15,000颗星,活跃的分支专注于量化(例如4-bit GPTQ版本)和在消费级硬件上的部署。一个值得注意的社区项目“deepseek-coder-v2-instruct”在900亿token的代码数据上对基础模型进行了微调,在HumanEval+上达到了79.2%的通过率,超过了GPT-4 Turbo的76.8%。

基准性能对比

| 模型 | 总参数 | 激活参数 | MMLU (5-shot) | HumanEval (Pass@1) | 每百万token成本 (API) |
|---|---|---|---|---|---|
| DeepSeek-V2 | 236B | 21B | 78.5 | 74.5% | $0.14 (自托管估算) |
| GPT-4 Turbo | ~1.8T (估算) | ~1.8T (密集) | 86.4 | 76.8% | $10.00 |
| Claude 3.5 Sonnet | — | — | 88.3 | 72.0% | $3.00 |
| Llama 3 405B | 405B | 405B (密集) | 85.2 | 78.1% | $1.00 (自托管估算) |

数据要点: DeepSeek-V2在MMLU性能上达到了GPT-4 Turbo的大约90%,而使用的激活参数仅为后者的1.2%,每token成本约为后者的1.4%。这种效率差距是其被采用的核心驱动力——美国公司正在用微小的精度损失换取巨大的成本削减。

关键参与者与案例研究

采用模式呈现出清晰的分层。在顶层,一家主要的美国云提供商(普遍认为是AWS或Azure)已悄然将DeepSeek-V2添加到其SageMaker JumpStart和Azure AI Studio产品中,允许企业客户一键部署该模型。这是对模型生产就绪状态的默示认可。

更具揭示性的是初创公司。Replit,在线IDE平台,于2025年4月用微调后的DeepSeek-Coder-V2替换了其内部代码补全模型,称建议接受率提高了40%,推理成本降低了70%。Harvey,法律AI助手,将DeepSeek-V2集成为合同分析的辅助推理引擎,用于处理常规条款提取,同时将GPT-4保留用于高风险的诉讼策略。结果:其企业客户的API成本降低了55%。

在金融领域,Jane Street,量化交易公司,一直在试验将DeepSeek用于实时市场情绪分析,被该模型在其已拥有的GPU集群上的低延迟所吸引。一位熟悉该设置的消息人士指出,DeepSeek的MoE架构允许他们在较旧的A100 GPU上运行推理,从而避免了采购H100的需求。

竞争格局:开源模型采用情况

| 公司 | 使用模型 | 用例 | 与GPT-4相比的成本节省 | 采用日期 |
|---|---|---|---|---|
| Replit | DeepSeek-Coder-V2 | 代码补全 | 70% | 2025年4月 |
| Harvey | DeepSeek-V2 | 合同分析 | 55% | 2025年3月 |
| Jane Street | DeepSeek-V2 | 情绪分析 | 65% | 2025年2月 |
| Notion | Llama 3 405B | 问答助手 | 50% | 2025年1月 |

数据要点: DeepSeek在成本效率上胜出,但它并非唯一的开源竞争者。Llama 3在通用知识任务上保持领先。关键区别在于DeepSeek在每参数代码生成和推理方面的卓越表现,使其成为专业工程和分析任务的默认选择。

行业影响与市场动态

这一趋势正在重塑AI基础设施供应商的商业模式。Together AIFireworks AIAnyscale——这些为开源模型提供托管推理的公司——均报告称,自2025年1月以来,DeepSeek-V2的API调用量增长了300-400%。该模型现在占Together AI平台上所有推理请求的22%,仅次于Llama 3(35%)。

对于专有模型供应商而言,压力正在积聚。OpenAI的收入增长率从2024年第四季度的40%环比下降至2025年第一季度的28%,部分原因归咎于企业迁移到更便宜的开源替代方案。

更多来自 Hacker News

甲骨文千亿债务炸弹:AI热潮背后的财务悬崖甲骨文向AI基础设施的转型,堪称一场财务高空走钢丝。该公司激进举债——长期债务现已突破1000亿美元——用于采购数万块NVIDIA H100和H200 GPU,建设数据中心以与亚马逊云服务(AWS)、微软Azure和谷歌云竞争。这一策略最初SentinelMCP:守护AI代理工具调用的开源防火墙AI代理的爆发式增长,离不开其与外部工具的深度融合,而模型上下文协议(MCP)正迅速成为连接这些工具的标准化桥梁。然而,当业界将大量精力聚焦于模型本身的安全性——如对齐、越狱攻击和提示注入时,代理与工具之间的通信通道却始终是一片无人设防的巨TycoonLE:基于JAX的强化学习环境,教会AI制定长期商业战略AINews独家揭秘了TycoonLE,一个新颖且现已开源的强化学习环境。它基于Google的JAX框架构建,模拟了一个逼真的商业帝国,迫使AI代理做出长期战略决策——资源分配、市场扩张、现金流管理——跨越数千个时间步。这是对传统RL基准(查看来源专题页Hacker News 已收录 4606 篇文章

相关专题

DeepSeek68 篇相关文章open-source AI208 篇相关文章

时间归档

June 20261209 篇已发布文章

延伸阅读

美国全球警告DeepSeek点燃AI冷战:科技脱钩升级为外交对决美国国务院史无前例地向盟友发出全球警告,指控中国AI公司DeepSeek窃取知识产权。这一外交攻势将AI军备竞赛从企业间的摩擦升级为全面的地缘政治对抗,全球AI生态系统面临沿地缘政治路线分裂的威胁。中国AI成本革命:DeepSeek与Qwen如何重塑全球产业格局中国AI实验室将推理成本压缩至美国竞争对手的几分之一,彻底颠覆了硅谷巨头赖以生存的高价闭源模式。这不仅是价格战,更是对AI价值主张的根本性重新定义。From AI Pioneer to BlackBerry: Why OpenAI Must Reinvent or Fade AwayA new industry analysis draws a stark parallel between OpenAI and BlackBerry's fall from grace. Despite pioneering largeOpenLoomi重新定义AI智能体记忆:全息上下文图谱实现真正推理OpenLoomi是一个开源框架,通过构建全息上下文图谱,将碎片化数据动态编织成统一的关系知识网络。这使得AI智能体能够以前所未有的深度进行推理,从孤立的记忆迈向互联的理解。

常见问题

这次公司发布“China Blocks Western AI Models as Silicon Valley Embraces DeepSeek's Open-Source Power”主要讲了什么?

The People's Republic of China has escalated its regulatory posture against Western AI models, mandating that any foreign LLM operating within its borders must store all user data…

从“DeepSeek model architecture MoE vs dense models comparison”看,这家公司的这次发布为什么值得关注?

DeepSeek's architecture is the linchpin of its appeal. The model employs a Mixture-of-Experts (MoE) design, specifically a variant called DeepSeekMoE, which activates only a subset of its total parameters for each input…

围绕“How to deploy DeepSeek-V2 on AWS SageMaker step by step”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。