AI价格战:当智能成为商品,行业格局如何重塑

Hacker News June 2026
来源:Hacker News归档:June 2026
新一代AI模型提供商将API价格狂砍90%,迫使OpenAI和Anthropic直面一个根本性转变:智能正在变成一种商品。AINews深度解析价格崩塌背后的技术逻辑,以及这对行业未来的深远影响。

AI行业正在经历一场地震式变革。多年来,竞争格局被一个简单问题主导:谁的模型更聪明?如今,问题已变成:谁能以最低成本交付足够智能?新一代AI提供商——包括DeepSeek、Mistral和Together AI等公司——利用混合专家模型(MoE)、推测解码和硬件级优化等架构突破,以比OpenAI的GPT-4o或Anthropic的Claude 3.5 Sonnet低80%至90%的价格提供API访问。这些提供商在大多数企业级任务上并未牺牲延迟或准确性,实际上已将中等水平的AI能力商品化。这场价格战并非暂时的营销策略,而是技术进步的必然结果。

技术深度解析

价格崩塌并非魔法——它是多项技术创新的汇聚结果,这些创新大幅降低了推理成本。其中最重要的是混合专家模型(MoE)架构的广泛采用。与传统密集模型中每个输入激活所有参数不同,DeepSeek-V2和Mixtral 8x7B等MoE模型使用门控网络将每个令牌仅路由到一部分专门的“专家”子网络。这意味着,虽然总参数量可能很大(例如200B+),但每个令牌的活跃参数量要小得多(例如20B-40B)。结果是每个令牌的FLOPs大幅减少,直接转化为更低的推理成本。例如,开源MoE模型DeepSeek-V2在许多基准测试中实现了与GPT-4相当的性能,而每令牌成本仅为后者的约十分之一。

另一项关键技术是推测解码。该方法使用一个小型快速的“草稿”模型并行生成多个候选令牌,然后由更大的“目标”模型进行验证。由于验证步骤可以高效批处理,这可以在不牺牲质量的情况下将大模型的吞吐量提高两到三倍。开源仓库`lm-sys/FastChat`包含了一个广泛使用的推测解码实现,已被许多推理提供商采用。

硬件优化是第三大支柱。Groq等公司开发了专门针对Transformer推理顺序特性的定制LPU(语言处理单元)芯片,在Llama 3 70B等模型上实现了低至200ms的延迟——远快于Nvidia GPU完成相同任务。同样,Nvidia的开源库TensorRT-LLM(可在GitHub获取)支持激进的内核融合、量化(FP8、INT4)和飞行中批处理,使提供商能够在单个GPU上打包更多请求。

为了说明成本-性能权衡,请参考以下来自LMSYS Chatbot Arena(截至2025年6月)的基准数据:

| 模型 | 提供商 | 每百万令牌价格(输入) | MMLU(5-shot) | Arena Elo | 延迟(毫秒/令牌) |
|---|---|---|---|---|---|
| GPT-4o | OpenAI | $5.00 | 88.7 | 1350 | 40 |
| Claude 3.5 Sonnet | Anthropic | $3.00 | 88.3 | 1320 | 45 |
| DeepSeek-V2 | DeepSeek | $0.50 | 84.2 | 1250 | 55 |
| Mixtral 8x22B | Mistral | $0.90 | 82.5 | 1230 | 50 |
| Llama 3 70B(通过Together) | Together AI | $0.90 | 80.1 | 1200 | 35 |
| Groq Llama 3 70B | Groq | $1.20 | 80.1 | 1200 | 20 |

数据要点: 表格显示,MMLU每下降5分(从88.7降至83.2),价格便下降80%至90%。对于许多企业用例——如客服聊天机器人、文档摘要或代码生成——这种权衡完全可接受。更便宜模型的延迟也具备竞争力,Groq甚至超越了现有巨头。这些数据证实,对于广泛应用而言,“足够好”的门槛已被跨越。

关键玩家与案例研究

这场价格战由一群各具独特策略的多元化玩家推动。

DeepSeek(中国): 凭借其MoE架构成为一股主要力量。其DeepSeek-V2模型于2025年初发布,以强劲性能与超低定价的组合震惊业界。DeepSeek的策略是通过激进定价建立庞大用户基础,然后通过高级功能或企业支持实现盈利。他们还开源了模型权重,这催生了一个由社区运营的推理服务生态系统。

Mistral AI(法国): Mistral采取了双轨策略。他们提供与GPT-4竞争的高端专有模型(Mistral Large),同时也发布Mixtral 8x7B和8x22B等开源MoE模型。这使他们既能捕获高端市场,也能吸引对成本敏感的开发者市场。其开源版本已被下载数百万次,并广泛用于本地部署,从而完全避免API成本。

Together AI(美国): Together AI是一家推理即服务提供商,专门运行开源模型。他们通过连续批处理和量化等技术优化吞吐量和成本。他们不训练自己的模型,而是提供一个运行Llama 3、Mixtral和DeepSeek等模型的平台。其商业模式是成为运行开源模型最便宜、最快的方式,并在吸引希望避免供应商锁定的开发者方面取得了极大成功。

Groq(美国): Groq采取了硬件优先的方法。其定制LPU芯片专为LLM推理设计,在相同模型上实现了比Nvidia H100快2至3倍的延迟。他们目前以有竞争力的价格提供Llama 3 70B和8B模型。其局限性在于仅支持有限的一组模型,但速度优势使其成为实时应用的理想选择。

更多来自 Hacker News

中国封堵西方AI模型,硅谷却拥抱DeepSeek开源力量中华人民共和国已升级对西方AI模型的监管姿态,规定任何在其境内运营的外国大语言模型必须将所有用户数据存储于国内服务器,并通过国家管理的内容安全审查。此举实际上将OpenAI、Anthropic和谷歌等公司在中国市场的合规成本提升至近乎禁止的甲骨文千亿债务炸弹:AI热潮背后的财务悬崖甲骨文向AI基础设施的转型,堪称一场财务高空走钢丝。该公司激进举债——长期债务现已突破1000亿美元——用于采购数万块NVIDIA H100和H200 GPU,建设数据中心以与亚马逊云服务(AWS)、微软Azure和谷歌云竞争。这一策略最初SentinelMCP:守护AI代理工具调用的开源防火墙AI代理的爆发式增长,离不开其与外部工具的深度融合,而模型上下文协议(MCP)正迅速成为连接这些工具的标准化桥梁。然而,当业界将大量精力聚焦于模型本身的安全性——如对齐、越狱攻击和提示注入时,代理与工具之间的通信通道却始终是一片无人设防的巨查看来源专题页Hacker News 已收录 4606 篇文章

时间归档

June 20261209 篇已发布文章

延伸阅读

精益推理:丰田生产系统如何重塑AI部署的经济学AI行业正借鉴丰田的经典方法论,解决其最棘手的难题:推理成本高企。将每一次推理视为一个生产单元,系统性地消除浪费,一种全新的“精益推理”范式正在崛起,有望将GPU支出削减50%至80%,同时让实时AI代理在经济上变得可行。OpenClaw的智能体缰绳:CPU效率如何重塑AI基础设施范式OpenClaw等AI智能体“缰绳”工具正作为变革性中间件层崛起,动态管理多模型工作流并将任务卸载至CPU。这一转变不仅大幅削减推理成本,更迫使CPU架构为智能体时代进行根本性重新设计,挑战了GPU主导的现有格局。GPT-5.5 价格飙升:前沿智能的代价与真正的买单者OpenRouter 最新定价数据显示,GPT-5.5 API 成本较 GPT-5 飙升超过 40%,标志着前沿智能正式迈入高端奢侈品行列。AINews 深度剖析涨价背后的驱动力、被挤出市场的群体,以及这对 AI 生态系统的深远影响。SubQ算法:推理成本直降60%,推理能力飙升40%,AI效率革命来了AINews独家揭秘SubQ——一款重新定义大语言模型智能的前沿算法。它用次二次注意力机制取代传统的二次注意力,在将复杂推理能力提升40%的同时,将推理成本削减60%,标志着AI从暴力扩展向架构效率的决定性转折。

常见问题

这次公司发布“AI Price War: How Commoditized Intelligence Is Reshaping the Industry”主要讲了什么?

The AI industry is undergoing a seismic shift. For years, the competitive landscape was dominated by a simple question: whose model is smarter? Now, the question has become: who ca…

从“DeepSeek API pricing vs OpenAI comparison 2025”看,这家公司的这次发布为什么值得关注?

The price collapse is not magic—it is the result of several converging technical innovations that have dramatically reduced the cost of inference. The most significant is the widespread adoption of Mixture-of-Experts (Mo…

围绕“How to run Llama 3 70B on Groq for free”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。