AI价格战：当智能成为商品，行业格局如何重塑

AI行业正在经历一场地震式变革。多年来，竞争格局被一个简单问题主导：谁的模型更聪明？如今，问题已变成：谁能以最低成本交付足够智能？新一代AI提供商——包括DeepSeek、Mistral和Together AI等公司——利用混合专家模型（MoE）、推测解码和硬件级优化等架构突破，以比OpenAI的GPT-4o或Anthropic的Claude 3.5 Sonnet低80%至90%的价格提供API访问。这些提供商在大多数企业级任务上并未牺牲延迟或准确性，实际上已将中等水平的AI能力商品化。这场价格战并非暂时的营销策略，而是技术进步的必然结果。

技术深度解析

价格崩塌并非魔法——它是多项技术创新的汇聚结果，这些创新大幅降低了推理成本。其中最重要的是混合专家模型（MoE）架构的广泛采用。与传统密集模型中每个输入激活所有参数不同，DeepSeek-V2和Mixtral 8x7B等MoE模型使用门控网络将每个令牌仅路由到一部分专门的“专家”子网络。这意味着，虽然总参数量可能很大（例如200B+），但每个令牌的活跃参数量要小得多（例如20B-40B）。结果是每个令牌的FLOPs大幅减少，直接转化为更低的推理成本。例如，开源MoE模型DeepSeek-V2在许多基准测试中实现了与GPT-4相当的性能，而每令牌成本仅为后者的约十分之一。

另一项关键技术是推测解码。该方法使用一个小型快速的“草稿”模型并行生成多个候选令牌，然后由更大的“目标”模型进行验证。由于验证步骤可以高效批处理，这可以在不牺牲质量的情况下将大模型的吞吐量提高两到三倍。开源仓库`lm-sys/FastChat`包含了一个广泛使用的推测解码实现，已被许多推理提供商采用。

硬件优化是第三大支柱。Groq等公司开发了专门针对Transformer推理顺序特性的定制LPU（语言处理单元）芯片，在Llama 3 70B等模型上实现了低至200ms的延迟——远快于Nvidia GPU完成相同任务。同样，Nvidia的开源库TensorRT-LLM（可在GitHub获取）支持激进的内核融合、量化（FP8、INT4）和飞行中批处理，使提供商能够在单个GPU上打包更多请求。

为了说明成本-性能权衡，请参考以下来自LMSYS Chatbot Arena（截至2025年6月）的基准数据：

| 模型 | 提供商 | 每百万令牌价格（输入） | MMLU（5-shot） | Arena Elo | 延迟（毫秒/令牌） |
|---|---|---|---|---|---|
| GPT-4o | OpenAI | $5.00 | 88.7 | 1350 | 40 |
| Claude 3.5 Sonnet | Anthropic | $3.00 | 88.3 | 1320 | 45 |
| DeepSeek-V2 | DeepSeek | $0.50 | 84.2 | 1250 | 55 |
| Mixtral 8x22B | Mistral | $0.90 | 82.5 | 1230 | 50 |
| Llama 3 70B（通过Together） | Together AI | $0.90 | 80.1 | 1200 | 35 |
| Groq Llama 3 70B | Groq | $1.20 | 80.1 | 1200 | 20 |

数据要点： 表格显示，MMLU每下降5分（从88.7降至83.2），价格便下降80%至90%。对于许多企业用例——如客服聊天机器人、文档摘要或代码生成——这种权衡完全可接受。更便宜模型的延迟也具备竞争力，Groq甚至超越了现有巨头。这些数据证实，对于广泛应用而言，“足够好”的门槛已被跨越。

关键玩家与案例研究

这场价格战由一群各具独特策略的多元化玩家推动。

DeepSeek（中国）： 凭借其MoE架构成为一股主要力量。其DeepSeek-V2模型于2025年初发布，以强劲性能与超低定价的组合震惊业界。DeepSeek的策略是通过激进定价建立庞大用户基础，然后通过高级功能或企业支持实现盈利。他们还开源了模型权重，这催生了一个由社区运营的推理服务生态系统。

Mistral AI（法国）： Mistral采取了双轨策略。他们提供与GPT-4竞争的高端专有模型（Mistral Large），同时也发布Mixtral 8x7B和8x22B等开源MoE模型。这使他们既能捕获高端市场，也能吸引对成本敏感的开发者市场。其开源版本已被下载数百万次，并广泛用于本地部署，从而完全避免API成本。

Together AI（美国）： Together AI是一家推理即服务提供商，专门运行开源模型。他们通过连续批处理和量化等技术优化吞吐量和成本。他们不训练自己的模型，而是提供一个运行Llama 3、Mixtral和DeepSeek等模型的平台。其商业模式是成为运行开源模型最便宜、最快的方式，并在吸引希望避免供应商锁定的开发者方面取得了极大成功。

Groq（美国）： Groq采取了硬件优先的方法。其定制LPU芯片专为LLM推理设计，在相同模型上实现了比Nvidia H100快2至3倍的延迟。他们目前以有竞争力的价格提供Llama 3 70B和8B模型。其局限性在于仅支持有限的一组模型，但速度优势使其成为实时应用的理想选择。

时间归档

延伸阅读

常见问题

这次公司发布“AI Price War: How Commoditized Intelligence Is Reshaping the Industry”主要讲了什么？

The AI industry is undergoing a seismic shift. For years, the competitive landscape was dominated by a simple question: whose model is smarter? Now, the question has become: who ca…

从“DeepSeek API pricing vs OpenAI comparison 2025”看，这家公司的这次发布为什么值得关注？

The price collapse is not magic—it is the result of several converging technical innovations that have dramatically reduced the cost of inference. The most significant is the widespread adoption of Mixture-of-Experts (Mo…

围绕“How to run Llama 3 70B on Groq for free”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。