技术深度解析
价格崩塌并非魔法——它是多项技术创新的汇聚结果,这些创新大幅降低了推理成本。其中最重要的是混合专家模型(MoE)架构的广泛采用。与传统密集模型中每个输入激活所有参数不同,DeepSeek-V2和Mixtral 8x7B等MoE模型使用门控网络将每个令牌仅路由到一部分专门的“专家”子网络。这意味着,虽然总参数量可能很大(例如200B+),但每个令牌的活跃参数量要小得多(例如20B-40B)。结果是每个令牌的FLOPs大幅减少,直接转化为更低的推理成本。例如,开源MoE模型DeepSeek-V2在许多基准测试中实现了与GPT-4相当的性能,而每令牌成本仅为后者的约十分之一。
另一项关键技术是推测解码。该方法使用一个小型快速的“草稿”模型并行生成多个候选令牌,然后由更大的“目标”模型进行验证。由于验证步骤可以高效批处理,这可以在不牺牲质量的情况下将大模型的吞吐量提高两到三倍。开源仓库`lm-sys/FastChat`包含了一个广泛使用的推测解码实现,已被许多推理提供商采用。
硬件优化是第三大支柱。Groq等公司开发了专门针对Transformer推理顺序特性的定制LPU(语言处理单元)芯片,在Llama 3 70B等模型上实现了低至200ms的延迟——远快于Nvidia GPU完成相同任务。同样,Nvidia的开源库TensorRT-LLM(可在GitHub获取)支持激进的内核融合、量化(FP8、INT4)和飞行中批处理,使提供商能够在单个GPU上打包更多请求。
为了说明成本-性能权衡,请参考以下来自LMSYS Chatbot Arena(截至2025年6月)的基准数据:
| 模型 | 提供商 | 每百万令牌价格(输入) | MMLU(5-shot) | Arena Elo | 延迟(毫秒/令牌) |
|---|---|---|---|---|---|
| GPT-4o | OpenAI | $5.00 | 88.7 | 1350 | 40 |
| Claude 3.5 Sonnet | Anthropic | $3.00 | 88.3 | 1320 | 45 |
| DeepSeek-V2 | DeepSeek | $0.50 | 84.2 | 1250 | 55 |
| Mixtral 8x22B | Mistral | $0.90 | 82.5 | 1230 | 50 |
| Llama 3 70B(通过Together) | Together AI | $0.90 | 80.1 | 1200 | 35 |
| Groq Llama 3 70B | Groq | $1.20 | 80.1 | 1200 | 20 |
数据要点: 表格显示,MMLU每下降5分(从88.7降至83.2),价格便下降80%至90%。对于许多企业用例——如客服聊天机器人、文档摘要或代码生成——这种权衡完全可接受。更便宜模型的延迟也具备竞争力,Groq甚至超越了现有巨头。这些数据证实,对于广泛应用而言,“足够好”的门槛已被跨越。
关键玩家与案例研究
这场价格战由一群各具独特策略的多元化玩家推动。
DeepSeek(中国): 凭借其MoE架构成为一股主要力量。其DeepSeek-V2模型于2025年初发布,以强劲性能与超低定价的组合震惊业界。DeepSeek的策略是通过激进定价建立庞大用户基础,然后通过高级功能或企业支持实现盈利。他们还开源了模型权重,这催生了一个由社区运营的推理服务生态系统。
Mistral AI(法国): Mistral采取了双轨策略。他们提供与GPT-4竞争的高端专有模型(Mistral Large),同时也发布Mixtral 8x7B和8x22B等开源MoE模型。这使他们既能捕获高端市场,也能吸引对成本敏感的开发者市场。其开源版本已被下载数百万次,并广泛用于本地部署,从而完全避免API成本。
Together AI(美国): Together AI是一家推理即服务提供商,专门运行开源模型。他们通过连续批处理和量化等技术优化吞吐量和成本。他们不训练自己的模型,而是提供一个运行Llama 3、Mixtral和DeepSeek等模型的平台。其商业模式是成为运行开源模型最便宜、最快的方式,并在吸引希望避免供应商锁定的开发者方面取得了极大成功。
Groq(美国): Groq采取了硬件优先的方法。其定制LPU芯片专为LLM推理设计,在相同模型上实现了比Nvidia H100快2至3倍的延迟。他们目前以有竞争力的价格提供Llama 3 70B和8B模型。其局限性在于仅支持有限的一组模型,但速度优势使其成为实时应用的理想选择。