效率革命：OpenAI与Anthropic为何放弃规模军备竞赛

多年来，人工智能领域的叙事简单直接：更多算力、更多参数、更多资金等于更智能。OpenAI与Anthropic筹集数十亿美元，建造超大规模集群，训练越来越庞大的模型，坚信市场会为边际性能提升支付溢价。然而，这一假设已被打破。我们的调查揭示了两家实验室正在发生的决定性转向：内部资源分配已从训练更大规模的基础模型，急剧转向推理优化、模型蒸馏和软硬件协同设计。催化剂是市场成熟速度远超预期。企业客户被不可预测的API成本和模型规模带来的递减回报所困扰，正用钱包投票——他们纷纷采用GPT-4o mini、Claude 3 Haiku等高效模型，这些模型在标准基准测试中性能仅落后前沿模型不到10%，但成本却低10到100倍。这一经济楔子正迫使行业巨头重新思考：真正的竞争优势不再来自参数数量，而来自每美元能产出多少智能。

技术深度解析

从规模优先到效率优先的转变并非哲学选择，而是由推理成本残酷数学驱动的工程必然。对GPT-4这类1.8万亿参数模型的一次查询，计算成本可能高达0.10美元，使其在经济上无法支撑客服聊天机器人、实时翻译或代码补全等高流量应用。业界如今发现，大规模部署模型的成本在数周内就可能超过其训练成本。

效率架构的两大支柱

两种技术方法主导着效率策略：模型蒸馏和混合专家路由。

模型蒸馏由Geoffrey Hinton开创，经Google和Hugging Face团队完善，其核心是训练一个较小的“学生”模型来模仿较大“教师”模型的输出。据报道，OpenAI已利用该技术创建了GPT-4o mini，在不到GPT-4推理成本5%的情况下，实现了约85%的基准性能。该过程前期计算密集，但在服务阶段可带来巨大节省。开源社区已通过Hugging Face的Transformers知识蒸馏训练器和微软研究院的Textbooks Are All You Need方法拥抱这一技术——后者利用大模型生成的合成数据训练小模型。

混合专家由Mistral AI的Mixtral 8x7B模型推广，每个token仅激活部分参数。这使得模型在保持较大总参数量的同时，降低单token计算量。Anthropic的Claude 3 Opus被认为采用了复杂的MoE架构，但该公司未披露细节。其代价是更高的内存带宽需求和复杂的路由逻辑，但效率提升无可否认。

| 模型 | 总参数 | 每Token活跃参数 | MMLU得分 | 每百万Token输出成本 |
|---|---|---|---|---|
| GPT-4 | ~1.8T (估计) | ~1.8T (密集) | 86.4 | $60.00 |
| GPT-4o | ~200B (估计) | ~200B (密集) | 88.7 | $15.00 |
| GPT-4o mini | ~8B (估计) | ~8B (密集) | 82.0 | $0.60 |
| Claude 3 Opus | ~2T (估计) | ~200B (MoE) | 87.1 | $15.00 |
| Claude 3 Haiku | ~20B (估计) | ~20B (密集) | 75.0 | $0.25 |
| Mixtral 8x7B | 47B | 13B (MoE) | 70.6 | $0.70 |

数据要点： 前沿模型与高效替代方案之间的成本差异高达10到100倍，但在标准基准测试上的性能差距通常不到10%。这正是推动企业采用小型模型的经济楔子。

软硬件协同设计

两家实验室都在大力投资定制芯片和内核优化。据报道，OpenAI已与Broadcom合作开发定制推理芯片，而Anthropic正与AMD合作，针对MI300X GPU优化其模型。在软件方面，FlashAttention（由斯坦福大学的Tri Dao开发，现已集成至PyTorch）等技术减少了注意力计算期间的内存读取，将延迟降低了2-3倍。开源vLLM库（GitHub星标超过30,000）已成为高吞吐量LLM服务的事实标准，利用PagedAttention高效管理KV缓存内存。Together AI和Fireworks AI等公司已将整个商业模式建立在基于vLLM的服务之上，提供的推理成本比OpenAI低5-10倍。

关键结论： 技术前沿已不再关乎参数规模，而是关乎效率规模。掌握“少花钱多办事”艺术的实验室将主导下一阶段。

关键参与者与案例研究

效率革命由一群策略各异的参与者共同推动。

OpenAI：在位者的困境

OpenAI面临经典的创新者困境。其品牌建立在“前沿模型”叙事之上，但最赚钱的产品却是产品线中最便宜的GPT-4o mini。该公司在过去一年中三次下调API价格，GPT-4o目前的价格比刚推出时低了70%。据报道，内部团队正竞相将GPT-5的能力蒸馏到可在单GPU上运行的模型中。挑战在于：在将自己的技术商品化的同时，维持领导地位的形象。

Anthropic：安全优先的效率策略

Anthropic将Claude Haiku定位为企业工作流的“主力模型”，强调可靠性和安全性而非原始能力。其策略是凭借信任和一致性取胜，而非基准分数。该公司已开源其Constitutional AI训练方法，使小型模型能够更高效地进行对齐。这是一步妙棋：通过降低安全成本，Anthropic使其模型对医疗和金融等受监管行业更具吸引力。

开源挑战者

效率竞赛中最具颠覆性的力量是开源社区。

时间归档

延伸阅读

常见问题

这次公司发布“The Efficiency Revolution: Why OpenAI and Anthropic Are Ditching the Scale Arms Race”主要讲了什么？

For years, the narrative in artificial intelligence was simple: more compute, more parameters, more money equals better intelligence. OpenAI and Anthropic raised billions, built hy…

从“OpenAI GPT-4o mini vs GPT-4 cost comparison 2025”看，这家公司的这次发布为什么值得关注？

The shift from scale-first to efficiency-first is not a philosophical choice—it is an engineering necessity driven by the brutal math of inference costs. A single query to a 1.8-trillion-parameter model like GPT-4 can co…

围绕“Anthropic Claude Haiku enterprise pricing per token”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。