AI补贴时代：亲历科技史上最昂贵的实验

从2017年第一篇Transformer论文，到如今无处不在的编程助手如Claude Sonnet和Opus，这段本需数十年的创新周期被压缩在短短几年内。然而，AINews的分析揭示，这一进步并非纯粹基于优胜劣汰——它是由一个非同寻常的资本补贴体系推动的。从谷歌早期向学术实验室捐赠GPU，到风险投资资助的数亿美元训练项目，再到超大规模云服务商提供的巨额云计算积分，整个生态系统一直依赖前瞻性押注而非可持续收入运转。数字令人震惊：训练一个前沿模型如今耗资1亿至10亿美元，而单次推理查询的成本可能超过1美分。与此同时，消费者端的价格战愈演愈烈。

技术深度解析

AI补贴时代建立在特定的技术基础之上：规模定律（Scaling Hypothesis）。该理论最早由OpenAI的Kaplan等人在2020年论文《神经语言模型的规模定律》中正式提出，核心洞见是：模型性能会随着参数、数据和计算量的增加而可预测地提升。这创造了一个简单而资本密集的配方：向更大的模型投入更多资金，智能便会涌现。多年来，这一规律一直成立。GPT-3（1750亿参数）在2020年的训练成本估计为460万美元。相比之下，GPT-4据信耗资1亿至2亿美元。即将到来的GPT-5或Gemini Ultra 2.0，成本可能高达10亿美元或更多。

但技术现实正在发生变化。规模定律正显示出收益递减的迹象。DeepMind及独立研究团队的最新研究表明，对于纯自回归Transformer，计算-性能曲线正在趋于平缓。2023年的Chinchilla规模定律已经指出，大多数模型在数据上训练不足——这意味着瓶颈正从计算转向高质量数据。互联网上干净、多样的文本正在耗尽。合成数据虽然有用，但会引入模型崩溃风险，即递归训练生成输出会降低质量。

在架构层面，业界正在探索替代方案：混合专家模型（MoE），如Mixtral 8x7B，每个token仅激活部分参数，从而降低推理成本。状态空间模型如Mamba提供线性时间注意力机制，挑战Transformer的二次成本。然而，在实现前沿性能方面，尚无模型能完全取代Transformer。

| 模型 | 参数 | 训练成本（估计） | MMLU得分 | 每百万token输出成本 |
|---|---|---|---|---|
| GPT-3 | 175B | 460万美元 | 43.9 | 0.02美元 |
| GPT-4 | ~1.8T (MoE) | 1-2亿美元 | 86.4 | 0.06美元 |
| Claude 3 Opus | ~2T (估计) | 1-3亿美元 | 86.8 | 0.075美元 |
| Gemini Ultra | ~1.5T (估计) | 2亿美元+ | 90.0 | 0.10美元 |
| Llama 3 70B | 70B | ~1000万美元 | 82.0 | 0.002美元（开源） |

数据要点： 前沿模型与开源模型之间的成本差距正在扩大。Llama 3 70B以极低的成本训练，在MMLU上达到82%，而前沿模型为86-90%。对于许多企业用例而言，这4-8个百分点的差异并不值得付出30-50倍的成本溢价。这形成了一个补贴陷阱：前沿实验室必须为边际收益投入数十亿美元，而这些收益可能无法转化为相应的收入。

在GitHub上，开源社区正在加速商品化。`lm-sys/FastChat`仓库（35k+星标）提供LLM的训练和服务代码，使任何人都能微调模型。`ggerganov/llama.cpp`（70k+星标）允许在消费级硬件上运行量化模型，大幅降低推理成本。`vllm-project/vllm`（40k+星标）通过PagedAttention提供高吞吐量服务，将推理延迟降低2-4倍。这些工具正在系统性地侵蚀专有实验室曾经拥有的护城河。

关键玩家与案例分析

补贴架构涉及三个不同的群体：花钱的实验室、收钱的云服务商，以及提供资金的投资者。

OpenAI 是典型代表。仅从微软一家就筹集了超过130亿美元，外加额外债务融资。其年化收入据称达34亿美元，但运营成本——包括ChatGPT每周1亿用户的推理费用——估计每年为70亿美元。缺口由微软的云计算积分和股权投资填补。这不是一门生意；这是一个大规模补贴的研究项目。

Anthropic 已筹集超过70亿美元，其中包括亚马逊的40亿美元投资。其Claude模型因安全性和编程能力（Sonnet和Opus）而备受赞誉，但该公司尚无明确的盈利路径。亚马逊的投资是战略性的：它希望销售AWS计算资源，并将Claude集成到Alexa和AWS服务中。Anthropic实际上是亚马逊云业务的亏本引流工具。

Google DeepMind 拥有母公司年收入300亿美元的云业务和庞大的广告业务作为后盾。但即使是谷歌也无法承受无限制的支出。Gemini训练运行每次估计耗资2亿美元，谷歌已开始对Workspace和云API的高级功能收费。然而，AI带来的收入与搜索广告相比仍微不足道。

微软是最有趣的玩家。它并非AI实验室，而是基础设施提供商。其对OpenAI的130亿美元押注已通过Azure AI收入获得回报，该收入在2025年第一季度增长了21%。微软本质上是在利用OpenAI作为亏本引流工具，以60%以上的利润率销售云计算积分。补贴形成了一个循环：微软给OpenAI钱，OpenAI将其花在Azure上，微软确认收入。这只有在Azure持续增长的情况下才可持续。

| 公司 | 总融资额 | 估计年收入 | 估计年成本 | 关键投资者 | 战略逻辑 |
|---|---|---|---|---|---|
| OpenAI | 130亿美元+ | 34亿美元 | 70亿美元 | 微软 | 云计算积分与股权交换 |
| Anthropic | 70亿美元+ | 未公开 | 未公开 | 亚马逊 | AWS引流与Alexa集成 |
| Google DeepMind | 母公司支持 | 未公开 | 数十亿美元 | 谷歌 | 搜索与云生态绑定 |
| Microsoft | 130亿美元（投资） | Azure AI增长21% | 未公开 | 自身 | 云计算基础设施销售 |

时间归档

延伸阅读

常见问题

这次模型发布“The Subsidy Era of AI: Living Through Tech's Most Expensive Experiment”的核心内容是什么？

The journey from the first transformer paper in 2017 to today's ubiquitous coding assistants like Claude Sonnet and Opus is a compressed cycle of innovation that would normally tak…

从“how much does it cost to train GPT-5”看，这个模型发布为什么重要？

The subsidy era of AI is built on a specific technical foundation: the scaling hypothesis. First formalized in the 2020 paper "Scaling Laws for Neural Language Models" by Kaplan et al. at OpenAI, the core insight was tha…

围绕“AI industry subsidy bubble explained”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。