技术深度解析
算力过剩本质上是一个架构与经济错配的故事。现代AI加速器——Nvidia的H100、AMD的MI300X和Google的TPU v5——专为训练任务中常见的大规模矩阵乘法峰值吞吐量而设计。但推理(目前占AI算力需求的70%以上)对延迟敏感得多,且具有突发性。一块H100可同时服务数千个Llama 3-8B查询,但大多数应用无法产生如此负载。结果:硅片闲置。
蒸馏悖论
更小、更精炼的模型,如Microsoft的Phi-3(38亿参数)和Mistral的Ministral(80亿参数),在常见任务上能达到GPT-4 90%以上的性能,而每次查询所需的算力却减少10-100倍。这种效率在普及AI的同时,却矛盾地加深了过剩。如果每次查询消耗的算力更少,同样的硬件就能服务更多用户——但前提是用户增长快于效率提升。目前,情况并非如此。AI应用市场以每年40%的速度增长,但推理效率每年提升60%,从而产生了净盈余。
开源GitHub生态系统
多个开源项目正直接利用闲置算力:
- vLLM(GitHub: vllm-project/vllm,45k+星标):一个高吞吐量推理引擎,使用PagedAttention高效管理GPU内存。它能在单块H100上运行Llama 3-70B,与朴素实现相比,每token成本降低5倍。这使得在竞价实例上运行模型变得经济,进一步抑制了对预留容量的需求。
- SkyPilot(GitHub: skypilot-org/skypilot,8k+星标):一个任务调度器,可自动将工作负载路由到AWS、GCP、Azure和Lambda上最便宜的云GPU。它利用价格套利——竞价实例可比按需实例便宜70%——并已被用于以90%更低的成本训练模型。
- Exo(GitHub: exo-explore/exo,12k+星标):一个去中心化算力网络,汇集闲置的消费级GPU(如MacBook、游戏PC)用于分布式推理。目前支持Llama和Mistral模型,将算力过剩转化为点对点资源。
基准数据:推理成本暴跌
| 模型 | 参数 | 每百万token成本(2025年Q1) | 每百万token成本(2026年Q1) | 变化百分比 |
|---|---|---|---|---|
| GPT-4o | ~200B(估) | $5.00 | $2.50 | -50% |
| Claude 3.5 Sonnet | — | $3.00 | $1.50 | -50% |
| Llama 3.1 70B(自托管) | 70B | $0.80 | $0.25 | -69% |
| Mistral Large 2 | 123B | $2.00 | $0.90 | -55% |
| Phi-3.5-mini(自托管) | 3.8B | $0.05 | $0.02 | -60% |
*数据要点:自托管开源模型现在的成本比专有API低10-100倍。这种价格暴跌是供应过剩的直接后果,并正在加速从按token付费模式的转变。*
关键参与者与案例研究
云服务商:补贴策略
- Amazon Web Services:AWS推出了“Bedrock免费套餐”,为Llama 3.1和Mistral等模型每月提供200万token。这不是慈善——而是需求生成策略。AWS报告称,免费套餐推出后,Bedrock使用量增长了300%,但每用户收入下降了40%。策略:吸引开发者入驻平台,然后向他们推销Guardrails和Knowledge Bases等高级功能。
- Google Cloud:Google的“TPU研究云”计划已向学术实验室捐赠了超过1亿美元的算力积分。作为回报,Google获得了研究突破的早期访问权以及未来客户的管道。著名项目包括AlphaFold时代的蛋白质折叠和天气预报模型。
- Microsoft Azure:Azure的“AI for Good”计划已向非营利组织分配了10,000块H100等效GPU。Microsoft还通过Azure AI Studio为其Phi-3模型提供免费推理,从而削弱了自家GPT-4的定价。
初创公司:套利玩家
- CoreWeave:最初是一家加密货币挖矿公司,CoreWeave转向GPU云,现在运营着50,000块H100。它提供竞价实例,价格为1.50美元/小时——比AWS p5.48xlarge定价低70%。CoreWeave的策略是在低迷时期批量购买硬件,以微薄利润出售,依靠规模取胜。该公司已筹集120亿美元债务来支持这一策略,押注需求最终会赶上。
- Lambda Labs:Lambda提供“GPU集群即服务”,客户可以以每GPU 2.00美元/小时的价格租用1,000块H100。他们还以15,000美元的价格出售翻新H100——原价的一半——因为企业正在卸载过剩容量。
科学计算:意外受益者
| 研究领域 | 捐赠算力小时数(2025年) | 关键突破 | 相比之前加速比 |
|---|---|---|---|
| 药物发现(MIT) | 200万GPU小时 | 识别出3种新型抗生素候选物 | 10倍 |
| 气候建模(Stanford) | 500万GPU小时 | 1公里分辨率全球天气模型 | 50倍 |
| 机器人仿真(Nvidia) | 1000万GPU小时 | 用于人形机器人的Isaac Sim训练 | 20倍 |
*数据要点:捐赠算力正在解锁科学突破,这些突破原本因成本过高而无法实现。*