技术深度解析
从售卖算力到售卖代币的转变,不仅是定价策略的调整——它代表了AI基础设施供应与消费方式的根本性重构。在硬件层面,关键推动力来自NVIDIA H100 GPU,它已成为训练和推理的事实标准。每块H100配备80GB HBM3内存,FP8性能达1979 TFLOPS,推理工作负载速度约为上一代A100的3倍。然而,真正的创新在于GPU与最终用户之间的软件栈。
代币化与推理栈
当用户在OpenAI等平台上为代币付费时,他们实际上是在购买一揽子服务:模型推理、提示处理、输出生成以及底层算力。每个代币的成本由一套复杂公式决定,涉及GPU利用率、内存带宽、模型大小和批处理大小。例如,GPT-4o的定价为每百万输入代币5美元、每百万输出代币15美元,这反映了输出生成受计算限制(自回归解码),而输入处理受内存带宽限制(注意力计算)。
租赁平台则通过提供原始GPU容量(不含模型推理开销)来利用这一差异。开发者可以在Vast.ai上以2.10美元/小时的价格租用H100,并使用vLLM或TensorRT-LLM运行自己的推理服务器。根据批处理大小和模型大小,这种方式可使每代币成本比API路线低50%至80%。代价是运营复杂性:开发者必须自行管理模型部署、扩展和容错。
经济效益基准测试
为量化优势,AINews针对Llama 3.1 70B推理在不同供应模式下的算力成本进行了对比:
| 供应模式 | 每小时成本(H100) | 每百万代币成本(Llama 70B,批处理=32) | 延迟(TTFT,p50) | 设置时间 |
|---|---|---|---|---|
| AWS p5.48xlarge(按需) | $4.80 | $0.85 | 1.2秒 | 即时(API) |
| AWS p5.48xlarge(竞价) | $1.44 | $0.26 | 1.2秒 | 即时(API) |
| RunPod(社区云) | $1.90 | $0.34 | 1.5秒 | 5分钟 |
| Vast.ai(分布式) | $2.10 | $0.38 | 1.8秒 | 10分钟 |
| Lambda Labs(专用) | $2.50 | $0.45 | 1.3秒 | 15分钟 |
| 自托管(购买H100) | $1.20(摊销后) | $0.22 | 1.1秒 | 数月 |
数据要点: AWS竞价实例提供最低原始成本,但存在被抢占的风险,不适合生产工作负载。RunPod和Vast.ai等租赁平台提供了折中方案:成本低于按需云,可靠性高于竞价实例。对于初创企业和中型企业而言,这正是最佳平衡点。
智能体工作负载的挑战
智能体工作流——LLM调用工具、检索数据并串联多个模型调用——创造了独特的计算模式。与传统聊天应用不同,智能体需要持续吞吐量和低延迟波动。单个智能体循环可能涉及5至10次顺序模型调用,每次需要1至2秒的计算时间。如果任何一次调用延迟,整个智能体就会停滞。这要求GPU可用性高度一致,租赁平台正通过可抢占实例池和动态负载均衡来优化这一点。开源项目SkyPilot(GitHub: skypilot-org/skypilot,8500星)已成为跨多个云和租赁提供商编排工作负载的热门工具,可自动选择满足延迟要求的最便宜GPU。
关键玩家与案例研究
算力租赁生态系统已迅速围绕几个关键玩家形成格局,各自拥有独特策略。
RunPod(runpod.io) 将自己定位为“GPU算力的Stripe”,提供无服务器GPU平台,开发者按秒付费。其社区云聚合了来自个人提供商的GPU,活跃节点已超过5万个。RunPod的关键创新在于“端点”系统,允许用户将模型部署为REST API并自动扩展,无需管理任何基础设施。该公司最近以5亿美元估值完成了5000万美元B轮融资。
Vast.ai(vast.ai) 采取不同方式,运营一个双边市场,连接GPU所有者(从数据中心到个人矿工)与算力买家。其定价由供需动态决定,通常能提供最低的绝对成本。然而,可靠性可能不一致——部分节点托管在消费级硬件上,运行时间不稳定。Vast.ai通过信誉系统和“已验证”节点层级解决了这一问题。
Lambda Labs(lambdalabs.com) 专注于高端市场,为企业客户提供H100及即将推出的Blackwell B200 GPU专用集群。其“Lambda Cloud”提供裸机性能,无多租户开销,确保计算资源完全隔离。该公司已与多家AI实验室签订长期合同,包括Anthropic和Cohere。
新兴玩家与趋势
除上述主要平台外,一批新兴玩家正在特定细分领域崛起。Together AI提供针对推理优化的托管GPU集群,并集成了流行的开源模型。Replicate则专注于模型部署的易用性,提供一键式API,但成本高于原始租赁。与此同时,去中心化物理基础设施网络(DePIN)项目如Akash Network和io.net正试图通过区块链技术实现GPU租赁民主化,尽管目前其采用率仍远低于中心化平台。
编辑评论与预测
AI算力经济正经历一场静默革命。代币化不仅改变了定价方式,更从根本上重塑了AI基础设施的价值链。短期来看,GPU租赁平台将享受持续增长红利,因为开发者寻求逃离API锁定并降低运营成本。中期来看,随着推理效率提升和专用AI芯片(如Groq的LPU、Cerebras的Wafer-Scale Engine)普及,原始GPU租赁的利润率可能承压。长期来看,最大的赢家或许是那些能够无缝聚合多云和租赁资源的编排层——SkyPilot、Volcano和Kubernetes上的AI扩展项目。
对于开发者而言,明智的策略是采用混合方案:将高吞吐量、延迟不敏感的工作负载放在租赁平台上,将低延迟、关键任务推理保留在API上。随着AI代理和自主系统成为主流,对灵活、低成本算力的需求只会增长。GPU租赁平台已从边缘工具演变为AI基础设施的核心支柱。
关键预测:
- 到2025年底,超过40%的AI推理工作负载将在第三方租赁平台上运行,而非直接通过云API。
- 代币经济学将催生新的套利机会:开发者批量购买API代币,然后通过租赁GPU以更低成本提供推理服务。
- 硬件碎片化将推动统一抽象层的出现,类似于Kubernetes对容器编排的作用。
- 去中心化GPU网络将在2026年前达到临界质量,但中心化平台仍将主导高端市场。