技术深度解析
CoreWeave与Anthropic的合作,围绕着一系列通用云平台难以在成本与性能上同时满足的技术要求而构建。训练像Claude 3.5 Sonnet或其继任者这样的前沿模型,不仅仅是聚合GPU那么简单,它需要一个整体优化的技术栈。
网络架构: 在拥有数千个GPU的训练集群中,最大的瓶颈往往不是计算,而是通信。跨数千个芯片同步梯度和参数需要超低延迟、高带宽的网络。CoreWeave的基础设施基于NVIDIA Quantum-2 InfiniBand(400 Gb/s)构建,并利用可扩展分层聚合与规约协议(SHARP)实现网络内计算。这减少了等待网络同步的时间,使GPU保持高利用率。相比之下,传统云通常依赖更通用的以太网结构,这会引入更高的延迟和抖动,直接导致训练时间延长和成本增加。
软件与编排: 软件层同样至关重要。CoreWeave以Kubernetes原生编排为基础,但通过Kubernetes GPU Scheduler等项目以及与NVIDIA NGC容器注册表和NeMo框架的深度集成,针对GPU工作负载进行了大量修改。专用软件栈最大限度地减少了集群中的“噪音”——即由多租户干扰引起的不可预测的性能波动。对Anthropic而言,这意味着可预测、可重复的训练过程。开源社区也反映了这种专业化趋势。像Run:ai(一个基于Kubernetes的AI研究工作负载管理器)和Determined AI(现属HPE)这类项目,通过提供可复现、高吞吐量的训练流水线(与通用容器编排截然不同),正获得越来越多的关注。
性能基准: 虽然全栈基准数据是专有的,但组件级别的比较揭示了差距。下表说明了AI优化技术栈与通用高性能云服务在网络方面的优势。
| 网络指标 | AI优化技术栈(InfiniBand) | 通用高性能云(以太网) | 对训练的影响 |
|---|---|---|---|
| 延迟(GPU到GPU) | <1微秒 | 10-50微秒 | 极大减少梯度同步时间 |
| 单GPU带宽 | 400 Gb/s(专用) | 100-200 Gb/s(共享) | 更快的数据流水线供给,更少拥塞 |
| 网络内计算 | 支持(SHARP) | 不支持 | 将规约操作从CPU/GPU卸载,提高效率 |
数据要点: 延迟和专用带宽的数量级差异,直接转化为更高的GPU利用率(在优化集群中通常 >90%,而在共享环境中为70-80%)以及更快的训练求解时间,这能为大模型的开发周期节省数周时间。
存储: AI训练需要频繁地对海量模型状态(TB级)进行检查点保存。优化的基础设施使用如Lustre或WEKA这样的高吞吐量并行文件系统,直接连接到计算结构,避免了通用云中常见的对象存储层级带来的延迟。
关键参与者与案例研究
整个生态正分化为几个鲜明的阵营:AI原生专业厂商、积极应对的超大规模云服务商以及芯片挑战者。
AI原生专业厂商:
* CoreWeave: 最初为GPU渲染而创立,后转向AI,围绕NVIDIA硬件构建数据中心。其价值主张是纯粹的极致性能和可用性,常声称其LLM训练性价比是通用云的3-5倍。其近期23亿美元的债务融资轮次凸显了这场竞赛的资本密集度。
* Lambda Labs: 提供专用GPU集群和软件平台。其差异化在于自有硬件设计(Lambda GPU Cloud)以及对研究人员的强烈关注,为原始计算提供了更简洁的接口。
* Crusoe Energy: 定位独特,利用闲置能源(火炬气、过剩可再生能源)为模块化数据中心供电,旨在为计算密集型AI工作负载提供成本和可持续性优势。
超大规模云服务商的应对: AWS、Azure和GCP并未停滞不前。它们正在推出AI优化实例(例如,AWS EC2 P5实例在超级集群中集成了20,000个H100,Azure ND H100 v5系列),并构建专用的AI基础设施,如微软的Maia AI加速器和谷歌的TPU v5p。它们的优势在于与更广泛的SaaS产品组合(Office 365、Workspace)及企业客户关系的整合。然而,其成本结构和多租户架构可能会限制峰值性能。
芯片挑战者: 这种基础设施的转变也为NVIDIA的替代者创造了机会。AMD的MI300X正被所有超大规模云服务商和专业厂商集成。像Groq(以其独特的LPU实现超高速推理)和SambaNova(以其数据流架构)这样的初创公司,正直接与云提供商和大型企业合作,提供替代性的硬件和软件栈。