技术深度解析
Anthropic的处理器网络调整,代表了一种专注于计算异构性与工作负载优化的复杂工程战略。该公司正在实施业内人士所称的“计算组合”策略——通过多样化处理器类型,将特定的AI工作负载与其最优的硬件执行环境相匹配。
在架构层面,这涉及创建抽象层,能够动态地将不同的计算任务路由至专用处理器。对于训练工作负载,Anthropic仍严重依赖NVIDIA的H100及即将推出的Blackwell架构GPU,看重其成熟的软件生态和内存带宽。然而,对于推理工作负载——尤其是那些需要为实时应用提供低延迟的任务——该公司正越来越多地部署来自Groq、SambaNova和Cerebras等公司的专用AI加速器。这些处理器提供了确定性延迟特性,这对交互式AI应用至关重要。
实现这种异构方法的一项关键技术创新,是开发了复杂的工作负载调度器和编译器框架,能够自动将计算图在不同处理器类型间进行分区和分发。据报道,Anthropic已增强了其内部编排层,该层基于Ray等开源分布式计算框架构建,并增加了专有的硬件感知调度扩展。
GitHub仓库 `vllm-project/vllm`(拥有超过25,000颗星)是这类基础设施软件重要性日益凸显的例证。这个为LLM设计的高吞吐量、内存高效的推理引擎,展示了专用软件如何能显著提升硬件利用率。同样,像 `microsoft/DeepSpeed`(超过30,000颗星)这样的框架,通过优化内存使用和通信模式,实现了在异构硬件上更高效的训练。
| 处理器类型 | 主要用例 | 延迟特性 | 能效 (FLOPS/W) | 每FLOP成本 (相对值) |
|---|---|---|---|---|
| NVIDIA H100 | 训练 & 高复杂度推理 | 可变,5-50ms | 0.8-1.2 | 1.0 (基准) |
| Groq LPU | 确定性推理 | 固定,<1ms | 2.5-3.0 | 0.7 |
| Cerebras CS-3 | 大模型训练 | 批量优化 | 1.5-2.0 | 0.9 |
| AWS Inferentia2 | 成本优化推理 | 2-10ms | 2.0-2.5 | 0.5 |
| Google TPU v5e | 云原生训练/推理 | 3-15ms | 1.8-2.2 | 0.8 |
数据洞察:上表揭示了一个碎片化但高度专业化的处理器格局,没有任何单一架构能主导所有用例。能效和每FLOP成本存在显著差异,这为针对特定工作负载选择硬件创造了经济激励。像Groq LPU这样的确定性延迟处理器,尽管绝对成本较高,但在实时应用中占据了高端定位。
关键参与者与案例研究
基础设施竞争涉及技术栈的多个层面,从芯片设计商到云服务提供商,再到AI实验室自身。NVIDIA在训练硬件领域保持主导地位,但在推理工作负载方面面临越来越大的压力,因为专用替代方案在特定应用中提供了更好的性价比。
Anthropic的战略方法既模仿又区别于竞争对手。OpenAI选择与Microsoft Azure深度整合,实质上将基础设施战略外包,以换取有保障的算力容量和资本投资。这种合作伙伴模式提供了稳定性,但降低了架构灵活性。Google DeepMind则利用其母公司的TPU基础设施,创造了紧密的软硬件协同设计机会,但限制了外部合作伙伴的选择。Meta的路径代表了第三条道路:大规模的内部基础设施投资,包括定制设计的AI加速器(MTIA芯片),并辅以大量的NVIDIA GPU集群。
初创公司也在推行激进的基础设施战略。Cohere与多家云服务提供商建立了合作伙伴关系,同时维护自己的编排层,创造了其CTO Nick Frosst所描述的“云无关AI”。Mistral AI则拥抱开放权重模型策略,通过支持在从消费级GPU到企业级加速器的多样化硬件上部署,降低了推理成本。
研究人员正在推动实现这种基础设施灵活性的架构创新。斯坦福大学和together.ai的Chris Ré团队开创了在异构硬件上进行高效推理的技术。他们在推测解码和模型蒸馏方面的工作,使得大型模型能够在性能较低的硬件上高效运行。同样,来自加州大学伯克利分校研究人员的vLLM项目展示了仅通过内存优化,就能将现有硬件上的推理吞吐量提升三倍。
| 公司 | 基础设施战略 | 主要硬件合作伙伴 | 编排方法 |
|---|---|---|---|
| Anthropic | 异构计算组合,追求计算主权 | NVIDIA, Groq, Cerebras, AWS等 | 增强型内部编排层,基于Ray等开源框架 |
| OpenAI | 深度云集成(Azure) | Microsoft Azure (NVIDIA GPU) | 深度依赖Azure的AI栈 |
| Google DeepMind | 垂直整合(TPU优先) | Google TPU | 与TPU架构深度绑定的软件栈 |
| Meta | 混合内部定制与商用硬件 | 自研MTIA芯片,NVIDIA GPU | 大规模内部调度系统 |
| Cohere | 多云中立,自有编排层 | AWS, Google Cloud, Oracle等 | 云无关的抽象层 |
| Mistral AI | 开放权重,硬件无关部署 | 支持广泛硬件(从消费级到企业级) | 优化跨平台部署的框架 |