CoreWeave与Anthropic联手:AI基础设施垂直整合时代正式开启

Hacker News April 2026
来源:Hacker NewsAI infrastructureAnthropicAI hardware归档:April 2026
专业AI云服务商CoreWeave与顶尖AI实验室Anthropic达成里程碑式协议,为未来Claude模型锁定关键GPU算力。这远非普通采购合同,它标志着AI基础设施正从通用云计算,向垂直整合、AI优化的技术栈全面转向,这一转变将决定未来AI发展的速度与格局。

CoreWeave与Anthropic近期巩固的合作伙伴关系,是AI基础设施演进的关键转折点。根据协议,CoreWeave将为Anthropic提供专用的大规模GPU集群,该集群主要基于NVIDIA最新的H100及即将推出的Blackwell架构处理器,用于训练和服务未来迭代的Claude模型家族。此举不仅为Anthropic锁定了战略资源,也印证了CoreWeave的核心论点:AI工作负载需要一种与传统企业计算根本不同的基础设施方案。

其意义远超两家公司范畴,凸显了云市场日益明显的分化趋势。以亚马逊AWS、微软Azure和谷歌云平台为代表的传统超大规模云服务商,其通用型架构在应对前沿AI训练所需的极致性能与成本效率时,正面临挑战。此次合作揭示了一个更广泛的行业动向:为特定任务深度优化的垂直基础设施栈正在崛起,它们通过从网络、存储到编排软件的全栈定制,为AI研发提供确定性更强的性能与效率。这预示着AI竞赛的下半场,不仅是算法与数据的比拼,更是底层基础设施专用化与集成度的较量。未来,能否获得并高效利用这类高度优化的算力集群,将成为AI实验室保持领先优势的关键。

技术深度解析

CoreWeave与Anthropic的合作,围绕着一系列通用云平台难以在成本与性能上同时满足的技术要求而构建。训练像Claude 3.5 Sonnet或其继任者这样的前沿模型,不仅仅是聚合GPU那么简单,它需要一个整体优化的技术栈。

网络架构: 在拥有数千个GPU的训练集群中,最大的瓶颈往往不是计算,而是通信。跨数千个芯片同步梯度和参数需要超低延迟、高带宽的网络。CoreWeave的基础设施基于NVIDIA Quantum-2 InfiniBand(400 Gb/s)构建,并利用可扩展分层聚合与规约协议(SHARP)实现网络内计算。这减少了等待网络同步的时间,使GPU保持高利用率。相比之下,传统云通常依赖更通用的以太网结构,这会引入更高的延迟和抖动,直接导致训练时间延长和成本增加。

软件与编排: 软件层同样至关重要。CoreWeave以Kubernetes原生编排为基础,但通过Kubernetes GPU Scheduler等项目以及与NVIDIA NGC容器注册表和NeMo框架的深度集成,针对GPU工作负载进行了大量修改。专用软件栈最大限度地减少了集群中的“噪音”——即由多租户干扰引起的不可预测的性能波动。对Anthropic而言,这意味着可预测、可重复的训练过程。开源社区也反映了这种专业化趋势。像Run:ai(一个基于Kubernetes的AI研究工作负载管理器)和Determined AI(现属HPE)这类项目,通过提供可复现、高吞吐量的训练流水线(与通用容器编排截然不同),正获得越来越多的关注。

性能基准: 虽然全栈基准数据是专有的,但组件级别的比较揭示了差距。下表说明了AI优化技术栈与通用高性能云服务在网络方面的优势。

| 网络指标 | AI优化技术栈(InfiniBand) | 通用高性能云(以太网) | 对训练的影响 |
|---|---|---|---|
| 延迟(GPU到GPU) | <1微秒 | 10-50微秒 | 极大减少梯度同步时间 |
| 单GPU带宽 | 400 Gb/s(专用) | 100-200 Gb/s(共享) | 更快的数据流水线供给,更少拥塞 |
| 网络内计算 | 支持(SHARP) | 不支持 | 将规约操作从CPU/GPU卸载,提高效率 |

数据要点: 延迟和专用带宽的数量级差异,直接转化为更高的GPU利用率(在优化集群中通常 >90%,而在共享环境中为70-80%)以及更快的训练求解时间,这能为大模型的开发周期节省数周时间。

存储: AI训练需要频繁地对海量模型状态(TB级)进行检查点保存。优化的基础设施使用如Lustre或WEKA这样的高吞吐量并行文件系统,直接连接到计算结构,避免了通用云中常见的对象存储层级带来的延迟。

关键参与者与案例研究

整个生态正分化为几个鲜明的阵营:AI原生专业厂商、积极应对的超大规模云服务商以及芯片挑战者。

AI原生专业厂商:
* CoreWeave: 最初为GPU渲染而创立,后转向AI,围绕NVIDIA硬件构建数据中心。其价值主张是纯粹的极致性能和可用性,常声称其LLM训练性价比是通用云的3-5倍。其近期23亿美元的债务融资轮次凸显了这场竞赛的资本密集度。
* Lambda Labs: 提供专用GPU集群和软件平台。其差异化在于自有硬件设计(Lambda GPU Cloud)以及对研究人员的强烈关注,为原始计算提供了更简洁的接口。
* Crusoe Energy: 定位独特,利用闲置能源(火炬气、过剩可再生能源)为模块化数据中心供电,旨在为计算密集型AI工作负载提供成本和可持续性优势。

超大规模云服务商的应对: AWS、Azure和GCP并未停滞不前。它们正在推出AI优化实例(例如,AWS EC2 P5实例在超级集群中集成了20,000个H100,Azure ND H100 v5系列),并构建专用的AI基础设施,如微软的Maia AI加速器和谷歌的TPU v5p。它们的优势在于与更广泛的SaaS产品组合(Office 365、Workspace)及企业客户关系的整合。然而,其成本结构和多租户架构可能会限制峰值性能。

芯片挑战者: 这种基础设施的转变也为NVIDIA的替代者创造了机会。AMD的MI300X正被所有超大规模云服务商和专业厂商集成。像Groq(以其独特的LPU实现超高速推理)和SambaNova(以其数据流架构)这样的初创公司,正直接与云提供商和大型企业合作,提供替代性的硬件和软件栈。

更多来自 Hacker News

多智能体 AI 系统革命性重塑自动化漏洞发现格局网络安全格局正经历由多智能体大语言模型系统驱动的根本性变革。传统的漏洞扫描严重依赖静态签名和基于规则的引擎,往往产生高误报率,需要大量人工分类并延误修复工作,导致安全团队负担过重且响应滞后。新兴范式引入了协作式 AI 智能体,战略性地在扫描Webflow 祭出“代理优先”架构,无代码 Web 开发迎来范式革命Webflow 正在执行一次基础设施的根本性 pivot,其战略重心已从视觉设计工具转向成为新兴代理经济的首要编排层。这一转型重新定义了网站的本质:从静态的展示层转变为动态的、机器可读的接口,具备自主协商交易的能力。通过直接将语义元数据嵌入后 Web 时代:AI Agent 弃用 HTTPS 转向轻量级协议支撑人工智能的数字基础设施正在经历一场静默却深刻的转型,这场变革虽未大张旗鼓,却影响深远。随着自主 Agent 成为在线信息的主要消费者,专为人类视觉消费设计的现代 Web 遗留架构正日益显得过时,无法适应自动化流程的高吞吐要求。沉重的 J查看来源专题页Hacker News 已收录 4054 篇文章

相关专题

AI infrastructure270 篇相关文章Anthropic201 篇相关文章AI hardware35 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

Anthropic与微软Maia芯片谈判:定制AI硬件联盟的新纪元Anthropic正与微软就优先获取Maia AI芯片进行深入谈判。这款专为大规模AI工作负载设计的定制芯片,若达成独家协议,将标志着行业从依赖通用GPU向战略性垂直整合硬件合作伙伴关系的根本转变。AI巨头忽视邮件安全:Anthropic 23%域名存在伪造漏洞一项针对Anthropic域名基础设施的最新分析显示,其23%的已验证域名缺乏基础电子邮件认证协议,极易遭受伪造和钓鱼攻击。这一发现揭示了AI行业在追求前沿模型的同时,对基础网络安全存在令人不安的忽视。Anthropic用Rust重写Bun运行时:AI加速自身基础设施进化Anthropic已将基于Rust重写的Bun JavaScript运行时合并至其核心基础设施,借助AI辅助编码与自动化测试,将传统上耗时数月的重写工程压缩至惊人的短周期内完成。这标志着关键转折:AI实验室正利用AI加速自身工具链的进化,而OpenAI与Anthropic转向合资模式:卖的是成果,不是APIOpenAI与Anthropic几乎同时推出企业级合资项目,彻底超越API销售范畴。这些新实体将直接建设基础设施、管理合规、将AI融入核心业务流程,标志着从技术授权向成果交付与风险共担的根本性转变。

常见问题

这次公司发布“CoreWeave-Anthropic Deal Signals AI Infrastructure's Vertical Future”主要讲了什么?

The recently solidified partnership between CoreWeave and Anthropic represents a pivotal moment in the evolution of AI infrastructure. Under the agreement, CoreWeave will provide A…

从“CoreWeave vs AWS price performance AI training”看,这家公司的这次发布为什么值得关注?

The CoreWeave-Anthropic partnership is engineered around a specific set of technical imperatives that general-purpose clouds struggle to meet at competitive cost and performance. Training a frontier model like Claude 3.5…

围绕“Anthropic Claude model training infrastructure requirements”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。