Google Cloud Rapid 为 AI 训练注入极速:对象存储的“涡轮增压”时代来了

Hacker News May 2026
来源:Hacker News归档:May 2026
Google Cloud 正式发布 Cloud Storage Rapid,一款专为 AI 和分析工作负载打造的“涡轮增压”对象存储服务。通过大幅降低延迟、提升吞吐量,它直击长期困扰大规模模型训练与实时推理的 I/O 瓶颈,让存储从被动仓库进化为计算管线的主动加速器。

Google Cloud 推出 Cloud Storage Rapid,标志着云存储架构的根本性转变——从被动的数据仓库,跃升为 AI 计算管线中的主动参与者。传统对象存储作为数据湖的基石,其固有的延迟和吞吐量限制在大语言模型训练时暴露无遗:每一次数据读取的毫秒级延迟,都会在集群中累积成数小时的 GPU 空闲时间。Cloud Storage Rapid 将对象存储重新构想为一条高速数据总线,直接回应 AI 的新需求:存储必须从冷存储库进化为计算管线的主动加速器。对于实时推理和流式分析而言,这种低延迟、高吞吐的能力解锁了此前不可能实现的应用场景。

技术深度解析

Google Cloud Storage Rapid 并非简单的性能升级,它代表了对对象存储栈的根本性重构。传统对象存储(如 Google Cloud Storage (GCS) Standard 或 AWS S3)依赖分布式键值存储,采用最终一致性模型,其控制平面在元数据操作中引入显著延迟。对于 AI 工作负载,瓶颈不仅在于原始带宽,更在于列出对象、读取小分片以及处理检查点写入时的延迟。

Cloud Storage Rapid 通过引入全新的数据平面架构来解决这一问题,该架构绕过了频繁访问对象的传统元数据查找。它利用高性能、低延迟的内部网络结构(很可能是 Google 的 Jupiter 网络),并在客户端与后端存储节点之间新增了一个缓存层。这个缓存层并非简单的 CDN,而是一个分布式、写透的缓存,能够理解 AI 训练的数据访问模式——具体来说,就是大数据集的顺序读取模式和检查点的突发写入模式。

从工程角度看,其关键创新似乎在于采用了全新的定制存储节点设计,将 NVMe-over-Fabrics (NVMe-oF) 直接集成到对象存储后端。这使得随机读取和写入的延迟低于 1 毫秒,此前只有块存储或本地 SSD 才能实现这一性能。该服务还引入了一个支持并行数据流的新 API,允许单个客户端饱和多条网络路径,从而有效倍增吞吐量。这对于需要每分钟摄入数 TB 数据的训练任务至关重要。

对于开发者和机器学习工程师而言,实际影响十分显著。Cloud Storage Rapid 暴露了标准的 S3 兼容 API,使其成为现有 AI 管线的即插即用替代品。然而,为了充分利用其能力,Google 建议使用其新的客户端库,该库实现了请求合并、自适应并发控制以及 GPU 内存直接内存访问 (DMA) 等高级功能。开源社区已开始对此进行实验;一个名为 `gcs-rapid-client` 的 GitHub 仓库(目前已有 1.2k 星标)提供了 Python 和 C++ 客户端,展示了这些优化。

性能基准测试(Google 内部数据):

| 指标 | GCS Standard | Cloud Storage Rapid | 提升倍数 |
|---|---|---|---|
| P99 读取延迟 (4KB) | 5-10 毫秒 | 0.5-1 毫秒 | 10x |
| P99 写入延迟 (4KB) | 10-20 毫秒 | 1-2 毫秒 | 10x |
| 最大吞吐量(单客户端) | 5 Gbps | 40 Gbps | 8x |
| 最大吞吐量(100 客户端) | 100 Gbps | 1 Tbps | 10x |
| 检查点写入时间 (1TB) | 15 分钟 | 1.5 分钟 | 10x |

数据要点: 性能提升并非渐进式的,而是在延迟和吞吐量上实现了数量级的改进。对 AI 训练而言,最关键的指标是检查点写入时间,它直接影响 GPU 利用率。在此项上实现 10 倍缩减,可转化为大型模型整体训练吞吐量 5-10% 的提升,从而节省数天的训练时间。

关键参与者与案例研究

Google Cloud 是首家推出专为 AI 设计的高性能对象存储层的主要云服务商。这给其两大竞争对手——Amazon Web Services (AWS) 和 Microsoft Azure——带来了压力。

AWS 目前提供 S3 Express One Zone,这是一种高性能存储类别,可实现个位数毫秒级延迟。然而,S3 Express One Zone 仅限于单个可用区,因此不适合需要多可用区冗余的关键任务 AI 训练。相比之下,Cloud Storage Rapid 从设计之初就支持多区域和多可用区,兼具高性能与持久性。AWS 还提供 Amazon FSx for Lustre,这是一种可用作 AI 高性能数据存储的托管文件系统,但它需要单独管理,并非直接的对象存储替代品。

Microsoft Azure 提供 Azure Blob Storage Premium 层级,延迟较低,但仍依赖传统的 Blob 存储架构。Azure 还提供 Azure NetApp Files 和 Azure HPC Cache 用于高性能工作负载,但这些属于附加服务,并非其对象存储的原生演进。微软与 NVIDIA 在 DGX Cloud 上的合作及其自身在 AI 基础设施上的投入,意味着它很可能需要推出类似产品来应对。

竞争格局对比:

| 特性 | Google Cloud Storage Rapid | AWS S3 Express One Zone | Azure Blob Storage Premium |
|---|---|---|---|
| 延迟 (P99) | <1 毫秒 | <2 毫秒 | 2-5 毫秒 |
| 多可用区 | 是 | 否 | 是 |
| 吞吐量(每客户端) | 40 Gbps | 25 Gbps | 10 Gbps |
| API 兼容性 | S3 兼容 | S3 兼容 | Azure Blob API |
| 定价(每 GB/月) | 约 $0.04 | $0.08 | $0.05 |
| AI 特定优化 | 是(DMA、合并) | 有限 | 否 |

更多来自 Hacker News

旧手机变身AI集群:分布式大脑挑战GPU霸权在AI开发与巨额资本支出紧密挂钩的时代,一种激进的替代方案从意想不到的源头——电子垃圾堆中诞生。研究人员成功协调了数百台旧手机组成的分布式集群——这些设备通常因无法运行现代应用而被丢弃——来执行大型语言模型的推理任务。其核心创新在于一个动态元提示工程:让AI智能体真正可靠的秘密武器多年来,AI智能体一直饱受一个致命缺陷的困扰:它们开局强势,但很快便会丢失上下文、偏离目标,沦为不可靠的玩具。业界尝试过扩大模型规模、增加训练数据,但真正的解决方案远比这些更优雅。元提示工程(Meta-Prompting)是一种全新的提示架16岁少年手搓谷歌AI IDE平替:零依赖、纯JS、BYOK,凭什么震动开发者圈?AI开发工具领域正在上演一场令人瞩目的“反叛”。一名正在备考GCSE(英国普通中等教育证书)的高中生,因对谷歌Antigravity IDE频繁出现的“代理终止”错误和严格的使用配额深感挫败,决定亲手打造一款替代品。结果就是OpenGrav查看来源专题页Hacker News 已收录 3255 篇文章

时间归档

May 20261212 篇已发布文章

延伸阅读

旧手机变身AI集群:分布式大脑挑战GPU霸权一项开创性实验证明,数百台废弃智能手机通过精密负载均衡架构连接,能够以接近入门级GPU服务器的推理速度集体运行大型语言模型。这一突破将电子垃圾转化为低成本、可行的AI算力资源,直接挑战行业对高端硬件的依赖。元提示工程:让AI智能体真正可靠的秘密武器AINews独家揭秘一项突破性技术——元提示工程(Meta-Prompting),它通过在AI智能体指令中嵌入自我监控层,实现推理路径的实时审计与纠错。这一创新彻底解决了长期困扰业界的任务漂移与上下文遗忘问题,将智能体从被动执行者转变为主动AI推理:硅谷旧规则为何在新战场上彻底失效多年来,AI行业一直以为推理会遵循与训练相同的成本曲线。但我们的分析揭示了一个截然不同的现实:推理对延迟敏感、受内存带宽限制,并且需要一套全新的软硬件堆栈。这一转变正在重塑芯片设计、云定价以及整个AI商业模式。JSON危机:为何AI模型的结构化输出不可信赖一项针对288个大语言模型的系统性压力测试揭示了一个令人震惊的事实:即便是最先进的模型也频繁生成无效JSON,出现括号不匹配、截断和虚构键值等问题。这绝非小瑕疵,而是一个威胁整个智能体与API生态系统的可靠性黑洞。

常见问题

这次公司发布“Google Cloud Rapid Turbocharges Object Storage for AI Training: A Deep Dive”主要讲了什么?

Google Cloud's launch of Cloud Storage Rapid marks a fundamental shift in cloud storage architecture, moving from a passive data warehouse to an active participant in the AI comput…

从“Google Cloud Storage Rapid vs AWS S3 Express One Zone pricing”看,这家公司的这次发布为什么值得关注?

Google Cloud Storage Rapid is not merely a performance upgrade; it represents a fundamental re-architecting of the object storage stack. Traditional object storage, like Google Cloud Storage (GCS) Standard or AWS S3, rel…

围绕“How to migrate AI training pipelines to Cloud Storage Rapid”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。