超越规格表:企业级SSD如何成为AI的主动智能层

追求更高速度与容量的SSD竞赛已告一段落。一场更深刻、更具决定性的战役正拉开帷幕——胜负关键不再是原始性能参数,而在于固态硬盘能否智能管理AI推理产生的海量数据流。随着KV缓存需求爆炸式增长,企业级SSD正经历从底层重构,蜕变为GPU感知工作负载的主动合作伙伴。

受大语言模型推理的独特需求驱动,企业级存储范式正经历一代人以来最重大的转型。核心催化剂是关键值缓存(KV cache)——这种随上下文长度与并发用户数线性增长的内存结构。对于具备128K甚至100万上下文窗口、每秒处理数千查询的模型而言,所需KV缓存轻松突破数TB,远超高带宽内存的经济与物理极限。这迫使业界彻底重构内存-存储层级体系,将传统意义上的“热”数据推向曾被视为“温”甚至“冷”存储的领域:SSD。

此次迁移彻底改变了SSD的角色:从一个被动的海量存储仓库,转变为实时推理管线中主动且性能至关键的一层。新一代“智能SSD”正通过三大技术路径实现蜕变:采用PCIe 5.0/6.0接口与NVMe 2.0规范(如分区命名空间ZNS和KV-SSD)提升带宽与接口效率;搭载能识别AI工作负载模式的智能控制器;甚至集成计算核心,在数据迁移前执行过滤与精简操作。这场变革不仅关乎硬件,更意味着存储与计算架构的深度融合。当KV缓存从昂贵的HBM“溢出”至经济高效的SSD时,确保可预测的低延迟与最小化软件开销成为决胜关键。存储巨头、计算存储专业公司与超大规模云服务商正围绕这一新兴战场展开激烈角逐,重新定义数据中心的基础设施格局。

技术深度解析

这场技术革命的核心在于KV缓存瓶颈。在自回归推理过程中,Transformer模型需要关注序列中的所有历史标记。这些标记的嵌入以键和值的形式存储。缓存大小由公式决定:`批次大小 × 2 × 层数 × 注意力头数 × 头维度 × 序列长度`。以Llama 3 70B模型搭配128K上下文为例,单个活跃会话的缓存就可能超过150GB。扩展到数千个并发会话时,数TB级别的缓存成为标准需求。

HBM虽快,在此规模下却成本高昂、功耗巨大。行业因此采用分层方案:最新、最“热”的KV缓存片段驻留HBM,而大部分“温”缓存则溢出至企业级SSD。这产生了海量随机读取密集型工作负载,且对尾延迟有严苛要求。传统SSD架构针对顺序写入和混合负载优化,在此压力下难以为继。

创新正从三个层面展开:
1. 存储介质与接口:向PCIe 5.0及即将到来的PCIe 6.0过渡对带宽至关重要。更重要的是,NVMe 2.0规范中的分区命名空间(ZNS)与键值SSD(KV-SSD)具有颠覆性意义。ZNS允许主机控制数据布局,消除垃圾回收抖动——这是延迟不可预测的主要根源。KV-SSD原生支持键值接口,使主机能将整个KV存储管理卸载至硬盘,大幅降低软件开销。
2. 控制器智能化:下一代SSD控制器正变得能感知AI工作负载。三星、SK海力士等公司正在开发能识别访问模式(例如注意力层的顺序扫描)并主动预置数据的控制器。开源项目如三星的`OpenMPDK`提供了构建优化存储软件的框架,展示如何利用这些硬件特性最小化主机端数据移动。
3. 计算存储:最根本的转变是在SSD内部嵌入处理核心。这并非在SSD上运行LLM,而是在数据传输*前*执行数据精简任务。例如,SSD可为特定注意力操作过滤检索到的KV块,仅保留相关注意力头,从而减少80-90%的数据传输。由SNIA推动、ScaleFlux(已被收购)和三星SmartSSD产品体现的`计算存储驱动器`(CSD)概念,在AI预处理领域正获得关注。

| KV缓存存储方案 | 读取延迟 | 带宽 | 每GB成本(约) | 最佳适用场景 |
|---|---|---|---|---|
| HBM3e | 数十纳秒 | ~1.2 TB/s | 200-300美元 | 最热、活跃的缓存片段 |
| CXL 3.0附加内存 | 100-200纳秒 | ~400 GB/s | 50-80美元 | 扩展内存池,对CPU透明 |
| 高端ZNS/KV SSD (PCIe 5.0) | 10-50微秒 | ~10-14 GB/s | 0.5-1.0美元 | 温数据、大容量KV缓存层 |
| 传统企业级SSD | 50-100+微秒(含抖动) | ~7 GB/s | 0.3-0.6美元 | 通用存储,非最优选择 |

数据启示:表格揭示了清晰的性能-成本权衡层级。战略主战场在于“温缓存”层(ZNS/KV SSD),相较于CXL虽有10倍延迟代价,但相比HBM具备100倍成本优势,前提是延迟必须可预测且软件开销最小化。

关键厂商与案例研究

竞争格局正分化为三大阵营:传统NAND巨头、计算存储专业公司以及自研解决方案的超大规模云服务商。

传统巨头的自我革新:
* 三星:以全栈策略领先。其`PM9C1a` SSD强调能效——数据中心TCO的关键指标。更重要的是,三星`SmartSSD`搭载板载FPGA,允许用户部署自定义数据过滤功能。该公司积极推广ZNS,并与云服务商深度合作,针对AI工作负载调优FTL(闪存转换层)固件。
* SK海力士:凭借其在HBM领域的优势,推行“全内存解决方案”战略。其收购英特尔NAND业务后成立的`Solidigm`部门专注于针对读取密集型负载优化的高密度QLC硬盘。其创新在于服务质量(QoS)保证,即使硬盘写满也能确保可预测的低延迟,这对稳定的推理性能至关重要。
* 铠侠(西部数据):深度投入ZNS与软件定义闪存。其与英伟达在`Magnum IO`堆栈上的合作具有指向性,旨在创建GPU内存与基于SSD的缓存之间的直接低延迟路径。

专业公司与新架构:
* ScaleFlux(被Starblaze收购):曾是计算存储领域的先驱,其硬盘包含用于透明压缩和数据库加速的ASIC。其技术现正被重新定位,以支持AI工作负载的数据预处理任务。

延伸阅读

KV缓存32倍内存需求剧变:存储系统从数据仓库跃升为核心基础设施AI基础设施正经历一场地震式变革。Transformer推理中曾不起眼的KV缓存,其内存带宽需求竟高达传统工作负载的32倍。这一前所未有的要求正迫使存储系统从被动的数据仓库,转变为计算关键路径上的主动参与者,重新定义行业经济与技术格局。曲径科技上演学术“奇袭”,AI下一战:高效推理军备竞赛鸣枪曲径科技近日重磅宣布,聘请中国工程院院士郑纬民出任首席科学顾问,清华大学教授吴永伟担任首席科学家。此举远非寻常人才引进,而是直指AI产业核心痛点——标志着行业焦点正从盲目追求模型规模,转向攻克生产级高效、低成本AI推理这一关键瓶颈。十万卡云端竞速:阿里云自动驾驶AI基础设施如何重塑汽车研发自动驾驶的竞争前线已从道路转向云端。超过十万张自研AI加速卡在公有云平台上的里程碑式部署,标志着自动驾驶技术研发范式的深刻变革——从分散的硬件采购模式,转向垂直整合、云原生的AI基础设施新模型。周鸿祎AI数字分身:从身份复刻到专业能力的范式转移以“同事.skill”为代表的AI“技能包”风靡市场,也引发了关于职场角色复制的伦理争议。对此,360创始人周鸿祎给出了范式级的回应:他并未复制个人风格,而是将数十年积累的网络安全专业能力“提炼”成一个AI数字分身,将行业焦点从身份模仿转向

常见问题

这次公司发布“Beyond the Spec Sheet: How Enterprise SSDs Are Becoming AI's Active Intelligence Layer”主要讲了什么?

The paradigm for enterprise storage is undergoing its most significant shift in a generation, driven entirely by the unique demands of large language model inference. The core cata…

从“Samsung SmartSSD vs traditional SSD for AI inference”看,这家公司的这次发布为什么值得关注?

The technical revolution is centered on the KV cache bottleneck. During autoregressive inference, a transformer model must attend to all previous tokens in a sequence. The embeddings for these tokens are stored as keys a…

围绕“ZNS SSD performance benchmarks for LLM serving”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。