技术深度解析
这场技术革命的核心在于KV缓存瓶颈。在自回归推理过程中,Transformer模型需要关注序列中的所有历史标记。这些标记的嵌入以键和值的形式存储。缓存大小由公式决定:`批次大小 × 2 × 层数 × 注意力头数 × 头维度 × 序列长度`。以Llama 3 70B模型搭配128K上下文为例,单个活跃会话的缓存就可能超过150GB。扩展到数千个并发会话时,数TB级别的缓存成为标准需求。
HBM虽快,在此规模下却成本高昂、功耗巨大。行业因此采用分层方案:最新、最“热”的KV缓存片段驻留HBM,而大部分“温”缓存则溢出至企业级SSD。这产生了海量随机读取密集型工作负载,且对尾延迟有严苛要求。传统SSD架构针对顺序写入和混合负载优化,在此压力下难以为继。
创新正从三个层面展开:
1. 存储介质与接口:向PCIe 5.0及即将到来的PCIe 6.0过渡对带宽至关重要。更重要的是,NVMe 2.0规范中的分区命名空间(ZNS)与键值SSD(KV-SSD)具有颠覆性意义。ZNS允许主机控制数据布局,消除垃圾回收抖动——这是延迟不可预测的主要根源。KV-SSD原生支持键值接口,使主机能将整个KV存储管理卸载至硬盘,大幅降低软件开销。
2. 控制器智能化:下一代SSD控制器正变得能感知AI工作负载。三星、SK海力士等公司正在开发能识别访问模式(例如注意力层的顺序扫描)并主动预置数据的控制器。开源项目如三星的`OpenMPDK`提供了构建优化存储软件的框架,展示如何利用这些硬件特性最小化主机端数据移动。
3. 计算存储:最根本的转变是在SSD内部嵌入处理核心。这并非在SSD上运行LLM,而是在数据传输*前*执行数据精简任务。例如,SSD可为特定注意力操作过滤检索到的KV块,仅保留相关注意力头,从而减少80-90%的数据传输。由SNIA推动、ScaleFlux(已被收购)和三星SmartSSD产品体现的`计算存储驱动器`(CSD)概念,在AI预处理领域正获得关注。
| KV缓存存储方案 | 读取延迟 | 带宽 | 每GB成本(约) | 最佳适用场景 |
|---|---|---|---|---|
| HBM3e | 数十纳秒 | ~1.2 TB/s | 200-300美元 | 最热、活跃的缓存片段 |
| CXL 3.0附加内存 | 100-200纳秒 | ~400 GB/s | 50-80美元 | 扩展内存池,对CPU透明 |
| 高端ZNS/KV SSD (PCIe 5.0) | 10-50微秒 | ~10-14 GB/s | 0.5-1.0美元 | 温数据、大容量KV缓存层 |
| 传统企业级SSD | 50-100+微秒(含抖动) | ~7 GB/s | 0.3-0.6美元 | 通用存储,非最优选择 |
数据启示:表格揭示了清晰的性能-成本权衡层级。战略主战场在于“温缓存”层(ZNS/KV SSD),相较于CXL虽有10倍延迟代价,但相比HBM具备100倍成本优势,前提是延迟必须可预测且软件开销最小化。
关键厂商与案例研究
竞争格局正分化为三大阵营:传统NAND巨头、计算存储专业公司以及自研解决方案的超大规模云服务商。
传统巨头的自我革新:
* 三星:以全栈策略领先。其`PM9C1a` SSD强调能效——数据中心TCO的关键指标。更重要的是,三星`SmartSSD`搭载板载FPGA,允许用户部署自定义数据过滤功能。该公司积极推广ZNS,并与云服务商深度合作,针对AI工作负载调优FTL(闪存转换层)固件。
* SK海力士:凭借其在HBM领域的优势,推行“全内存解决方案”战略。其收购英特尔NAND业务后成立的`Solidigm`部门专注于针对读取密集型负载优化的高密度QLC硬盘。其创新在于服务质量(QoS)保证,即使硬盘写满也能确保可预测的低延迟,这对稳定的推理性能至关重要。
* 铠侠(西部数据):深度投入ZNS与软件定义闪存。其与英伟达在`Magnum IO`堆栈上的合作具有指向性,旨在创建GPU内存与基于SSD的缓存之间的直接低延迟路径。
专业公司与新架构:
* ScaleFlux(被Starblaze收购):曾是计算存储领域的先驱,其硬盘包含用于透明压缩和数据库加速的ASIC。其技术现正被重新定位,以支持AI工作负载的数据预处理任务。