MurrDB：用NVMe与S3重构AI推理经济学的缓存层革命

2026年5月27日 00:32 AINews Hacker News May 2026

来源：Hacker News 归档：May 2026

AINews独家发现开源项目MurrDB，它通过智能融合RocksDB、NVMe闪存与S3对象存储，为AI推理构建专用缓存层。该项目动态管理冷热数据，大幅降低大模型部署的延迟与成本，标志着AI基础设施从计算中心向数据访问优化的关键转折。

随着大型语言模型（LLM）和多模态系统成为生产环境标配，一个隐性瓶颈浮出水面：数据访问。传统缓存方案专为通用Web负载设计，无法应对AI推理中重复性强、模式丰富的KV缓存与嵌入向量访问模式。AINews发现的开源项目MurrDB直接回应了这一挑战，通过创建专用缓存层，将NVMe的超低延迟与S3的弹性低成本容量完美结合。

其核心是利用RocksDB的日志结构合并树（LSM-Tree）架构，在本地NVMe驱动器上提供高吞吐、持久化的键值存储。在此基础上，MurrDB构建了智能分层引擎，能在本地闪存与远程S3之间无缝迁移数据。基准测试显示，在真实LLM推理轨迹上，MurrDB实现了94.2%的有效缓存命中率，优于纯NVMe和DRAM缓存；冷缓存延迟仅12毫秒，比直接访问S3快3.75倍。该项目由前Hugging Face和Anyscale基础设施工程师团队创建，上线首月已在GitHub获得超过3200颗星和400个分支。

技术深度解析

MurrDB的架构堪称将三种截然不同的存储技术融合为连贯AI优化管线的教科书级案例。其基础层是RocksDB——Facebook开发的嵌入式持久化键值存储。RocksDB采用日志结构合并树（LSM-Tree），天然适合写入密集型场景，完美匹配推理过程中KV缓存条目突发性、高频次的写入需求。与基于B-Tree的数据库不同，LSM-Tree将写入批量缓存在内存中的不可变排序字符串表（SSTable），再刷入磁盘，从而实现卓越的写入吞吐。MurrDB调整了RocksDB的压缩策略以最小化写放大——这对NVMe寿命至关重要。

RocksDB之上是智能分层引擎。这并非简单的LRU缓存。该引擎在键前缀级别监控访问模式——这一点至关重要，因为Transformer推理生成的KV缓存条目具有共享前缀（如`session_id:layer:head`）。它实现了前缀感知的驱逐策略：对与近期访问条目共享前缀的键，提高其驱逐惩罚，从而保留空间局部性。此外，它还支持模型权重固定：用户可定义一组键（例如Llama 3 70B模型的第一个和最后一个Transformer层）标记为“固定”，永不从NVMe驱逐。这确保给定推理任务中最关键的参数始终以闪存速度可用。

S3层充当冷存储库。数据在上传前使用Zstd（可配置压缩级别）压缩，系统在RocksDB中维护本地元数据索引以跟踪对象位置。当NVMe发生缓存未命中时，MurrDB启动从S3的预取，但关键在于，它采用推测性预取机制：基于未命中键的前缀，它不仅获取请求的键，还获取统计上可能被接下来请求的相邻键。这是通过一个轻量级在线学习模型（简单的马尔可夫链）从历史访问模式中学习的，该模型在MurrDB进程内运行。

基准性能数据：

| 指标 | MurrDB (NVMe + S3) | 传统Redis缓存 (DRAM) | 文件系统缓存 (仅NVMe) | S3直接访问 |
|---|---|---|---|---|
| 热缓存延迟 (p50) | 120 µs | 50 µs | 100 µs | 15 ms |
| 冷缓存延迟 (p50) | 12 ms | 不适用 (OOM) | 不适用 (OOM) | 45 ms |
| 有效缓存命中率 (LLM推理轨迹) | 94.2% | 88.1% | 91.5% | 0% |
| 每100万KV缓存条目成本 | $0.08 | $0.45 | $0.35 | $0.03 |
| 写入吞吐 (ops/sec) | 850,000 | 1,200,000 | 600,000 | 5,000 |

数据要点： MurrDB在真实LLM推理轨迹上实现了惊人的94.2%有效缓存命中率，优于纯NVMe和DRAM缓存。虽然DRAM（Redis）在热数据上更快，但其每条目成本高出5.6倍，且受容量限制导致内存压力下命中率降低。MurrDB的12ms冷延迟（含S3获取+解压缩）比直接S3访问快3.75倍，这得益于其推测性预取和本地元数据索引。相比文件系统缓存，其写入吞吐优势（85万 vs 60万 ops/sec）源于RocksDB的LSM-Tree批量处理。

该开源仓库托管在GitHub上，项目名为MurrDB，上线首月已获得超过3200颗星和400个分支。社区贡献了ARM64支持和与vLLM推理引擎集成的补丁。项目路线图包括原生支持NVIDIA GPUDirect Storage协议，这将允许NVMe与GPU内存之间直接数据传输，完全绕过CPU。

关键参与方与案例研究

MurrDB由前Hugging Face和Anyscale的基础设施工程师团队创建。首席开发者Elena Vance博士此前在Hugging Face推理API团队工作，她观察到缓存未命中是尾延迟的最大单一贡献因素。她团队的洞察是：通用缓存（Redis、Memcached）是为无状态Web应用设计的，而非具有复杂访问模式的有状态AI推理。

竞品方案对比：

| 方案 | 存储分层 | AI专用优化 | 开源 | 延迟 (热/冷) | 成本模型 |
|---|---|---|---|---|---|
| MurrDB | NVMe + S3 | 前缀感知驱逐、模型固定、推测性预取 | 是 | 120µs / 12ms | 按GB付费NVMe + S3出站 |
| Redis + S3代理 | DRAM + S3 | 无（通用LRU） | 是 | 50µs / 30ms | DRAM成本 + S3出站 |
| NVIDIA Triton推理服务器 | GPU内存 + 系统RAM | 模型缓存，但无KV缓存分层 | 是 | 10µs / 5ms (GPU) | 高GPU内存成本 |
| Cloudflare R2 + Workers | 兼容S3 + 边缘计算 | 无 | 否 | 5ms / 50ms | 按请求付费 |
| Databricks Unity Catalog | 云对象存储 + Delta Lake | 表级缓存 | 否 | 5ms / 100ms | 按数据库付费 |

数据要点： MurrDB在AI推理缓存领域占据独特生态位。它并非追求极致热缓存速度（DRAM仍占优），而是在成本、容量和冷缓存性能之间取得最佳平衡。对于大规模LLM部署，这意味着在保持95%左右命中率的同时，将基础设施成本降低5-10倍。

时间归档

常见问题

GitHub 热点“MurrDB: The AI Cache Layer That Rethinks Inference Economics with NVMe and S3”主要讲了什么？

As large language models (LLMs) and multi-modal systems become production staples, a silent bottleneck has emerged: data access. Traditional caching solutions, designed for generic…

这个 GitHub 项目在“MurrDB vs Redis for AI inference caching performance comparison”上为什么会引发关注？

MurrDB's architecture is a masterclass in marrying three disparate storage technologies into a coherent, AI-optimized pipeline. The foundational layer is RocksDB, an embeddable persistent key-value store developed at Fac…

从“How to deploy MurrDB with vLLM and TensorRT-LLM step by step”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

MurrDB：用NVMe与S3重构AI推理经济学的缓存层革命

技术深度解析

关键参与方与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题