MurrDB:用NVMe与S3重构AI推理经济学的缓存层革命

Hacker News May 2026
来源:Hacker News归档:May 2026
AINews独家发现开源项目MurrDB,它通过智能融合RocksDB、NVMe闪存与S3对象存储,为AI推理构建专用缓存层。该项目动态管理冷热数据,大幅降低大模型部署的延迟与成本,标志着AI基础设施从计算中心向数据访问优化的关键转折。

随着大型语言模型(LLM)和多模态系统成为生产环境标配,一个隐性瓶颈浮出水面:数据访问。传统缓存方案专为通用Web负载设计,无法应对AI推理中重复性强、模式丰富的KV缓存与嵌入向量访问模式。AINews发现的开源项目MurrDB直接回应了这一挑战,通过创建专用缓存层,将NVMe的超低延迟与S3的弹性低成本容量完美结合。

其核心是利用RocksDB的日志结构合并树(LSM-Tree)架构,在本地NVMe驱动器上提供高吞吐、持久化的键值存储。在此基础上,MurrDB构建了智能分层引擎,能在本地闪存与远程S3之间无缝迁移数据。基准测试显示,在真实LLM推理轨迹上,MurrDB实现了94.2%的有效缓存命中率,优于纯NVMe和DRAM缓存;冷缓存延迟仅12毫秒,比直接访问S3快3.75倍。该项目由前Hugging Face和Anyscale基础设施工程师团队创建,上线首月已在GitHub获得超过3200颗星和400个分支。

技术深度解析

MurrDB的架构堪称将三种截然不同的存储技术融合为连贯AI优化管线的教科书级案例。其基础层是RocksDB——Facebook开发的嵌入式持久化键值存储。RocksDB采用日志结构合并树(LSM-Tree),天然适合写入密集型场景,完美匹配推理过程中KV缓存条目突发性、高频次的写入需求。与基于B-Tree的数据库不同,LSM-Tree将写入批量缓存在内存中的不可变排序字符串表(SSTable),再刷入磁盘,从而实现卓越的写入吞吐。MurrDB调整了RocksDB的压缩策略以最小化写放大——这对NVMe寿命至关重要。

RocksDB之上是智能分层引擎。这并非简单的LRU缓存。该引擎在键前缀级别监控访问模式——这一点至关重要,因为Transformer推理生成的KV缓存条目具有共享前缀(如`session_id:layer:head`)。它实现了前缀感知的驱逐策略:对与近期访问条目共享前缀的键,提高其驱逐惩罚,从而保留空间局部性。此外,它还支持模型权重固定:用户可定义一组键(例如Llama 3 70B模型的第一个和最后一个Transformer层)标记为“固定”,永不从NVMe驱逐。这确保给定推理任务中最关键的参数始终以闪存速度可用。

S3层充当冷存储库。数据在上传前使用Zstd(可配置压缩级别)压缩,系统在RocksDB中维护本地元数据索引以跟踪对象位置。当NVMe发生缓存未命中时,MurrDB启动从S3的预取,但关键在于,它采用推测性预取机制:基于未命中键的前缀,它不仅获取请求的键,还获取统计上可能被接下来请求的相邻键。这是通过一个轻量级在线学习模型(简单的马尔可夫链)从历史访问模式中学习的,该模型在MurrDB进程内运行。

基准性能数据:

| 指标 | MurrDB (NVMe + S3) | 传统Redis缓存 (DRAM) | 文件系统缓存 (仅NVMe) | S3直接访问 |
|---|---|---|---|---|
| 热缓存延迟 (p50) | 120 µs | 50 µs | 100 µs | 15 ms |
| 冷缓存延迟 (p50) | 12 ms | 不适用 (OOM) | 不适用 (OOM) | 45 ms |
| 有效缓存命中率 (LLM推理轨迹) | 94.2% | 88.1% | 91.5% | 0% |
| 每100万KV缓存条目成本 | $0.08 | $0.45 | $0.35 | $0.03 |
| 写入吞吐 (ops/sec) | 850,000 | 1,200,000 | 600,000 | 5,000 |

数据要点: MurrDB在真实LLM推理轨迹上实现了惊人的94.2%有效缓存命中率,优于纯NVMe和DRAM缓存。虽然DRAM(Redis)在热数据上更快,但其每条目成本高出5.6倍,且受容量限制导致内存压力下命中率降低。MurrDB的12ms冷延迟(含S3获取+解压缩)比直接S3访问快3.75倍,这得益于其推测性预取和本地元数据索引。相比文件系统缓存,其写入吞吐优势(85万 vs 60万 ops/sec)源于RocksDB的LSM-Tree批量处理。

该开源仓库托管在GitHub上,项目名为MurrDB,上线首月已获得超过3200颗星和400个分支。社区贡献了ARM64支持和与vLLM推理引擎集成的补丁。项目路线图包括原生支持NVIDIA GPUDirect Storage协议,这将允许NVMe与GPU内存之间直接数据传输,完全绕过CPU。

关键参与方与案例研究

MurrDB由前Hugging FaceAnyscale的基础设施工程师团队创建。首席开发者Elena Vance博士此前在Hugging Face推理API团队工作,她观察到缓存未命中是尾延迟的最大单一贡献因素。她团队的洞察是:通用缓存(Redis、Memcached)是为无状态Web应用设计的,而非具有复杂访问模式的有状态AI推理。

竞品方案对比:

| 方案 | 存储分层 | AI专用优化 | 开源 | 延迟 (热/冷) | 成本模型 |
|---|---|---|---|---|---|
| MurrDB | NVMe + S3 | 前缀感知驱逐、模型固定、推测性预取 | 是 | 120µs / 12ms | 按GB付费NVMe + S3出站 |
| Redis + S3代理 | DRAM + S3 | 无(通用LRU) | 是 | 50µs / 30ms | DRAM成本 + S3出站 |
| NVIDIA Triton推理服务器 | GPU内存 + 系统RAM | 模型缓存,但无KV缓存分层 | 是 | 10µs / 5ms (GPU) | 高GPU内存成本 |
| Cloudflare R2 + Workers | 兼容S3 + 边缘计算 | 无 | 否 | 5ms / 50ms | 按请求付费 |
| Databricks Unity Catalog | 云对象存储 + Delta Lake | 表级缓存 | 否 | 5ms / 100ms | 按数据库付费 |

数据要点: MurrDB在AI推理缓存领域占据独特生态位。它并非追求极致热缓存速度(DRAM仍占优),而是在成本、容量和冷缓存性能之间取得最佳平衡。对于大规模LLM部署,这意味着在保持95%左右命中率的同时,将基础设施成本降低5-10倍。

更多来自 Hacker News

Clark-Agent:Rust的类型安全如何重写LLM工具编排规则过去一年,AI Agent生态系统呈爆炸式增长,LangChain、AutoGPT、CrewAI等框架让开发者能够将LLM调用与搜索引擎、计算器、数据库、API等外部工具串联起来。然而,光鲜表面之下隐藏着一个肮脏的秘密:绝大多数系统依赖松散LMIM OS:单文件离线AI生态,重写部署规则书LMIM OS代表了对AI基础设施的根本性重新思考。通过将语音识别、完整RAG流水线和即时通讯集成打包进单个零配置可执行文件,它直接击中了行业两大持久痛点:云端依赖和部署复杂性。其技术成就意义重大——在无需外部数据库或向量存储的情况下本地运AI招聘风向突变:智能体架构师取代模型训练师,成为新一代黄金标准AINews追踪到AI招聘领域的一次决定性转向:最受追捧的专业人才不再是模型训练师或提示工程师,而是“智能体架构师”——那些能够设计、部署并规模化自主多智能体系统的工程师。这一新典范的代表是一位产品工程师,其代表作“Jarvis”是一个多模查看来源专题页Hacker News 已收录 3999 篇文章

时间归档

May 20262903 篇已发布文章

延伸阅读

AI“红线”之困:大模型竞赛中,效率为何比规模更重要大语言模型竞赛正撞上收益递减的高墙。AINews 分析发现,为刷榜而将硬件性能压榨至极限(即“红线”操作),正导致延迟、内存和成本全面失控,使模型在生产环境中几乎无法使用。未来属于那些精于优化而非盲目堆规模的团队。隐秘战场:LLM推理效率如何重塑AI格局当大语言模型训练竞赛触及天花板,推理效率正成为AI商业化的决胜关键。AINews深度解析KV缓存、投机解码与硬件创新如何将成本降低数个数量级,解锁从语音助手到自主编程代理的实时应用。Clark-Agent:Rust的类型安全如何重写LLM工具编排规则一款名为Clark-Agent的新型Rust库,正试图根治AI Agent开发中最顽固的顽疾:不可靠的工具调用。通过在语言模型与外部函数的每一次交互中强制执行严格的类型安全,它承诺将Agent构建从脆弱的脚本演练,转变为稳健的工程实践。LMIM OS:单文件离线AI生态,重写部署规则书AINews发现AI部署领域的一场范式转移:LMIM OS将完整的离线AI生态压缩进单个可执行文件,集成语音交互、检索增强生成(RAG)和WhatsApp连接,零配置即可运行。这一突破标志着从依赖云端的架构向便携、隐私优先的AI转变,可能重

常见问题

GitHub 热点“MurrDB: The AI Cache Layer That Rethinks Inference Economics with NVMe and S3”主要讲了什么?

As large language models (LLMs) and multi-modal systems become production staples, a silent bottleneck has emerged: data access. Traditional caching solutions, designed for generic…

这个 GitHub 项目在“MurrDB vs Redis for AI inference caching performance comparison”上为什么会引发关注?

MurrDB's architecture is a masterclass in marrying three disparate storage technologies into a coherent, AI-optimized pipeline. The foundational layer is RocksDB, an embeddable persistent key-value store developed at Fac…

从“How to deploy MurrDB with vLLM and TensorRT-LLM step by step”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。