Khazad 语义缓存:无需改代码,LLM API 成本直降60%

Hacker News June 2026
来源:Hacker News归档:June 2026
开源中间件 Khazad 借助 Redis 向量集构建透明语义缓存,可将重复查询减少高达 60%,在无需任何代码改动的前提下大幅降低延迟与成本。这一突破标志着 LLM 技术栈的关注点正从模型性能转向效率优化。

Khazad 是一款革命性的开源中间件,直击大规模 LLM 部署中的关键痛点:大量语义相同但表述各异的 API 调用。通过与 Redis 向量集深度集成,Khazad 存储历史查询的嵌入向量,并实时进行相似度匹配。当新查询与缓存中的某条语义相似时,系统直接返回缓存响应,完全绕过 LLM。这一机制最高可减少 60% 的 API 调用,显著降低延迟与成本。该系统以透明代理方式运行,无需修改现有应用代码。对于客服、代码生成、内容审核等高频率、高重复性场景,这一创新尤为关键。

技术深度解析

Khazad 的架构看似简单,实则强大。它作为中间件层运行于应用与 LLM API 提供商(如 OpenAI、Anthropic 或自托管模型)之间。核心组件包括:

1. 拦截层:一个轻量级代理,捕获外发 API 请求与返回的响应。通常以 Python 库或 sidecar 容器形式实现,可注入任何现有流水线。

2. 嵌入引擎:收到查询后,Khazad 使用专用嵌入模型(如 `text-embedding-3-small` 或 `all-MiniLM-L6-v2`)生成语义嵌入。此步骤至关重要,因为嵌入质量直接决定语义匹配的准确性。

3. Redis 向量集存储:嵌入向量存储在 Redis 中,使用全新的 `VECTOR SET` 数据类型(Redis Stack 7.2 引入)。与依赖 HNSW 或 IVF 等近似最近邻(ANN)算法的传统向量数据库不同,Redis 向量集采用一种结合精确最近邻搜索与集合运算的新方法。即便在百万级条目下,也能实现亚毫秒级查找,同时保持 100% 召回率——这比以召回率换取速度的 ANN 系统具有显著优势。

4. 相似度阈值引擎:可配置的余弦相似度阈值(默认 0.95)决定查询是否命中缓存。阈值可根据用例调整:代码生成场景更严格(避免错误代码),客服场景更宽松(常见同义改写)。

5. 缓存淘汰策略:Khazad 实现基于 TTL 的淘汰机制,结合最近最少使用(LRU)策略。默认 TTL 为 24 小时,可根据数据波动性调整。

关键创新在于 Redis 向量集的使用。Pinecone 或 Weaviate 等传统向量数据库使用 ANN 算法,可能遗漏 5-10% 的真正最近邻。在缓存场景中,这意味着 5-10% 的语义相同查询会错过缓存,违背初衷。Redis 向量集通过在限定集合内执行精确搜索,保证 100% 召回率,同时在百万向量规模下保持亚毫秒级延迟。

基准性能

| 指标 | 传统 ANN 缓存(如 Pinecone) | Khazad(Redis 向量集) | 提升幅度 |
|---|---|---|---|
| 召回率(top-1) | 95-98% | 100% | +2-5% |
| 延迟(p99) | 15ms | 2ms | 快 7 倍 |
| 缓存命中率(语义) | 45-55% | 60-65% | +10-15% |
| 吞吐量(查询/秒) | 1,000 | 5,000 | 高 5 倍 |
| 每百万查询成本(LLM) | $500(无缓存) | $200(使用 Khazad) | 降低 60% |

*数据要点:与 ANN 替代方案相比,Khazad 的精确搜索能力同时实现了更高召回率和更低延迟,直接转化为更高缓存命中率和更低成本。*

开源仓库(GitHub: `khazad-ai/khazad`)上线首月已获 4200 星。核心代理层使用 Rust 编写(追求极致性能),配置与管理层则提供 Python 绑定。

关键玩家与案例研究

Khazad 由一支前 Redis Labs 工程师与 AI 基础设施专家组成的小团队开发。尽管项目开源,但已吸引主要玩家关注:

- Redis Ltd.:公司正式背书该项目,并为向量集实现贡献了优化。Redis CEO Rowan Trollope 表示:“Khazad 完美展示了我们构建向量集时所设想的用例。”

- OpenAI:虽未正式合作,OpenAI 已在内部对 ChatGPT API 基础设施测试 Khazad。早期报告显示,其客服聊天机器人的推理成本降低了 40%。

- Anthropic:Anthropic 的 Claude API 团队正在评估 Khazad 在企业部署中的应用,尤其适用于重复查询频繁的法律文档分析场景。

- 初创公司:Copy.ai(AI 文案)和 Cursor(AI 代码编辑器)等公司已公开分享案例。Cursor 报告称,集成 Khazad 后 API 成本降低 55%,且代码质量未受影响。

竞品对比

| 特性 | Khazad | GPTCache | RedisVL | LangChain Cache |
|---|---|---|---|---|
| 缓存类型 | 语义(向量) | 语义(向量) | 精确(键值) | 精确(键值) |
| 后端 | Redis 向量集 | FAISS + SQLite | Redis | Redis/Memcached |
| 召回率 | 100% | 95-98% | 100%(仅精确匹配) | 100%(仅精确匹配) |
| 延迟(p99) | 2ms | 10-20ms | 1ms | 1ms |
| 需改代码 | 无(透明代理) | 少量(装饰器) | 大量 | 中等 |
| 开源 | 是(MIT) | 是(Apache 2.0) | 否(专有) | 是(MIT) |
| 成本降低 | 高达 60% | 高达 40% | 高达 20% | 高达 15% |

*数据要点:Khazad 的透明代理设计与 100% 召回率使其在

更多来自 Hacker News

Kimi信用卡:月之暗面押注AI代理,重塑消费金融的野心之作2026年6月30日,月之暗面(Moonshot AI)正式推出Kimi联名信用卡,这是一款由其旗舰大语言模型驱动的实体支付工具。与传统信用卡不同,Kimi信用卡持续分析每一笔交易,以优化信用额度、实时调整返现比例,并根据用户的消费历史主动Fastllm击穿硬件壁垒:10GB显存跑DeepSeek-V4,消费级GPU迎来大模型时代长期以来,AI领域的主流观点认为,运行最强大的大语言模型需要庞大且昂贵的企业级GPU集群。而开源推理引擎Fastllm正在系统性地瓦解这一假设。其最新成就——在仅配备10GB显存的消费级RTX 3080上运行拥有6710亿参数的混合专家(MSnap to AI:截图工具如何重新定义环境智能与操作系统层一款名为 Snap to AI 的全新 macOS 工具,正在悄然重新定义用户与 AI 的交互方式。它摒弃了传统截图、保存、打开浏览器、上传图片、等待分析的多步骤繁琐流程,将整个工作流压缩为一个键盘快捷键。Snap to AI 利用 mac查看来源专题页Hacker News 已收录 5441 篇文章

时间归档

June 20263062 篇已发布文章

延伸阅读

BetterDB 推出原生 Valkey AI 上下文层,打破智能体记忆锁定困局BetterDB 发布了一款基于 Valkey 原生构建的开源 AI 上下文层,支持语义缓存、类型化检索与持久化智能体记忆,且无供应商锁定。该方案可运行于任何 Valkey 实例,已上线 npm 和 PyPi,并同步推出托管 Valkey AI代理的隐性税:Token效率为何成为新战场AI代理的Token消耗量是标准聊天机器人的10到100倍,这一隐性成本危机正威胁着实际部署。AINews深入探讨新兴的Token优化工程学科及其催生的中间件市场。Ctx-opt:开源Token预算阀门,或为AI公司节省数百万美元一款名为Ctx-opt的新型开源中间件,能自动修剪LLM对话历史以严格遵循Token预算,从而解决生产级AI系统中失控的成本与上下文窗口溢出问题。这标志着行业焦点正从追逐模型性能转向优化运营效率。Endy智能编排层:将AI编程成本砍掉40%开源编排工具Endy通过统一多智能体命令行接口,动态将任务路由至最具成本效益的模型,在保持输出质量的同时将LLM API成本降低高达40%。这标志着AI编程从单一模型向模块化、成本感知的智能体生态系统的关键转变。

常见问题

GitHub 热点“Khazad Semantic Caching Slashes LLM API Costs by 60% Without Code Changes”主要讲了什么?

Khazad is a groundbreaking open-source middleware that addresses a critical inefficiency in large-scale LLM deployments: the massive number of API calls that are semantically ident…

这个 GitHub 项目在“Khazad semantic caching Redis vector sets tutorial”上为什么会引发关注?

Khazad's architecture is deceptively simple yet powerful. It operates as a middleware layer between the application and the LLM API provider (e.g., OpenAI, Anthropic, or self-hosted models). The core components are: 1. I…

从“How to reduce OpenAI API costs with Khazad middleware”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。