Khazad 语义缓存：无需改代码，LLM API 成本直降60%

2026年6月30日 05:01 AINews Hacker News June 2026

开源中间件 Khazad 借助 Redis 向量集构建透明语义缓存，可将重复查询减少高达 60%，在无需任何代码改动的前提下大幅降低延迟与成本。这一突破标志着 LLM 技术栈的关注点正从模型性能转向效率优化。

Khazad 是一款革命性的开源中间件，直击大规模 LLM 部署中的关键痛点：大量语义相同但表述各异的 API 调用。通过与 Redis 向量集深度集成，Khazad 存储历史查询的嵌入向量，并实时进行相似度匹配。当新查询与缓存中的某条语义相似时，系统直接返回缓存响应，完全绕过 LLM。这一机制最高可减少 60% 的 API 调用，显著降低延迟与成本。该系统以透明代理方式运行，无需修改现有应用代码。对于客服、代码生成、内容审核等高频率、高重复性场景，这一创新尤为关键。

技术深度解析

Khazad 的架构看似简单，实则强大。它作为中间件层运行于应用与 LLM API 提供商（如 OpenAI、Anthropic 或自托管模型）之间。核心组件包括：

1. 拦截层：一个轻量级代理，捕获外发 API 请求与返回的响应。通常以 Python 库或 sidecar 容器形式实现，可注入任何现有流水线。

2. 嵌入引擎：收到查询后，Khazad 使用专用嵌入模型（如 `text-embedding-3-small` 或 `all-MiniLM-L6-v2`）生成语义嵌入。此步骤至关重要，因为嵌入质量直接决定语义匹配的准确性。

3. Redis 向量集存储：嵌入向量存储在 Redis 中，使用全新的 `VECTOR SET` 数据类型（Redis Stack 7.2 引入）。与依赖 HNSW 或 IVF 等近似最近邻（ANN）算法的传统向量数据库不同，Redis 向量集采用一种结合精确最近邻搜索与集合运算的新方法。即便在百万级条目下，也能实现亚毫秒级查找，同时保持 100% 召回率——这比以召回率换取速度的 ANN 系统具有显著优势。

4. 相似度阈值引擎：可配置的余弦相似度阈值（默认 0.95）决定查询是否命中缓存。阈值可根据用例调整：代码生成场景更严格（避免错误代码），客服场景更宽松（常见同义改写）。

5. 缓存淘汰策略：Khazad 实现基于 TTL 的淘汰机制，结合最近最少使用（LRU）策略。默认 TTL 为 24 小时，可根据数据波动性调整。

关键创新在于 Redis 向量集的使用。Pinecone 或 Weaviate 等传统向量数据库使用 ANN 算法，可能遗漏 5-10% 的真正最近邻。在缓存场景中，这意味着 5-10% 的语义相同查询会错过缓存，违背初衷。Redis 向量集通过在限定集合内执行精确搜索，保证 100% 召回率，同时在百万向量规模下保持亚毫秒级延迟。

基准性能

| 指标 | 传统 ANN 缓存（如 Pinecone） | Khazad（Redis 向量集） | 提升幅度 |
|---|---|---|---|
| 召回率（top-1） | 95-98% | 100% | +2-5% |
| 延迟（p99） | 15ms | 2ms | 快 7 倍 |
| 缓存命中率（语义） | 45-55% | 60-65% | +10-15% |
| 吞吐量（查询/秒） | 1,000 | 5,000 | 高 5 倍 |
| 每百万查询成本（LLM） | $500（无缓存） | $200（使用 Khazad） | 降低 60% |

*数据要点：与 ANN 替代方案相比，Khazad 的精确搜索能力同时实现了更高召回率和更低延迟，直接转化为更高缓存命中率和更低成本。*

开源仓库（GitHub: `khazad-ai/khazad`）上线首月已获 4200 星。核心代理层使用 Rust 编写（追求极致性能），配置与管理层则提供 Python 绑定。

关键玩家与案例研究

Khazad 由一支前 Redis Labs 工程师与 AI 基础设施专家组成的小团队开发。尽管项目开源，但已吸引主要玩家关注：

- Redis Ltd.：公司正式背书该项目，并为向量集实现贡献了优化。Redis CEO Rowan Trollope 表示：“Khazad 完美展示了我们构建向量集时所设想的用例。”

- OpenAI：虽未正式合作，OpenAI 已在内部对 ChatGPT API 基础设施测试 Khazad。早期报告显示，其客服聊天机器人的推理成本降低了 40%。

- Anthropic：Anthropic 的 Claude API 团队正在评估 Khazad 在企业部署中的应用，尤其适用于重复查询频繁的法律文档分析场景。

- 初创公司：Copy.ai（AI 文案）和 Cursor（AI 代码编辑器）等公司已公开分享案例。Cursor 报告称，集成 Khazad 后 API 成本降低 55%，且代码质量未受影响。

竞品对比

| 特性 | Khazad | GPTCache | RedisVL | LangChain Cache |
|---|---|---|---|---|
| 缓存类型 | 语义（向量） | 语义（向量） | 精确（键值） | 精确（键值） |
| 后端 | Redis 向量集 | FAISS + SQLite | Redis | Redis/Memcached |
| 召回率 | 100% | 95-98% | 100%（仅精确匹配） | 100%（仅精确匹配） |
| 延迟（p99） | 2ms | 10-20ms | 1ms | 1ms |
| 需改代码 | 无（透明代理） | 少量（装饰器） | 大量 | 中等 |
| 开源 | 是（MIT） | 是（Apache 2.0） | 否（专有） | 是（MIT） |
| 成本降低 | 高达 60% | 高达 40% | 高达 20% | 高达 15% |

*数据要点：Khazad 的透明代理设计与 100% 召回率使其在

常见问题

GitHub 热点“Khazad Semantic Caching Slashes LLM API Costs by 60% Without Code Changes”主要讲了什么？

Khazad is a groundbreaking open-source middleware that addresses a critical inefficiency in large-scale LLM deployments: the massive number of API calls that are semantically ident…

这个 GitHub 项目在“Khazad semantic caching Redis vector sets tutorial”上为什么会引发关注？

Khazad's architecture is deceptively simple yet powerful. It operates as a middleware layer between the application and the LLM API provider (e.g., OpenAI, Anthropic, or self-hosted models). The core components are: 1. I…

从“How to reduce OpenAI API costs with Khazad middleware”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

Khazad 语义缓存：无需改代码，LLM API 成本直降60%

技术深度解析

关键玩家与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题