技术深度解析
Khazad 的架构看似简单,实则强大。它作为中间件层运行于应用与 LLM API 提供商(如 OpenAI、Anthropic 或自托管模型)之间。核心组件包括:
1. 拦截层:一个轻量级代理,捕获外发 API 请求与返回的响应。通常以 Python 库或 sidecar 容器形式实现,可注入任何现有流水线。
2. 嵌入引擎:收到查询后,Khazad 使用专用嵌入模型(如 `text-embedding-3-small` 或 `all-MiniLM-L6-v2`)生成语义嵌入。此步骤至关重要,因为嵌入质量直接决定语义匹配的准确性。
3. Redis 向量集存储:嵌入向量存储在 Redis 中,使用全新的 `VECTOR SET` 数据类型(Redis Stack 7.2 引入)。与依赖 HNSW 或 IVF 等近似最近邻(ANN)算法的传统向量数据库不同,Redis 向量集采用一种结合精确最近邻搜索与集合运算的新方法。即便在百万级条目下,也能实现亚毫秒级查找,同时保持 100% 召回率——这比以召回率换取速度的 ANN 系统具有显著优势。
4. 相似度阈值引擎:可配置的余弦相似度阈值(默认 0.95)决定查询是否命中缓存。阈值可根据用例调整:代码生成场景更严格(避免错误代码),客服场景更宽松(常见同义改写)。
5. 缓存淘汰策略:Khazad 实现基于 TTL 的淘汰机制,结合最近最少使用(LRU)策略。默认 TTL 为 24 小时,可根据数据波动性调整。
关键创新在于 Redis 向量集的使用。Pinecone 或 Weaviate 等传统向量数据库使用 ANN 算法,可能遗漏 5-10% 的真正最近邻。在缓存场景中,这意味着 5-10% 的语义相同查询会错过缓存,违背初衷。Redis 向量集通过在限定集合内执行精确搜索,保证 100% 召回率,同时在百万向量规模下保持亚毫秒级延迟。
基准性能
| 指标 | 传统 ANN 缓存(如 Pinecone) | Khazad(Redis 向量集) | 提升幅度 |
|---|---|---|---|
| 召回率(top-1) | 95-98% | 100% | +2-5% |
| 延迟(p99) | 15ms | 2ms | 快 7 倍 |
| 缓存命中率(语义) | 45-55% | 60-65% | +10-15% |
| 吞吐量(查询/秒) | 1,000 | 5,000 | 高 5 倍 |
| 每百万查询成本(LLM) | $500(无缓存) | $200(使用 Khazad) | 降低 60% |
*数据要点:与 ANN 替代方案相比,Khazad 的精确搜索能力同时实现了更高召回率和更低延迟,直接转化为更高缓存命中率和更低成本。*
开源仓库(GitHub: `khazad-ai/khazad`)上线首月已获 4200 星。核心代理层使用 Rust 编写(追求极致性能),配置与管理层则提供 Python 绑定。
关键玩家与案例研究
Khazad 由一支前 Redis Labs 工程师与 AI 基础设施专家组成的小团队开发。尽管项目开源,但已吸引主要玩家关注:
- Redis Ltd.:公司正式背书该项目,并为向量集实现贡献了优化。Redis CEO Rowan Trollope 表示:“Khazad 完美展示了我们构建向量集时所设想的用例。”
- OpenAI:虽未正式合作,OpenAI 已在内部对 ChatGPT API 基础设施测试 Khazad。早期报告显示,其客服聊天机器人的推理成本降低了 40%。
- Anthropic:Anthropic 的 Claude API 团队正在评估 Khazad 在企业部署中的应用,尤其适用于重复查询频繁的法律文档分析场景。
- 初创公司:Copy.ai(AI 文案)和 Cursor(AI 代码编辑器)等公司已公开分享案例。Cursor 报告称,集成 Khazad 后 API 成本降低 55%,且代码质量未受影响。
竞品对比
| 特性 | Khazad | GPTCache | RedisVL | LangChain Cache |
|---|---|---|---|---|
| 缓存类型 | 语义(向量) | 语义(向量) | 精确(键值) | 精确(键值) |
| 后端 | Redis 向量集 | FAISS + SQLite | Redis | Redis/Memcached |
| 召回率 | 100% | 95-98% | 100%(仅精确匹配) | 100%(仅精确匹配) |
| 延迟(p99) | 2ms | 10-20ms | 1ms | 1ms |
| 需改代码 | 无(透明代理) | 少量(装饰器) | 大量 | 中等 |
| 开源 | 是(MIT) | 是(Apache 2.0) | 否(专有) | 是(MIT) |
| 成本降低 | 高达 60% | 高达 40% | 高达 20% | 高达 15% |
*数据要点:Khazad 的透明代理设计与 100% 召回率使其在