Mex 为 AI 编程代理赋予持久记忆，Token 成本直降 60%

2026年5月8日 00:02 AINews Hacker News May 2026

来源：Hacker News AI coding agents persistent memory 归档：May 2026

一款名为 Mex 的开源工具正通过为 AI 编程代理提供持久记忆，从根本上削减 Token 成本。它能在会话间缓存并复用上下文，实现约 60% 的 Token 缩减，为使用大语言模型处理复杂编程任务的开发者带来更低的运营成本和更快的迭代速度。

AINews 独家追踪了 Mex 的崛起。这款开源工具直击 AI 编程代理的核心低效问题：Token 浪费。在复杂、多步骤的软件开发中，大语言模型（LLM）必须在每次新交互时重新加载项目上下文、代码结构和历史推理过程，导致大量 Token 重复。Mex 通过构建一个轻量级的持久记忆层来解决这一问题，该层允许代理“记住”之前的工作状态，并在后续调用中复用缓存的上下文。结果是 Token 消耗量减少了约 60%。这不仅仅是成本优化，更代表了一种架构上的转变：AI 代理正从无状态、一次性的交互，进化为有状态、记忆增强的智能体。

技术深度解析

Mex 的架构看似简洁，实则技术底蕴深厚。其核心是在 LLM 和编程代理之间实现了一个持久记忆层。Mex 不会在每次 API 调用后丢弃上下文，而是将关键上下文元素序列化并缓存：当前项目文件树、相关代码片段、代理最近的推理链以及用户提供的指令。该缓存存储在本地（或用户定义的存储后端），并通过会话 ID 和任务指纹的组合进行索引。

Mex 解决的关键工程难题是“上下文窗口税”。现代 LLM（如 GPT-4 和 Claude 3.5）拥有 128K 到 200K Token 的上下文窗口，但反复发送相同的项目上下文既浪费金钱又增加延迟。Mex 采用双层缓存策略：短期缓存用于当前会话（例如最近 5-10 次交互），长期缓存用于跨会话复用（例如项目结构、核心库）。当新请求到来时，Mex 的检索机制首先检查缓存。如果存在匹配的上下文，它只将增量部分——新的代码更改或用户查询——注入到提示词中，从而大幅减少 Token 数量。

一个具体例子：在典型的多文件重构任务中，一个朴素的代理可能会在每次请求时发送整个项目（假设 15,000 个 Token）。使用 Mex 后，项目结构在第一次请求后被缓存。后续请求仅发送正在编辑的特定文件和差异内容，将负载减少到 4,000 个 Token——减少了 73%。在整个开发会话中，Mex 报告的平均 60% 缩减率是保守的。

| 指标 | 未使用 Mex | 使用 Mex | 缩减率 |
|---|---|---|---|
| 每次请求平均 Token 数 | 12,000 | 4,800 | 60% |
| 每次请求延迟（秒） | 8.2 | 3.5 | 57% |
| 每 100 次请求成本（GPT-4o） | $6.00 | $2.40 | 60% |
| 会话时间（10 次请求） | 82s | 35s | 57% |

数据要点： 这些数字证实，Mex 的 Token 缩减直接转化为成比例的成本和延迟节省。对于高用量用户来说，这是变革性的——在 GPT-4o 上，每 100 次请求的成本从 6 美元降至 2.40 美元，意味着运营成本削减 60%。

Mex 以开源仓库的形式在 GitHub 上提供（仓库：`mex-ai/mex`）。上线首月已获得超过 4,000 颗星，显示出强大的社区兴趣。该工具使用 Python 编写，并提供一个简单的 Python API，可封装任何 LLM 提供商（OpenAI、Anthropic、通过 Ollama 运行的本地模型）。它还提供了一个 VS Code 扩展，可直接集成到编辑器中，在开发者工作时自动缓存上下文。

关键参与者与案例研究

Mex 进入了一个竞争激烈的领域，多家参与者都在解决 AI 代理的相同记忆问题。最值得注意的是：

- Mem0（原名 MemGPT）：一个开源项目，为 LLM 提供用于长期对话的“记忆”层。虽然对聊天机器人很强大，但它对编程代理的结构化、代码密集型上下文的优化程度较低。
- LangChain 的记忆模块：LangChain 提供了内置的记忆类（ConversationBufferMemory、VectorStoreMemory），但这些是通用的，并未专门针对代码上下文缓存进行调整。它们还会增加开销和复杂性。
- CrewAI：一个用于多代理系统的框架，包含记忆功能，但它专为编排设计，而非轻量级的每会话缓存。
- Claude 的项目（Anthropic）：Anthropic 的 Claude 提供了一个“项目”功能，允许上传上下文文件，但这是手动的、非自动化的方法，并且不会动态缓存代理的推理过程。

| 解决方案 | 类型 | Token 缩减率 | 集成便捷性 | 代码特定优化 |
|---|---|---|---|---|
| Mex | 开源工具 | ~60% | 非常高（Python API + VS Code） | 是（项目树、差异） |
| Mem0 | 开源框架 | ~30-40% | 中等（需要设置） | 否（通用对话） |
| LangChain Memory | 库 | ~20-30% | 中等（样板代码） | 否（通用） |
| Claude Projects | 专有功能 | 仅手动 | 低（手动上传） | 部分（文件上传） |

数据要点： Mex 在 Token 缩减率和针对编程代理的集成便捷性方面处于领先地位。其代码感知缓存使其在通用记忆解决方案中具有明显优势。

一个值得注意的案例来自一家正在构建 AI 驱动代码审查工具的中型初创公司。在使用 Mex 之前，他们的代理每次审查平均消耗 18,000 个 Token（包括完整的代码库差异）。集成 Mex 后，他们将此减少到 7,200 个 Token——下降了 60%——每月在 GPT-4 API 成本上节省约 1,200 美元。该初创公司的 CTO 指出，延迟的改善还使该工具对用户来说感觉“即时”，从而提高了采用率。

另一个例子是一位独立开发者，他通过 Ollama 使用 Mex 与本地 Llama 3 70B 模型。通过缓存项目上下文，他们将每次请求的上下文窗口使用量从 32K Token 减少到 12K Token，从而允许在本地硬件上运行更长的开发会话，而无需昂贵的云 API 调用。

时间归档

常见问题

GitHub 热点“Mex Gives AI Coding Agents Persistent Memory, Slashes Token Costs by 60%”主要讲了什么？

AINews has exclusively tracked the rise of Mex, an open-source tool that directly attacks the core inefficiency of AI coding agents: token waste. In complex, multi-step software de…

这个 GitHub 项目在“How Mex caches AI agent context across sessions”上为什么会引发关注？

Mex's architecture is elegantly simple yet technically profound. At its core, it implements a persistent memory layer that sits between the LLM and the coding agent. Instead of discarding context after each API call, Mex…

从“Mex vs Mem0 vs LangChain memory comparison”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

Mex 为 AI 编程代理赋予持久记忆，Token 成本直降 60%

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题