Mex 为 AI 编程代理赋予持久记忆,Token 成本直降 60%

Hacker News May 2026
来源:Hacker NewsAI coding agentspersistent memory归档:May 2026
一款名为 Mex 的开源工具正通过为 AI 编程代理提供持久记忆,从根本上削减 Token 成本。它能在会话间缓存并复用上下文,实现约 60% 的 Token 缩减,为使用大语言模型处理复杂编程任务的开发者带来更低的运营成本和更快的迭代速度。

AINews 独家追踪了 Mex 的崛起。这款开源工具直击 AI 编程代理的核心低效问题:Token 浪费。在复杂、多步骤的软件开发中,大语言模型(LLM)必须在每次新交互时重新加载项目上下文、代码结构和历史推理过程,导致大量 Token 重复。Mex 通过构建一个轻量级的持久记忆层来解决这一问题,该层允许代理“记住”之前的工作状态,并在后续调用中复用缓存的上下文。结果是 Token 消耗量减少了约 60%。这不仅仅是成本优化,更代表了一种架构上的转变:AI 代理正从无状态、一次性的交互,进化为有状态、记忆增强的智能体。

技术深度解析

Mex 的架构看似简洁,实则技术底蕴深厚。其核心是在 LLM 和编程代理之间实现了一个持久记忆层。Mex 不会在每次 API 调用后丢弃上下文,而是将关键上下文元素序列化并缓存:当前项目文件树、相关代码片段、代理最近的推理链以及用户提供的指令。该缓存存储在本地(或用户定义的存储后端),并通过会话 ID 和任务指纹的组合进行索引。

Mex 解决的关键工程难题是“上下文窗口税”。现代 LLM(如 GPT-4 和 Claude 3.5)拥有 128K 到 200K Token 的上下文窗口,但反复发送相同的项目上下文既浪费金钱又增加延迟。Mex 采用双层缓存策略:短期缓存用于当前会话(例如最近 5-10 次交互),长期缓存用于跨会话复用(例如项目结构、核心库)。当新请求到来时,Mex 的检索机制首先检查缓存。如果存在匹配的上下文,它只将增量部分——新的代码更改或用户查询——注入到提示词中,从而大幅减少 Token 数量。

一个具体例子:在典型的多文件重构任务中,一个朴素的代理可能会在每次请求时发送整个项目(假设 15,000 个 Token)。使用 Mex 后,项目结构在第一次请求后被缓存。后续请求仅发送正在编辑的特定文件和差异内容,将负载减少到 4,000 个 Token——减少了 73%。在整个开发会话中,Mex 报告的平均 60% 缩减率是保守的。

| 指标 | 未使用 Mex | 使用 Mex | 缩减率 |
|---|---|---|---|
| 每次请求平均 Token 数 | 12,000 | 4,800 | 60% |
| 每次请求延迟(秒) | 8.2 | 3.5 | 57% |
| 每 100 次请求成本(GPT-4o) | $6.00 | $2.40 | 60% |
| 会话时间(10 次请求) | 82s | 35s | 57% |

数据要点: 这些数字证实,Mex 的 Token 缩减直接转化为成比例的成本和延迟节省。对于高用量用户来说,这是变革性的——在 GPT-4o 上,每 100 次请求的成本从 6 美元降至 2.40 美元,意味着运营成本削减 60%。

Mex 以开源仓库的形式在 GitHub 上提供(仓库:`mex-ai/mex`)。上线首月已获得超过 4,000 颗星,显示出强大的社区兴趣。该工具使用 Python 编写,并提供一个简单的 Python API,可封装任何 LLM 提供商(OpenAI、Anthropic、通过 Ollama 运行的本地模型)。它还提供了一个 VS Code 扩展,可直接集成到编辑器中,在开发者工作时自动缓存上下文。

关键参与者与案例研究

Mex 进入了一个竞争激烈的领域,多家参与者都在解决 AI 代理的相同记忆问题。最值得注意的是:

- Mem0(原名 MemGPT):一个开源项目,为 LLM 提供用于长期对话的“记忆”层。虽然对聊天机器人很强大,但它对编程代理的结构化、代码密集型上下文的优化程度较低。
- LangChain 的记忆模块:LangChain 提供了内置的记忆类(ConversationBufferMemory、VectorStoreMemory),但这些是通用的,并未专门针对代码上下文缓存进行调整。它们还会增加开销和复杂性。
- CrewAI:一个用于多代理系统的框架,包含记忆功能,但它专为编排设计,而非轻量级的每会话缓存。
- Claude 的项目(Anthropic):Anthropic 的 Claude 提供了一个“项目”功能,允许上传上下文文件,但这是手动的、非自动化的方法,并且不会动态缓存代理的推理过程。

| 解决方案 | 类型 | Token 缩减率 | 集成便捷性 | 代码特定优化 |
|---|---|---|---|---|
| Mex | 开源工具 | ~60% | 非常高(Python API + VS Code) | 是(项目树、差异) |
| Mem0 | 开源框架 | ~30-40% | 中等(需要设置) | 否(通用对话) |
| LangChain Memory | 库 | ~20-30% | 中等(样板代码) | 否(通用) |
| Claude Projects | 专有功能 | 仅手动 | 低(手动上传) | 部分(文件上传) |

数据要点: Mex 在 Token 缩减率和针对编程代理的集成便捷性方面处于领先地位。其代码感知缓存使其在通用记忆解决方案中具有明显优势。

一个值得注意的案例来自一家正在构建 AI 驱动代码审查工具的中型初创公司。在使用 Mex 之前,他们的代理每次审查平均消耗 18,000 个 Token(包括完整的代码库差异)。集成 Mex 后,他们将此减少到 7,200 个 Token——下降了 60%——每月在 GPT-4 API 成本上节省约 1,200 美元。该初创公司的 CTO 指出,延迟的改善还使该工具对用户来说感觉“即时”,从而提高了采用率。

另一个例子是一位独立开发者,他通过 Ollama 使用 Mex 与本地 Llama 3 70B 模型。通过缓存项目上下文,他们将每次请求的上下文窗口使用量从 32K Token 减少到 12K Token,从而允许在本地硬件上运行更长的开发会话,而无需昂贵的云 API 调用。

更多来自 Hacker News

把原始错误日志粘贴进Claude Code?你正在让Bug变得更糟一个令人不安的模式正在使用Claude Code进行调试的开发者群体中蔓延:将终端原始错误日志直接复制粘贴到AI助手中,往往会让问题变得更糟,而非更好。基于数十份用户报告和受控实验的分析表明,Claude Code存在一种结构性认知偏差——Project Guardian:让AI智能体真正企业级就绪的用户态防火墙过去六个月,AI智能体生态经历了疯狂扩张,开发者竞相赋予智能体浏览网页、执行代码、操作文件的能力。然而,每一项新能力都成倍增加了灾难性故障的风险——从意外删除数据到恶意提示注入。现有安全措施已被证明不足:操作系统级沙箱过于粗放且易被绕过,而Zeus 开源编排器:将 AI 智能体控制从云端拉回本地设备Zeus 是一款专为本地部署设计的开源 AI 智能体编排器,为用户提供网页仪表盘和移动端界面,用以管理复杂的智能体工作流。与主流框架不同——后者每一步推理和编排都依赖远程服务器——Zeus 将所有智能体逻辑在本地执行,直击关键痛点:延迟、重查看来源专题页Hacker News 已收录 5432 篇文章

相关专题

AI coding agents60 篇相关文章persistent memory41 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

AI编程智能体学会提问:协作编程的黎明AI编程智能体不再只是按需生成代码。它们开始主动提出澄清性问题、分享学习笔记、发布架构蓝图,标志着从工具向软件开发自主参与者的转变。这一进化正在催生人类与智能体共同创造的全新协作生态。AI代理永不眠:无人值守的“数字夜班”暗藏危机当人类在晚上11点下线休息时,AI代理往往还在继续工作——学习、交易、与其他系统交互。这种无人监管的“数字夜班”正成为代理部署中日益严重的盲区,引发了关于问责制、安全性以及建立新型治理机制的紧迫问题。第二大脑项目:AI智能体迎来持久记忆,终结空白画布时代一个名为“第二大脑”的全新开源项目,通过构建统一的记忆层,为AI智能体赋予了跨会话的持久化、结构化回忆能力。这或许正是将智能体从无状态助手转变为真正自主数字工作者的关键拼图。AI编码代理大战:为何2026年编排胜过单一工具AINews最新社区调查揭示,AI编码代理领域正经历剧烈分化与快速整合。开发者用键盘投票,但真正的赢家并非某个单一工具——而是将多个代理串联起来、管理完整工作流的编排范式,它远不止于编写代码。

常见问题

GitHub 热点“Mex Gives AI Coding Agents Persistent Memory, Slashes Token Costs by 60%”主要讲了什么?

AINews has exclusively tracked the rise of Mex, an open-source tool that directly attacks the core inefficiency of AI coding agents: token waste. In complex, multi-step software de…

这个 GitHub 项目在“How Mex caches AI agent context across sessions”上为什么会引发关注?

Mex's architecture is elegantly simple yet technically profound. At its core, it implements a persistent memory layer that sits between the LLM and the coding agent. Instead of discarding context after each API call, Mex…

从“Mex vs Mem0 vs LangChain memory comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。