Mex 为 AI 编程代理赋予持久记忆,Token 成本直降 60%

Hacker News May 2026
来源:Hacker NewsAI coding agentspersistent memory归档:May 2026
一款名为 Mex 的开源工具正通过为 AI 编程代理提供持久记忆,从根本上削减 Token 成本。它能在会话间缓存并复用上下文,实现约 60% 的 Token 缩减,为使用大语言模型处理复杂编程任务的开发者带来更低的运营成本和更快的迭代速度。

AINews 独家追踪了 Mex 的崛起。这款开源工具直击 AI 编程代理的核心低效问题:Token 浪费。在复杂、多步骤的软件开发中,大语言模型(LLM)必须在每次新交互时重新加载项目上下文、代码结构和历史推理过程,导致大量 Token 重复。Mex 通过构建一个轻量级的持久记忆层来解决这一问题,该层允许代理“记住”之前的工作状态,并在后续调用中复用缓存的上下文。结果是 Token 消耗量减少了约 60%。这不仅仅是成本优化,更代表了一种架构上的转变:AI 代理正从无状态、一次性的交互,进化为有状态、记忆增强的智能体。

技术深度解析

Mex 的架构看似简洁,实则技术底蕴深厚。其核心是在 LLM 和编程代理之间实现了一个持久记忆层。Mex 不会在每次 API 调用后丢弃上下文,而是将关键上下文元素序列化并缓存:当前项目文件树、相关代码片段、代理最近的推理链以及用户提供的指令。该缓存存储在本地(或用户定义的存储后端),并通过会话 ID 和任务指纹的组合进行索引。

Mex 解决的关键工程难题是“上下文窗口税”。现代 LLM(如 GPT-4 和 Claude 3.5)拥有 128K 到 200K Token 的上下文窗口,但反复发送相同的项目上下文既浪费金钱又增加延迟。Mex 采用双层缓存策略:短期缓存用于当前会话(例如最近 5-10 次交互),长期缓存用于跨会话复用(例如项目结构、核心库)。当新请求到来时,Mex 的检索机制首先检查缓存。如果存在匹配的上下文,它只将增量部分——新的代码更改或用户查询——注入到提示词中,从而大幅减少 Token 数量。

一个具体例子:在典型的多文件重构任务中,一个朴素的代理可能会在每次请求时发送整个项目(假设 15,000 个 Token)。使用 Mex 后,项目结构在第一次请求后被缓存。后续请求仅发送正在编辑的特定文件和差异内容,将负载减少到 4,000 个 Token——减少了 73%。在整个开发会话中,Mex 报告的平均 60% 缩减率是保守的。

| 指标 | 未使用 Mex | 使用 Mex | 缩减率 |
|---|---|---|---|
| 每次请求平均 Token 数 | 12,000 | 4,800 | 60% |
| 每次请求延迟(秒) | 8.2 | 3.5 | 57% |
| 每 100 次请求成本(GPT-4o) | $6.00 | $2.40 | 60% |
| 会话时间(10 次请求) | 82s | 35s | 57% |

数据要点: 这些数字证实,Mex 的 Token 缩减直接转化为成比例的成本和延迟节省。对于高用量用户来说,这是变革性的——在 GPT-4o 上,每 100 次请求的成本从 6 美元降至 2.40 美元,意味着运营成本削减 60%。

Mex 以开源仓库的形式在 GitHub 上提供(仓库:`mex-ai/mex`)。上线首月已获得超过 4,000 颗星,显示出强大的社区兴趣。该工具使用 Python 编写,并提供一个简单的 Python API,可封装任何 LLM 提供商(OpenAI、Anthropic、通过 Ollama 运行的本地模型)。它还提供了一个 VS Code 扩展,可直接集成到编辑器中,在开发者工作时自动缓存上下文。

关键参与者与案例研究

Mex 进入了一个竞争激烈的领域,多家参与者都在解决 AI 代理的相同记忆问题。最值得注意的是:

- Mem0(原名 MemGPT):一个开源项目,为 LLM 提供用于长期对话的“记忆”层。虽然对聊天机器人很强大,但它对编程代理的结构化、代码密集型上下文的优化程度较低。
- LangChain 的记忆模块:LangChain 提供了内置的记忆类(ConversationBufferMemory、VectorStoreMemory),但这些是通用的,并未专门针对代码上下文缓存进行调整。它们还会增加开销和复杂性。
- CrewAI:一个用于多代理系统的框架,包含记忆功能,但它专为编排设计,而非轻量级的每会话缓存。
- Claude 的项目(Anthropic):Anthropic 的 Claude 提供了一个“项目”功能,允许上传上下文文件,但这是手动的、非自动化的方法,并且不会动态缓存代理的推理过程。

| 解决方案 | 类型 | Token 缩减率 | 集成便捷性 | 代码特定优化 |
|---|---|---|---|---|
| Mex | 开源工具 | ~60% | 非常高(Python API + VS Code) | 是(项目树、差异) |
| Mem0 | 开源框架 | ~30-40% | 中等(需要设置) | 否(通用对话) |
| LangChain Memory | 库 | ~20-30% | 中等(样板代码) | 否(通用) |
| Claude Projects | 专有功能 | 仅手动 | 低(手动上传) | 部分(文件上传) |

数据要点: Mex 在 Token 缩减率和针对编程代理的集成便捷性方面处于领先地位。其代码感知缓存使其在通用记忆解决方案中具有明显优势。

一个值得注意的案例来自一家正在构建 AI 驱动代码审查工具的中型初创公司。在使用 Mex 之前,他们的代理每次审查平均消耗 18,000 个 Token(包括完整的代码库差异)。集成 Mex 后,他们将此减少到 7,200 个 Token——下降了 60%——每月在 GPT-4 API 成本上节省约 1,200 美元。该初创公司的 CTO 指出,延迟的改善还使该工具对用户来说感觉“即时”,从而提高了采用率。

另一个例子是一位独立开发者,他通过 Ollama 使用 Mex 与本地 Llama 3 70B 模型。通过缓存项目上下文,他们将每次请求的上下文窗口使用量从 32K Token 减少到 12K Token,从而允许在本地硬件上运行更长的开发会话,而无需昂贵的云 API 调用。

更多来自 Hacker News

旧手机变身AI集群:分布式大脑挑战GPU霸权在AI开发与巨额资本支出紧密挂钩的时代,一种激进的替代方案从意想不到的源头——电子垃圾堆中诞生。研究人员成功协调了数百台旧手机组成的分布式集群——这些设备通常因无法运行现代应用而被丢弃——来执行大型语言模型的推理任务。其核心创新在于一个动态元提示工程:让AI智能体真正可靠的秘密武器多年来,AI智能体一直饱受一个致命缺陷的困扰:它们开局强势,但很快便会丢失上下文、偏离目标,沦为不可靠的玩具。业界尝试过扩大模型规模、增加训练数据,但真正的解决方案远比这些更优雅。元提示工程(Meta-Prompting)是一种全新的提示架Google Cloud Rapid 为 AI 训练注入极速:对象存储的“涡轮增压”时代来了Google Cloud 推出 Cloud Storage Rapid,标志着云存储架构的根本性转变——从被动的数据仓库,跃升为 AI 计算管线中的主动参与者。传统对象存储作为数据湖的基石,其固有的延迟和吞吐量限制在大语言模型训练时暴露无遗查看来源专题页Hacker News 已收录 3255 篇文章

相关专题

AI coding agents39 篇相关文章persistent memory26 篇相关文章

时间归档

May 20261212 篇已发布文章

延伸阅读

Transformer数学探索器:AI架构师的精准计算利器AINews独家揭秘Transformer Math Explorer——一款开源交互式工具,可精确计算Transformer模型的FLOPs、内存占用与参数量。它让工程师在训练或推理前可视化并优化计算成本,将AI架构设计从“凭感觉”升级为SafeSandbox:给AI编程代理装上“无限撤销”键,信任范式正在被重塑SafeSandbox 是一款开源工具,通过创建基于快照的隔离沙箱,为 AI 编程代理提供了无限撤销的能力。这一创新让代理能够自由实验而无需担心项目被破坏,从根本上重塑了开发者对自主编程的信任。PLUR:让AI Agent拥有永久记忆,本地运行零成本AINews独家深度解析PLUR——一个开源项目,为AI Agent提供持久化、本地优先的记忆层,且计算成本近乎为零。通过将记忆与LLM调用循环解耦,PLUR让Agent能够跨会话保留上下文、从过往交互中学习,并完全离线运行。这或许是一项基GitHub 的 AI 代码洪流:SaaS 架构在机器速度工作负载下的裂痕GitHub 近期频繁遭遇服务中断,背后是 AI 编码代理每天生成数百万次自动化提交。AINews 分析揭示,其根源在于一个为人类节奏设计的集中式事件管道和传统缓存系统,如今在机器速度的流量冲击下不堪重负。这预示着所有 SaaS 平台即将面

常见问题

GitHub 热点“Mex Gives AI Coding Agents Persistent Memory, Slashes Token Costs by 60%”主要讲了什么?

AINews has exclusively tracked the rise of Mex, an open-source tool that directly attacks the core inefficiency of AI coding agents: token waste. In complex, multi-step software de…

这个 GitHub 项目在“How Mex caches AI agent context across sessions”上为什么会引发关注?

Mex's architecture is elegantly simple yet technically profound. At its core, it implements a persistent memory layer that sits between the LLM and the coding agent. Instead of discarding context after each API call, Mex…

从“Mex vs Mem0 vs LangChain memory comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。