技术深度解析
Loqi的创新之处在于它摒弃了传统的“上下文即缓冲区”范式。目前大多数长上下文实现方案,从OpenAI的128K上下文GPT-4 Turbo到Anthropic的200K上下文Claude 3,都依赖于滑动窗口注意力、分层摘要或基于向量的检索等技术的变体。这些方法有一个共同缺陷:它们将所有token视为同等可压缩和可检索的,从而丢失了赋予对话连贯性的关系结构。
Loqi的架构引入了三个协同工作的核心组件:
1. 语义图记忆(SGM):Loqi并非存储原始token或嵌入向量,而是构建一个动态图,其中节点代表概念、实体或情感状态,边则代表它们之间的关系。当压缩发生时,系统优先保留图的拓扑结构——即概念间的连接方式——而非试图保留每个节点的细节。这模仿了人类记忆的工作方式:我们记住观点之间关系的能力,往往比记住确切措辞更可靠。
2. 时序注意力门控:传统的注意力机制在整个上下文窗口上应用统一的计算。Loqi则实现了基于学习的门控机制,根据时间相关性和信息类型来调节注意力。对话早期的情感内容可能获得与事实陈述或逻辑前提不同的门控处理。在压缩过程中,这些门控有助于决定哪些内容应以更高保真度的形式保留,哪些可以安全地进行抽象。
3. 多分辨率记忆库:Loqi在不同分辨率级别上维护并行的记忆存储。高分辨率库为近期交换和关键概念保留精确措辞和具体细节。中分辨率库存储语义摘要和关系图谱。低分辨率库仅维持最广泛的情感基调和目标状态。检索时根据所需信息类型查询相应的记忆库,与搜索单一庞大的上下文缓冲区相比,这显著降低了计算负载。
该系统的性能指标(尽管仍来自有限的早期测试)显示出有希望的结果:
| 记忆系统 | 上下文窗口 | 连贯性得分 (0-100) | 压缩比 | 延迟增加 |
|---|---|---|---|---|
| 标准滑动窗口 | 128K tokens | 42.3 | 1:1 (无压缩) | 基线 |
| 分层摘要 | 128K → 32K | 58.1 | 4:1 | +15% |
| 向量检索 (RAG) | 无限 (理论) | 65.7 | 可变 | +40% |
| Loqi原型 | 128K → 16K | 81.4 | 8:1 | +22% |
*数据要点:Loqi在保持8:1激进压缩的同时,实现了显著更高的对话连贯性得分(81.4,对比次优RAG的65.7),这表明其架构方法保留了在传统方法中丢失的关系信息。*
在GitHub上,相关研究出现在诸如 `memory-graph-networks`(1.2k stars,探索基于图的Transformer记忆)和 `hierarchical-context-compression`(890 stars,专注于多分辨率方法)等代码库中。Loqi团队似乎正在这些开源基础之上进行构建,同时增加了围绕时序门控和语义结构保存的新颖组件。
关键参与者与案例研究
这场关于有效长上下文记忆的竞赛,涉及主要参与者的几种不同方法,各有不同的权衡取舍:
OpenAI的上下文管理:尽管OpenAI未详细说明其具体实现方式,但对GPT-4行为的分析表明,它结合了策略性截断和基于学习的压缩。该系统似乎能识别并保留其认为的“关键上下文”,同时让次要细节逐渐淡化。这对于事实一致性效果良好,但在情感连续性和微妙指涉方面存在困难。
Anthropic的宪法性压缩:Claude的方法似乎涉及研究人员所称的“宪法引导的摘要”,即模型的对齐训练会影响压缩过程中保留的内容。这有助于保持伦理一致性,但可能会在判定哪些对话元素值得记忆时引入偏见。
Google的Gemini与Pathways架构:Google的研究论文暗示,其正在利用Pathways基础设施,通过专门的子系统路由不同类型的记忆。早期测试显示,在事实回忆方面表现强劲,但在维持对话语气和个性一致性方面结果不尽如人意。
初创公司创新:多家初创公司正在从不同角度攻克此问题。Adept的Fuyu架构专注于AI代理的任务持久性记忆。Inflection AI(在被微软收购前)曾探索对话中的情感连续性。Cohere的Command R+实现了复杂的检索增强生成,但在检索记忆与当前上下文的无缝整合方面仍存在困难。