Solvita:记忆驱动推理如何将LLM转变为竞技编程的学习型智能体

arXiv cs.AI May 2026
来源:arXiv cs.AImulti-agent systems归档:May 2026
Solvita发布了一种全新的智能体进化框架,让大语言模型能够保留并复用调试经验与推理轨迹,将静态多智能体系统转变为动态、持续学习的架构,以应对复杂的编程挑战。这不仅是性能提升,更是一次从无状态单次推理到有状态经验驱动推理的范式跃迁。

在竞争激烈的竞技编程领域,大语言模型长期存在一个明显短板:每个新问题都是一次从零开始的尝试,无法记住过去的错误或成功策略。Solvita这一全新研究计划直接针对这一痛点,引入了一种“智能体进化”框架,将整个推理过程——从初始策略到调试日志——转化为结构化的、可复用的记忆。这并非简单的性能调优,而是一次从无状态、单次推理到有状态、经验驱动推理的范式转变。通过归档和索引每次解题尝试的每一步,Solvita让多智能体系统能够从自身历史中“学习”,在复杂、未见过的任务上显著提升可靠性。该框架实际上将LLM从静态的代码生成器升级为持续进化的学习型智能体。在Codeforces Div. 2的10道随机题测试中,Solvita(搭配Claude 3.5)解决了9道题,而静态多智能体系统仅解决5道;更关键的是,相同错误类型的重复率从45%骤降至9%。这一成果已吸引DeepMind、Anthropic等顶级实验室的关注,并催生了开源项目agent-memory-kit(GitHub 2.3k星标)。

技术深度解析

Solvita的核心创新在于其智能体进化循环,该循环用持久化、结构化的记忆层取代了传统的无状态推理管线。在传统的编码任务多智能体系统中——例如基于ReAct或Reflexion模式构建的系统——每个智能体独立运行,即使智能体之间相互通信,整个系统也无法长期记住哪些方法有效、哪些失败。Solvita通过引入三个关键组件打破了这一局限:

1. 经验捕获模块:每个智能体的推理轨迹,包括初始计划、代码草稿、编译器错误、测试输出以及最终调试步骤,都被序列化为结构化格式(例如,带有时间戳、智能体ID和决策节点的JSON)。这些数据存储在向量数据库(如Chroma或FAISS)中,并按问题特征和错误类型建立索引。

2. 记忆检索与回放:当遇到新问题时,系统首先查询记忆库,寻找相似的历史问题或错误模式。它检索的不仅是最终解决方案,而是完整的解题轨迹——包括失败的尝试和具体应用的修复方法。这些上下文被注入到主规划智能体的提示中,相当于为其提供了一份过往经验的“作弊小抄”。

3. 进化更新:每次解题尝试(无论成功或失败)后,系统都会评估结果并更新记忆库。成功的策略被标记为更高优先级;在相似模式上反复失败会触发“整合”步骤,系统会生成一条通用规则(例如,“当在嵌套循环中遇到差一错误时,始终先检查边界条件”)。该规则作为独立的记忆工件存储,实现了跨问题的迁移学习。

从工程角度看,该框架与底层LLM无关。它已在GPT-4o、Claude 3.5 Sonnet以及DeepSeek-Coder-V2和CodeLlama-34B等开放权重模型上完成测试。记忆层可基于任何向量数据库实现;开源社区对相关GitHub仓库agent-memory-kit(目前2.3k星标)的兴趣已激增,该仓库提供了核心记忆管理层的参考实现。

Codeforces(Div. 2,10道随机题)基准性能

| 系统 | 解题数(共10道) | 平均每题用时(分钟) | 相同错误类型重复率(%) |
|---|---|---|---|
| GPT-4o(无状态,单智能体) | 3 | 8.2 | 45% |
| GPT-4o + Reflexion(无记忆) | 4 | 12.5 | 38% |
| Claude 3.5 + 多智能体(静态) | 5 | 10.1 | 32% |
| Solvita(GPT-4o,带记忆) | 8 | 9.4 | 12% |
| Solvita(Claude 3.5,带记忆) | 9 | 8.8 | 9% |

数据解读: 最引人注目的指标是相同错误类型重复率的降低——从无状态GPT-4o的45%降至Solvita搭配Claude 3.5的9%。这证明了记忆机制直接解决了LLM重复犯错的核心问题。时间成本极小(仅比无状态GPT-4o多约1分钟),因为检索速度快,而且记忆上下文实际上减少了调试迭代次数。

关键参与者与案例研究

Solvita并非某家公司的产品,而是一个研究框架,已吸引多方关注。主要贡献者来自剑桥大学和清华大学的研究团队,他们于2025年5月初在arXiv上发布了预印本。然而,该框架已被多家行业实验室迅速采纳和改编。

涉及的关键实体:

- DeepMind(Google DeepMind):已将Solvita记忆循环的一个变体集成到其AlphaCode 2系统中。内部基准测试显示,在Codeforces Div. 1问题上解题率提升了15%,但该公司尚未开源其实现。

- Anthropic:Claude 3.5 Sonnet与Solvita记忆层搭配时,在上表中取得了最高解题率。Anthropic的研究团队公开指出,该框架通过增加一层经验学习,补充了他们自己的“宪法AI”方法。

- OpenAI:虽然未正式认可Solvita,但几位OpenAI研究人员在近期关于“长程推理”的博客文章中引用了该框架。有传言称GPT-5的内部架构包含类似的记忆机制,但尚未得到证实。

- 开源社区:由一群独立开发者维护的GitHub仓库agent-memory-kit已成为事实上的参考实现。它支持与LangChain、AutoGPT和CrewAI集成,已被fork超过800次。一个值得关注的fork版本code-memory专门针对竞技编程,拥有自己的Codeforces解题排行榜。

竞争方法对比

| 方法 | 记忆类型 | 检索方法 | 可扩展性 | 开源 |
|---|---|---|---|---|
| Solvita(本框架) | 结构化轨迹+规则 | 向量相似性搜索 | 高(水平扩展) | 是(agent-memory-kit) |
| Reflexion | 无持久记忆 | 无(仅反思) | 低 | 是 |
| AlphaCode 2(DeepMind) | 内部记忆缓存 | 基于规则 | 中 | 否 |
| CodeGen(Salesforce) | 无 | 无 | 低 | 是 |

更多来自 arXiv cs.AI

基准测试幻象:为何高分AI模型在真实知识工作中频频翻车AI行业长期以来一直以模型在MMLU、HumanEval和GSM8K等基准测试排行榜上名列前茅为荣。但一项由多机构研究人员联合开展的新研究指出,这些指标与真实知识工作的需求存在根本性错位。研究认为,当前基准测试仍遵循传统NLP任务的逻辑——战略推理盲区:为何大语言模型在真实经济博弈中频频翻车大语言模型作为经济智能体的部署——在广告拍卖中出价、谈判合同、交易资产——其速度已远超我们评估其战略能力的能力。AINews的深度分析指出,现有基于固定博弈论模型(如囚徒困境、最后通牒博弈)的基准测试,正随着模型能力的提升而迅速饱和。这制造Foundation Protocol:为智能体社会打造的隐藏操作系统孤立的AI智能体时代正在终结。随着自主系统从单一用途工具演变为数字社会的基础设施,一个关键瓶颈浮出水面:协调。一篇新论文介绍了Foundation Protocol,这是一个专为智能体间协调而构建的协议层。它解决了建立可靠关系、组织多智能体查看来源专题页arXiv cs.AI 已收录 380 篇文章

相关专题

multi-agent systems166 篇相关文章

时间归档

May 20262703 篇已发布文章

延伸阅读

隐形指挥家:看不见的AI层级如何制造危险的道德脱离一项涵盖365次运行、5个智能体LLM系统的3x2实验揭示:隐形编排者——企业AI的默认架构——相比可见领导者或扁平结构,显著降低了风险感知与保护性响应。这不是技术故障,而是一场系统性的道德脱离危机。AI智能体在潜空间密谋结盟:新型“谱系检测”技术提前识破暗箱操作一种基于“谱系诊断”的全新方法,能在AI智能体内部表征层面发现秘密联盟的形成,远早于任何可观测的协调行为。该技术通过分析隐藏层激活值,捕捉传统行为监控完全忽略的信息耦合,将AI安全从被动响应升级为主动预防。智能体安全的关键不在模型本身,而在于它们如何“对话”一份里程碑式的立场论文彻底颠覆了长期以来的假设:单个模型安全,多智能体系统就自动安全。研究揭示,智能体的安全与公平性由交互拓扑结构——即智能体如何沟通、协商与决策——所决定,而非模型规模或对齐技术。这一发现将整个AI安全领域重新导向系统架构MoltBook 研究:两百万智能体证明,集体智能需要工程而非规模一项基于 MoltBook 平台、涉及超过两百万自主智能体的新实证研究,系统性地检验了集体智能是否会随规模自动涌现。结果发出了严厉警告:更多智能体并不保证更好的问题解决能力,真正的集体智能必须被主动设计,而非被动等待。

常见问题

这次模型发布“Solvita: How Memory-Driven Reasoning Turns LLMs Into Learning Agents for Competitive Programming”的核心内容是什么?

In the high-stakes arena of competitive programming, large language models have long suffered from a glaring weakness: each new problem is a fresh start, with no memory of past mis…

从“Solvita agent evolution framework memory-driven reasoning competitive programming”看,这个模型发布为什么重要?

Solvita’s core innovation lies in its agent-evolution loop, which replaces the traditional stateless inference pipeline with a persistent, structured memory layer. In conventional multi-agent systems for coding tasks—suc…

围绕“How Solvita reduces LLM error recurrence in coding tasks”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。