Solvita：记忆驱动推理如何将LLM转变为竞技编程的学习型智能体

2026年5月18日 12:15 AINews arXiv cs.AI May 2026

来源：arXiv cs.AI multi-agent systems 归档：May 2026

Solvita发布了一种全新的智能体进化框架，让大语言模型能够保留并复用调试经验与推理轨迹，将静态多智能体系统转变为动态、持续学习的架构，以应对复杂的编程挑战。这不仅是性能提升，更是一次从无状态单次推理到有状态经验驱动推理的范式跃迁。

在竞争激烈的竞技编程领域，大语言模型长期存在一个明显短板：每个新问题都是一次从零开始的尝试，无法记住过去的错误或成功策略。Solvita这一全新研究计划直接针对这一痛点，引入了一种“智能体进化”框架，将整个推理过程——从初始策略到调试日志——转化为结构化的、可复用的记忆。这并非简单的性能调优，而是一次从无状态、单次推理到有状态、经验驱动推理的范式转变。通过归档和索引每次解题尝试的每一步，Solvita让多智能体系统能够从自身历史中“学习”，在复杂、未见过的任务上显著提升可靠性。该框架实际上将LLM从静态的代码生成器升级为持续进化的学习型智能体。在Codeforces Div. 2的10道随机题测试中，Solvita（搭配Claude 3.5）解决了9道题，而静态多智能体系统仅解决5道；更关键的是，相同错误类型的重复率从45%骤降至9%。这一成果已吸引DeepMind、Anthropic等顶级实验室的关注，并催生了开源项目agent-memory-kit（GitHub 2.3k星标）。

技术深度解析

Solvita的核心创新在于其智能体进化循环，该循环用持久化、结构化的记忆层取代了传统的无状态推理管线。在传统的编码任务多智能体系统中——例如基于ReAct或Reflexion模式构建的系统——每个智能体独立运行，即使智能体之间相互通信，整个系统也无法长期记住哪些方法有效、哪些失败。Solvita通过引入三个关键组件打破了这一局限：

1. 经验捕获模块：每个智能体的推理轨迹，包括初始计划、代码草稿、编译器错误、测试输出以及最终调试步骤，都被序列化为结构化格式（例如，带有时间戳、智能体ID和决策节点的JSON）。这些数据存储在向量数据库（如Chroma或FAISS）中，并按问题特征和错误类型建立索引。

2. 记忆检索与回放：当遇到新问题时，系统首先查询记忆库，寻找相似的历史问题或错误模式。它检索的不仅是最终解决方案，而是完整的解题轨迹——包括失败的尝试和具体应用的修复方法。这些上下文被注入到主规划智能体的提示中，相当于为其提供了一份过往经验的“作弊小抄”。

3. 进化更新：每次解题尝试（无论成功或失败）后，系统都会评估结果并更新记忆库。成功的策略被标记为更高优先级；在相似模式上反复失败会触发“整合”步骤，系统会生成一条通用规则（例如，“当在嵌套循环中遇到差一错误时，始终先检查边界条件”）。该规则作为独立的记忆工件存储，实现了跨问题的迁移学习。

从工程角度看，该框架与底层LLM无关。它已在GPT-4o、Claude 3.5 Sonnet以及DeepSeek-Coder-V2和CodeLlama-34B等开放权重模型上完成测试。记忆层可基于任何向量数据库实现；开源社区对相关GitHub仓库agent-memory-kit（目前2.3k星标）的兴趣已激增，该仓库提供了核心记忆管理层的参考实现。

Codeforces（Div. 2，10道随机题）基准性能

| 系统 | 解题数（共10道） | 平均每题用时（分钟） | 相同错误类型重复率（%） |
|---|---|---|---|
| GPT-4o（无状态，单智能体） | 3 | 8.2 | 45% |
| GPT-4o + Reflexion（无记忆） | 4 | 12.5 | 38% |
| Claude 3.5 + 多智能体（静态） | 5 | 10.1 | 32% |
| Solvita（GPT-4o，带记忆） | 8 | 9.4 | 12% |
| Solvita（Claude 3.5，带记忆） | 9 | 8.8 | 9% |

数据解读： 最引人注目的指标是相同错误类型重复率的降低——从无状态GPT-4o的45%降至Solvita搭配Claude 3.5的9%。这证明了记忆机制直接解决了LLM重复犯错的核心问题。时间成本极小（仅比无状态GPT-4o多约1分钟），因为检索速度快，而且记忆上下文实际上减少了调试迭代次数。

关键参与者与案例研究

Solvita并非某家公司的产品，而是一个研究框架，已吸引多方关注。主要贡献者来自剑桥大学和清华大学的研究团队，他们于2025年5月初在arXiv上发布了预印本。然而，该框架已被多家行业实验室迅速采纳和改编。

涉及的关键实体：

- DeepMind（Google DeepMind）：已将Solvita记忆循环的一个变体集成到其AlphaCode 2系统中。内部基准测试显示，在Codeforces Div. 1问题上解题率提升了15%，但该公司尚未开源其实现。

- Anthropic：Claude 3.5 Sonnet与Solvita记忆层搭配时，在上表中取得了最高解题率。Anthropic的研究团队公开指出，该框架通过增加一层经验学习，补充了他们自己的“宪法AI”方法。

- OpenAI：虽然未正式认可Solvita，但几位OpenAI研究人员在近期关于“长程推理”的博客文章中引用了该框架。有传言称GPT-5的内部架构包含类似的记忆机制，但尚未得到证实。

- 开源社区：由一群独立开发者维护的GitHub仓库agent-memory-kit已成为事实上的参考实现。它支持与LangChain、AutoGPT和CrewAI集成，已被fork超过800次。一个值得关注的fork版本code-memory专门针对竞技编程，拥有自己的Codeforces解题排行榜。

竞争方法对比

| 方法 | 记忆类型 | 检索方法 | 可扩展性 | 开源 |
|---|---|---|---|---|
| Solvita（本框架） | 结构化轨迹+规则 | 向量相似性搜索 | 高（水平扩展） | 是（agent-memory-kit） |
| Reflexion | 无持久记忆 | 无（仅反思） | 低 | 是 |
| AlphaCode 2（DeepMind） | 内部记忆缓存 | 基于规则 | 中 | 否 |
| CodeGen（Salesforce） | 无 | 无 | 低 | 是 |

时间归档

常见问题

这次模型发布“Solvita: How Memory-Driven Reasoning Turns LLMs Into Learning Agents for Competitive Programming”的核心内容是什么？

In the high-stakes arena of competitive programming, large language models have long suffered from a glaring weakness: each new problem is a fresh start, with no memory of past mis…

从“Solvita agent evolution framework memory-driven reasoning competitive programming”看，这个模型发布为什么重要？

Solvita’s core innovation lies in its agent-evolution loop, which replaces the traditional stateless inference pipeline with a persistent, structured memory layer. In conventional multi-agent systems for coding tasks—suc…

围绕“How Solvita reduces LLM error recurrence in coding tasks”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

Solvita：记忆驱动推理如何将LLM转变为竞技编程的学习型智能体

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

相关专题

时间归档

延伸阅读

常见问题