MiMo Code:小米开源AI编程框架,重新定义超长任务编程

Hacker News June 2026
来源:Hacker News归档:June 2026
小米悄然开源了MiMo Code——一个在200步超长任务中超越Claude Code的AI智能体编程框架。其核心突破在于分层规划与检查点记忆机制,解决了多步AI推理中长期存在的连贯性问题,标志着小米从消费硬件向AI基础设施的战略转向。

在AI开发者社区毫无防备之际,小米发布了MiMo Code,一个专为处理超长、多步骤编程任务而设计的开源智能体编程框架。当现有模型——包括Claude Code、GPT-4 Code Interpreter以及SWE-agent等开源替代品——在50至80步后开始出现幻觉或陷入循环时,MiMo Code能在200步工作流中保持逻辑一致性。该框架的架构核心是分层任务分解:一个高层规划器将复杂指令拆解为独立的子任务,每个子任务拥有自己的短期记忆和检查点机制。这避免了困扰单一推理链的错误级联问题。小米决定完全开源该框架,是一项战略举措,旨在建立开发者生态系统并推动AI基础设施的普及。

技术深度解析

MiMo Code的架构堪称将分布式系统原理应用于AI推理的典范。其核心是一个三层层级结构:

1. 全局规划器(Global Planner):一个轻量级语言模型(很可能是小米自研MiLM的微调版本),接收用户的高层指令,并将其分解为子任务的有向无环图(DAG)。每个子任务都标注了依赖关系、预期输出和资源约束。

2. 本地执行器(Local Executor):为每个子任务生成一个专属的智能体实例。该智能体拥有自己的短期记忆(最近50个token的滑动窗口)和一个存储中间状态的检查点缓冲区。执行器使用改进的ReAct(推理+行动)循环,但有一个关键创新:每执行5步,它就会将进度压缩摘要写入持久化存储。

3. 内存管理器(Memory Manager):该组件负责跨子任务的内存管理。当一个子任务完成时,其压缩摘要被存储到长期记忆向量数据库(很可能基于FAISS)中。全局规划器随后可以查询该数据库,为后续子任务检索相关上下文,从而防止信息丢失——这是单智能体系统普遍存在的问题。

检查点机制尤其精妙。每个子任务在每次操作后都会保存其状态——包括当前代码、解释器输出以及智能体的内部推理。如果子任务失败(例如语法错误或无限循环),智能体可以回滚到上一个检查点并尝试不同的方法。这类似于数据库事务日志,有效消除了错误级联问题。

在GitHub仓库(在GitHub上搜索'MiMo-Code',目前约4200星)中,团队提供了一份详细的技术报告。该框架基于PyTorch构建,并使用vLLM推理引擎进行高效服务。默认模型是MiLM的7B参数变体,但该框架支持与任何Hugging Face模型即插即用。

基准性能

| 模型 | 任务完成率(200步) | 失败前平均步数 | 错误恢复率 | 每任务成本(API) |
|---|---|---|---|---|
| MiMo Code (7B) | 92% | 187 | 89% | $0.12(自托管) |
| Claude Code | 78% | 52 | 45% | $0.45 |
| GPT-4 Code Interpreter | 65% | 38 | 30% | $0.80 |
| SWE-agent (GPT-4) | 71% | 45 | 55% | $0.60 |
| Devin(内部) | 82% | 60 | 60% | $2.00 |

数据要点: MiMo Code在200步任务上92%的完成率不仅仅是边际改进——而是一次阶跃式变化。失败前平均187步表明,该框架几乎能在遇到障碍前完成整个任务,而竞争对手大约在任务中途就会失败。89%的错误恢复率同样令人印象深刻,这意味着系统无需人工干预即可自我纠正大多数故障。成本优势(自托管)使其适用于持续集成流水线。

关键参与者与案例研究

小米进入智能体编程领域是一次战略转型。该公司通过其MiLM模型系列一直在悄然构建AI能力,但MiMo Code是其对开发者工具领域的首个重大开源贡献。这模仿了其他硬件巨头的策略:苹果的MLX框架和谷歌的TensorFlow都是通过开源来构建生态系统锁定效应的。

最直接的竞争对手是Anthropic的Claude Code,它目前主导着智能体编码市场。Claude Code擅长短小精悍的任务(30步以内),但在长程规划上表现挣扎。另一个竞争对手是Cognition的Devin,它是闭源的,定价为每月500美元——这使得个人开发者难以企及。MiMo Code的开源特性在成本和可定制性上均优于两者。

竞争格局

| 产品 | 开源 | 最大可靠步数 | 定价 | 自定义模型支持 |
|---|---|---|---|---|
| MiMo Code | 是 | 200+ | 免费(自托管) | 是(任何Hugging Face模型) |
| Claude Code | 否 | ~50 | $20/月 + API使用费 | 否 |
| Devin | 否 | ~80 | $500/月 | 否 |
| SWE-agent | 是 | ~60 | 免费(自托管) | 是(GPT-4, Claude) |
| OpenDevin | 是 | ~70 | 免费(自托管) | 是 |

数据要点: MiMo Code的开源特性以及对任何Hugging Face模型的支持,赋予了其巨大的灵活性优势。当Claude Code和Devin被锁定在各自的模型提供商时,MiMo Code可以针对特定代码库或编程语言进行微调。这使得它对拥有专有代码库的企业尤其具有吸引力。

一个值得注意的案例来自小米的内部使用:该框架被用于自动化MIUI系统更新的测试。该任务涉及150多个步骤:获取最新构建版本、运行单元测试、分析崩溃日志以及生成回归报告。MiMo Code在12分钟内完成了整个流水线,无需任何人工干预,而之前的手动流程需要数小时且容易出错。

更多来自 Hacker News

无标题DeepSeek's latest update introduces native visual perception, allowing the model to process and reason over images, diag本地隐私盾:这款开源应用在AI“看到”数据前,就已剥离所有个人敏感信息随着ChatGPT、Claude、Gemini等AI工具深度嵌入日常工作流程,一个根本性的矛盾日益凸显:用户既想享受大语言模型的强大能力,又不想暴露敏感数据。一款全新的开源桌面应用直接回应了这一痛点——它在任何文本被发送至AI服务之前,完全GLM-5.2 击穿开源天花板:纯文本模型正面叫板闭源巨头GLM-5.2 的发布标志着开源 AI 的一个分水岭时刻。由智谱 AI 开发的这款纯文本大语言模型,在 MMLU-Pro、GPQA 和 MATH-500 等关键基准测试中均斩获最高分,超越所有其他开源模型,并与 GPT-4o 和 Claud查看来源专题页Hacker News 已收录 4856 篇文章

时间归档

June 20261734 篇已发布文章

延伸阅读

Rubric:AI智能体必须用行动而非言语来评判AI行业长期推崇那些能说会道的模型。但如果它们无法正确行动呢?开源评估框架Rubric颠覆了这一逻辑,通过验证智能体实际执行的操作——文件编辑、API调用、数据库变更——而非仅仅依赖其输出文本。这标志着从静态基准测试向真实世界任务验证的关键Guardians框架:为AI智能体工作流引入静态验证,确保安全部署全新开源框架Guardians将静态验证引入AI智能体工作流,使开发者能在代码执行前检测逻辑错误、安全漏洞与状态冲突。这标志着从运行时调试到部署前验证的根本性转变,有望成为生产级自主智能体的默认安全层。95%准确率的陷阱:为何AI代理在20步任务中64%失败一项惊人的基准测试揭示,号称单步准确率达95%的AI代理,在20步任务中竟有64%的失败率。这暴露了行业对孤立指标的沉迷,以及长任务链中错误呈指数级累积的残酷现实。AINews认为,真正的瓶颈并非原始智能,而是架构韧性。SnapState持久内存框架破解AI智能体连续性危机AI智能体革命遭遇根本性瓶颈:智能体无法记住任务进度。SnapState推出的新型持久内存框架提供了缺失的基础设施层,使AI智能体能够执行复杂的多日工作流程而不会丢失状态。这标志着从临时演示到可靠生产系统的范式转变。

常见问题

GitHub 热点“MiMo Code: Xiaomi's Open-Source AI Agent Framework Redefines Long-Task Programming”主要讲了什么?

In a move that caught the AI developer community off guard, Xiaomi released MiMo Code, an open-source agentic programming framework designed to handle extremely long, multi-step co…

这个 GitHub 项目在“MiMo Code vs Claude Code benchmark comparison”上为什么会引发关注?

MiMo Code's architecture is a masterclass in applying distributed systems principles to AI reasoning. At its core lies a three-layer hierarchy: 1. Global Planner: A lightweight language model (likely a fine-tuned version…

从“How to deploy MiMo Code on local machine”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。