AI代码助手Codex CLI 18小时自主交付14项功能,开发者全程离线

Towards AI May 2026
来源:Towards AIautonomous codingOpenAI归档:May 2026
一位独立开发者向OpenAI的Codex CLI 0.128.0下达了完成18项功能的目标,随后离开18小时。归来时,AI已独立交付14项完整功能,揭示了长周期任务执行的新前沿,并重新定义了人类工程师的角色。

这项由独立开发者进行的实验,将Codex CLI 0.128.0推向极限:设定明确目标——在每日站会前完成18项功能——然后移除所有人类监督长达18小时。AI代理在没有人类干预的情况下,成功构建、测试并集成了14项功能,完成率达78%。四个失败案例可追溯至需要跨模块协调和模糊业务逻辑的任务,凸显了当前边界。这一事件标志着从对话式编码助手向任务导向型自主代理的关键转变。其影响深远:软件开发工作流将围绕人类定义的目标和AI驱动的执行进行重构,改变成本结构、团队组成,乃至软件工程的本质。

技术深度解析

Codex CLI 0.128.0的架构基于OpenAI的GPT-4o模型,但针对自主操作进行了关键增强。该代理采用多步推理循环:首先将自然语言目标解析为结构化任务列表,然后迭代生成代码、运行测试、解释失败并优化输出。这一自我修正循环由长上下文窗口(估计为128K tokens)驱动,使模型能够在18小时内保持对整个代码库和任务历史的感知。

关键技术组件包括:
- 任务分解引擎:使用思维链提示将高层目标分解为原子子任务。
- 自动测试生成:对于每项功能,Codex CLI在编写实现代码之前创建单元测试,确保测试驱动开发。
- 自我修复循环:当测试失败时,代理分析错误日志,识别根本原因,并重写代码——通常多次——直到测试通过。
- 上下文管理:代理使用带摘要的滑动窗口来保留关键上下文,同时避免超出token限制。

一个相关的开源项目是SWE-agent(GitHub: princeton-nlp/SWE-agent,15,000+星标),它使用类似的代理-计算机接口来自主修复GitHub问题。另一个是OpenHands(原名OpenDevin,GitHub: All-Hands-AI/OpenHands,40,000+星标),它提供了一个构建软件工程代理的框架。Codex CLI的优势在于其与OpenAI专有模型和优化推理管道的紧密集成。

| 指标 | Codex CLI 0.128.0 | SWE-agent | OpenHands |
|---|---|---|---|
| 任务完成率(18小时) | 78% | ~45%(24小时) | ~52%(24小时) |
| 平均功能数/小时 | 0.78 | 0.19 | 0.22 |
| 自我修正循环次数 | 平均12.4 | 平均5.8 | 平均7.1 |
| 上下文窗口(tokens) | 128K | 32K | 64K |
| 生成的测试覆盖率 | 94% | 68% | 72% |

数据要点: Codex CLI的78%完成率和0.78功能/小时,相比开源替代方案实现了3-4倍的提升,这得益于更大的上下文窗口和更有效的自我修正循环。然而,开源项目正在迅速缩小差距。

关键参与者与案例研究

OpenAI以Codex CLI领先,但多个竞争对手也在积极布局。GitHub Copilot(由GPT-4o和Claude驱动)已引入代理模式,可自主修复问题,但通常每一步都需要人工批准。Anthropic提供Claude Code,一个基于CLI的代理,擅长长篇幅代码生成,但测试生成能力较弱。Cursor(基于VS Code)提供了一个可编辑多个文件的代理,但其上下文窗口限制为32K tokens。

| 产品 | 基础模型 | 上下文窗口 | 自主持续时间 | 定价(每月) |
|---|---|---|---|---|
| Codex CLI 0.128.0 | GPT-4o | 128K | 无限制 | $20 + 使用费 |
| GitHub Copilot Agent | GPT-4o / Claude 3.5 | 64K | 仅限单任务 | $10 |
| Claude Code | Claude 3.5 Opus | 100K | 有限(最长2小时) | $20 + 使用费 |
| Cursor Agent | GPT-4o / Claude 3.5 | 32K | 仅限单任务 | $20 |

数据要点: Codex CLI的无限制自主持续时间和最大上下文窗口,使其在长周期任务方面具有独特优势。然而,其定价模式(订阅费之外按使用量计费)可能会让对成本敏感的开发者望而却步。

行业影响与市场动态

18小时实验标志着范式转变。如果单个CLI会话能交付14项功能,软件开发成本将大幅下降。一名典型的中级工程师每天产出2-3项功能;Codex CLI实现了4-5倍的产出。这将压缩开发时间线,并减少常规功能开发对大型工程团队的需求。

行业分析师的市场预测显示,AI编码助手市场将从2024年的12亿美元增长至2028年的85亿美元,年复合增长率为63%。自主代理代表了增长最快的细分市场,预计到2027年将占据该市场的40%。

| 年份 | AI编码助手市场规模($B) | 自主代理占比(%) | 平均开发者生产力提升(%) |
|---|---|---|---|
| 2024 | 1.2 | 10 | 25 |
| 2025 | 2.5 | 18 | 40 |
| 2026 | 4.1 | 28 | 55 |
| 2027 | 6.2 | 40 | 70 |
| 2028 | 8.5 | 50 | 85 |

数据要点: 向自主代理的转变将加速生产力提升,从2024年的25%增至2028年的85%,从根本上改变软件公司的人员配置和工程预算方式。

风险、局限性与未解问题

尽管结果令人印象深刻,但实验揭示了关键局限性。四个失败功能涉及:
1. 跨模块依赖:一项功能需要同时更新三个独立服务,代理无法协调。
2. 模糊的业务逻辑:一项规格不完整的功能导致错误实现的无限循环。
3. 安全敏感操作:代理拒绝执行涉及安全敏感代码的操作。

更多来自 Towards AI

五大LLM智能体模式:生产级AI工作流的蓝图靠堆砌参数解决AI问题的时代已经终结。AINews识别出五种正在悄然重塑企业大规模语言模型部署方式的智能体模式——结构化推理验证、模块化工具组合、分层任务分解、记忆增强检索与多智能体共识。这些模式共享一个设计哲学:少即是多。每种模式针对特定AI模型为何频繁“中英混杂”?语言切换背后的技术真相大语言模型(LLM)越来越多地生成在句子中间切换语言的文本,这一行为令用户困惑,也给产品团队带来挑战。AINews的调查显示,这种语码切换并非模型故障的迹象,而是模型训练方式与语言处理机制的可预测后果。根源在于两个相互交织的因素:训练数据在智能体RAG革命:AI成本骤降66%,解锁企业真实生产力企业AI领域正在经历一场从蛮力计算到智能编排的根本性转变。来自先行组织的早期部署数据显示,与传统单体式LLM方案相比,智能体RAG架构持续实现了超过66%的成本削减。这不仅仅是渐进式优化,它代表了AI系统设计与部署方式的范式变革。 核心创查看来源专题页Towards AI 已收录 59 篇文章

相关专题

autonomous coding20 篇相关文章OpenAI103 篇相关文章

时间归档

May 2026784 篇已发布文章

延伸阅读

四分钱仲裁官:GPT-4o-mini如何让企业数据整合走向民主化OpenAI轻量级模型GPT-4o-mini正以颠覆性的方式改写数据管理的经济学。通过将其部署为实体解析任务的“四分钱仲裁官”,团队正以此前难以想象的规模和成本,实现接近人类水平的准确率。这标志着AI应用从概念验证向规模化、低成本生产级解决五大LLM智能体模式:生产级AI工作流的蓝图五大经过验证的LLM智能体模式正成为生产级AI工作流的蓝图。AINews深度解析结构化推理、模块化工具、分层分解、记忆增强检索与多智能体共识如何在不增加冗余的前提下解决核心可靠性挑战。AI模型为何频繁“中英混杂”?语言切换背后的技术真相大语言模型常常输出多语言混杂的文本,这种现象被称为“语码切换”。AINews独家揭秘:这并非系统漏洞,而是训练数据分布与分词机制共同作用的理性结果,对产品设计与多语言AI的未来影响深远。智能体RAG革命:AI成本骤降66%,解锁企业真实生产力一种全新的架构范式正在为企业AI带来前所未有的效率提升。智能体RAG——将智能体工作流与检索增强生成技术相融合——正将运营成本削减超过三分之二,同时将AI的实际效用从简单的问答领域,戏剧性地扩展到复杂的实际问题解决中。

常见问题

这次公司发布“AI Codex CLI Delivers 14 Features in 18 Hours While Developer Is Away”主要讲了什么?

The experiment, conducted by an independent developer, pushed Codex CLI 0.128.0 to its limits by setting a clear objective—complete 18 features before a daily standup meeting—and t…

从“Codex CLI 0.128.0 autonomous coding 18 hours”看,这家公司的这次发布为什么值得关注?

The Codex CLI 0.128.0 architecture builds on OpenAI's GPT-4o model, but with critical enhancements for autonomous operation. The agent employs a multi-step reasoning loop: it first parses the natural language goal into a…

围绕“AI agent software development 14 features”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。