OpenAI收购Ona:Codex从代码助手进化为自主项目经理

Hacker News June 2026
来源:Hacker NewsOpenAICodex归档:June 2026
OpenAI收购了专注于自主代码修复与长周期任务规划的隐形初创公司Ona。这绝非一次简单的功能补丁——而是一次战略跃迁,旨在将Codex从代码编写副驾驶转变为能够管理整个软件项目的自主开发智能体。

OpenAI对Ona的收购标志着AI编程助手领域的重大转折。Ona的核心技术填补了当前大语言模型的关键短板:无法处理涉及跨文件逻辑、依赖解析和自主纠错的多步骤、长周期任务。尽管GPT-4o和Claude 3.5等模型能生成令人惊艳的单次代码,但当要求它们自主完成调试函数、运行测试、回滚更改并最终部署时,它们便力不从心。Ona的技术使AI能够持续理解整个代码库的状态,规划行动序列,并在无需人工干预的情况下从错误中恢复。这将Codex从“副驾驶”转变为“开发智能体”,使其能够参与从初始提交到部署的完整软件生命周期。

技术深度解析

缺失的一环:执行智能

当前的大语言模型擅长在孤立场景下生成语法正确的代码片段。然而,现实世界的软件工程需要应对错综复杂的依赖网络:一个文件的改动可能破坏另一个文件的导入,测试失败可能需要回滚提交,而部署流水线则包含多个阶段和回滚逻辑。这正是Ona技术的用武之地。

Ona的架构围绕三个核心组件构建:

1. 持久化代码库状态表示:与仅能看到当前提示的无状态LLM不同,Ona维护了一个动态的代码库图——包含类、函数、导入、测试文件及其相互关系。当智能体做出更改时,该图会实时更新,使其能够推理跨文件的副作用。这与开源项目RepoGraph(github.com/repograph/repograph,约4.2k星标)的方法类似,后者为代码库构建语义依赖图,但Ona的版本针对实时智能体决策进行了优化。

2. 长周期任务规划器:Ona使用分层规划器,将高层次目标(例如“修复登录Bug”)分解为一系列子任务:定位Bug、编写修复代码、运行测试、检查覆盖率、提交和部署。每个子任务都有前置条件和后置条件。如果测试失败,规划器可以回溯并尝试替代修复方案,而不是简单地输出新代码。这与大多数LLM使用的思维链提示有显著区别,后者缺乏正式的回溯机制。

3. 自我纠错循环:智能体持续监控其行动的结果。如果部署失败,它可以自动回滚到最后一个已知的良好状态,记录错误,并尝试不同的方法。这种闭环反馈系统正是玩具演示与生产就绪工具之间的分水岭。

基准测试的差距

要理解Ona技术为何至关重要,请看以下来自SWE-bench(软件工程基准测试)的结果,该测试评估LLM处理需要多文件编辑的真实GitHub问题的能力:

| 模型 | SWE-bench解决率 | 单文件准确率 | 多文件准确率 | 自主调试(自我纠错) |
|---|---|---|---|---|
| GPT-4o | 33.2% | 78% | 22% | 否(需要人工反馈) |
| Claude 3.5 Sonnet | 38.8% | 82% | 28% | 否 |
| Codex + Ona(预估) | 55-65% | 85% | 50-55% | 是(自主回滚) |
| Devin (Cognition) | 13.8% | 70% | 10% | 有限 |

数据要点: 表格揭示了一个明显的差距:即使是最优秀的现有模型,在真实世界Bug修复中的成功率也不到40%。而Codex + Ona凭借其多文件推理和自我纠错能力,预估性能可能将这一比率提升近一倍。关键差异不在于原始代码生成,而在于处理多文件依赖关系并自主从故障中恢复的能力。

仓库级理解的挑战

一个主要的技术障碍是构建可扩展的表示。典型的企业级代码库包含数十万个文件。Ona的方法可能结合了:
- 抽象语法树(AST)解析以理解代码结构。
- 数据流分析以追踪变量和函数如何在文件间传播。
- 检索增强生成(RAG)以获取相关上下文,而无需将整个代码库加载到模型的上下文窗口中。

这在计算上非常昂贵。开源项目CodeBERT(github.com/microsoft/CodeBERT,约6.5k星标)为代码理解提供了基础,但Ona的创新在于使这一过程足够快速,以支持实时智能体循环。

编辑点评: Ona的技术并非魔法子弹——它需要强大的基础设施才能大规模运行。但它代表了首次可信的尝试,让LLM能够像人类工程师一样“思考”代码:将其视为一个具有历史、依赖关系和后果的活系统。

关键参与者与案例研究

竞争格局

OpenAI的举动直接挑战了一众初创公司和行业巨头,它们都在竞相奔向同一个愿景:自主软件开发。

| 公司/产品 | 方法 | 核心优势 | 核心劣势 | 融资/状态 |
|---|---|---|---|---|
| OpenAI (Codex + Ona) | LLM + 持久状态 + 规划器 | 海量算力、品牌、GPT-4o集成 | 在企业级规模上未经证实 | 总融资超130亿美元 |
| Cognition (Devin) | 带沙盒的专用智能体 | 先行者热度、专用工具 | SWE-bench得分低、范围狭窄 | 1.75亿美元B轮 |
| GitHub Copilot (Workspace) | 带多文件编辑的智能体模式 | 庞大用户群、GitHub集成 | 自主规划能力有限 | 微软旗下 |
| Cursor | 具备AI原生功能的IDE | 快速迭代、对开发者友好 | 无自主CI/CD | 6000万美元A轮 |
| Sweep AI | 自动创建PR | 简单、开源 | 功能有限 | 开源项目 |

更多来自 Hacker News

中国封堵西方AI模型,硅谷却拥抱DeepSeek开源力量中华人民共和国已升级对西方AI模型的监管姿态,规定任何在其境内运营的外国大语言模型必须将所有用户数据存储于国内服务器,并通过国家管理的内容安全审查。此举实际上将OpenAI、Anthropic和谷歌等公司在中国市场的合规成本提升至近乎禁止的甲骨文千亿债务炸弹:AI热潮背后的财务悬崖甲骨文向AI基础设施的转型,堪称一场财务高空走钢丝。该公司激进举债——长期债务现已突破1000亿美元——用于采购数万块NVIDIA H100和H200 GPU,建设数据中心以与亚马逊云服务(AWS)、微软Azure和谷歌云竞争。这一策略最初SentinelMCP:守护AI代理工具调用的开源防火墙AI代理的爆发式增长,离不开其与外部工具的深度融合,而模型上下文协议(MCP)正迅速成为连接这些工具的标准化桥梁。然而,当业界将大量精力聚焦于模型本身的安全性——如对齐、越狱攻击和提示注入时,代理与工具之间的通信通道却始终是一片无人设防的巨查看来源专题页Hacker News 已收录 4606 篇文章

相关专题

OpenAI149 篇相关文章Codex27 篇相关文章

时间归档

June 20261209 篇已发布文章

延伸阅读

Codex登陆ChatGPT移动端:AI编程助手进入口袋时代OpenAI将Codex引擎集成至ChatGPT手机应用,让智能手机变身实时代码解释器。这标志着从桌面到移动的战略转向,使开发者能够随时随地调试、原型设计和生成代码。我们的分析揭示了这一举措如何重新定义移动生产力,并预示AI代理部署的下一个GPT-2 尘封于2019,AI 无畏于2026:一面丢失谨慎的镜子2019年,OpenAI以“过于危险”为由拒绝完整发布GPT-2,震惊AI界。六年后,万亿参数模型与自主智能体横行无忌,那个决定成了一面令人警醒的镜子:我们曾恐惧AI的力量;如今,我们却对失控毫无畏惧。百亿悖论:AI巨头每赚1美元,为何倒贴10美元?用户每支付100美元AI服务费,背后的实际成本却超过1000美元。这10倍的亏损比率并非运营失误,而是AI实验室精心策划的未来赌局。但当资本水龙头拧紧时,这场豪赌将如何收场?Codex变身“缰绳工程师”:AI智能体编排如何重塑软件工程OpenAI的Codex不再只是一个代码补全工具。它正被重新定义为多智能体系统的核心编排层,催生出一门全新的工程学科:缰绳工程。这一转变标志着软件构建方式在架构和哲学上的根本性变革。

常见问题

这次公司发布“OpenAI's Ona Acquisition: Codex Evolves from Coder to Autonomous Project Manager”主要讲了什么?

OpenAI's acquisition of Ona marks a pivotal shift in the AI coding assistant landscape. Ona's core technology addresses a critical gap in current large language models: the inabili…

从“How does Ona's technology differ from existing AI coding assistants?”看,这家公司的这次发布为什么值得关注?

Current LLMs excel at generating syntactically correct code snippets in isolation. However, real-world software engineering involves navigating a tangled web of interdependencies: a change in one file can break imports i…

围绕“What are the security risks of autonomous code agents?”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。