Codex 融入 ChatGPT：OpenAI 的融合将 AI 从聊天机器人重塑为自主代码执行引擎

2026年6月5日 13:05 AINews June 2026

归档：June 2026

OpenAI 将代码生成引擎 Codex 直接整合进 ChatGPT，使对话式 AI 蜕变为自主软件开发代理。这一集成实现了从自然语言提示到实时代码编写、调试与部署的全流程自动化，标志着 AI 从聊天助手向执行者的范式转变。

OpenAI 将 Codex 并入 ChatGPT 的决定远不止是一次功能更新——这是一次战略转向，重新定义了大语言模型在软件开发中的角色。通过将 Codex 的代码生成、执行与调试能力嵌入 ChatGPT 的对话界面，OpenAI 创造了一个统一代理：它能接收关于某个功能的自然语言描述，编写相应代码，在沙盒环境中运行，识别错误并修复，甚至将最终结果推送至代码仓库或部署流水线。这消除了构思与实现之间的传统隔阂，实际上将 ChatGPT 变成了一个面向开发者与非开发者的低代码平台。

此次合并的技术核心是代码执行环境的集成。系统现在运行在一个三阶段循环中：规划 → 执行 → 反思。当用户提交自然语言请求时，底层模型首先将请求分解为结构化计划，包括文件创建、库选择与测试用例生成。然后，计划被转换为实际代码文件并放入轻量级沙盒容器中运行。模型捕获标准输出、标准错误与退出码，若代码失败则返回错误回溯。最后，模型将执行输出与原始请求对比：若测试通过则部署，若出错则分析回溯、修改代码并重新进入执行循环，直至所有测试通过或达到最大重试次数。

关键工程挑战是延迟。早期原型每次迭代需 30–60 秒，对交互式使用不可接受。OpenAI 通过“推测执行”技术优化：模型并行生成多个候选代码变体，在独立沙盒实例中同时执行，并选择第一个通过所有测试的变体。这使简单任务的平均迭代时间降至 5 秒以下。

相关开源项目包括 Open Interpreter（约 6 万星）、SWE-agent（约 1.5 万星）与 CodeAct（约 8 千星），它们开创了代码执行型 LLM 代理的概念。在基准测试上，GPT-4o + Codex 在 HumanEval 上达到 91.4% 的 pass@1，在 SWE-bench Lite 上达到 22.3% 的解决率，较无执行基线提升 13.8 个百分点，但距人类专业开发者仍有显著差距。

主要玩家方面，OpenAI 是明确的先行者，但面临多方竞争：GitHub Copilot（微软）拥有 180 万付费用户但缺乏执行环境；Amazon CodeWhisperer 限于代码生成与安全扫描；Replit 的 Ghostwriter 是最接近的竞品，但局限于自身平台。

技术深度解析

Codex 并入 ChatGPT 并非简单的 API 调用添加；它需要对模型架构与推理流水线进行根本性改变。从高层看，系统现在运行在一个三阶段循环中：规划 → 执行 → 反思。

阶段 1：规划。 当用户提交自然语言请求（例如“构建一个使用 JWT 令牌的用户认证 REST API 端点”）时，底层模型——很可能是 GPT-4o 或 GPT-4.5 的变体——首先将请求分解为结构化计划。该计划包括文件创建、库选择与测试用例生成。模型使用思维链推理生成逐步实现策略。

阶段 2：执行。 计划被转换为实际代码文件，然后放入沙盒容器运行时。该沙盒是一个轻量级、临时的 Docker 容器，支持多种语言（Python、JavaScript、TypeScript、Go、Rust 等）。容器的网络访问仅限于包注册表（PyPI、npm），并预配置了常见测试框架（pytest、Jest）。模型触发代码执行，捕获标准输出、标准错误与退出码。如果代码失败（例如导入错误或语法错误），沙盒返回错误回溯。

阶段 3：反思。 模型接收执行输出，并与原始请求对比。如果测试通过且输出符合预期，代理进入部署阶段。如果出现错误，模型分析回溯、修改代码并重新进入执行循环。这一迭代过程持续进行，直到所有测试通过或达到最大重试次数。

一个关键的工程挑战是延迟。早期原型每次迭代需 30–60 秒，这对交互式使用来说不可接受。OpenAI 通过使用推测执行技术进行了优化：模型并行生成多个候选代码变体，在独立沙盒实例中同时执行，并选择第一个通过所有测试的变体。这使简单任务的平均迭代时间降至 5 秒以下。

相关开源项目：
- Open Interpreter（GitHub：约 6 万星）：一个开创了代码执行型 LLM 代理概念的开源项目。它使用本地沙盒，支持 Python、JavaScript 与 shell 命令。OpenAI 的集成大量借鉴了这一范式，但增加了企业级可扩展性与安全性。
- SWE-agent（GitHub：约 1.5 万星）：普林斯顿大学的一个研究项目，使用类似的规划-执行-反思循环处理软件工程任务。它在 SWE-bench 基准测试上达到了 12.3% 的解决率，该基准是衡量自主修复 bug 能力的标准。
- CodeAct（GitHub：约 8 千星）：一个将代码生成与执行统一在单个循环中的代理框架。它强调可执行操作相对于静态代码生成的重要性。

基准测试性能：
| 基准测试 | GPT-4o（无执行） | GPT-4o + Codex（新） | SWE-agent（开源） | 人类（专业） |
|---|---|---|---|---|
| HumanEval（pass@1） | 87.2% | 91.4% | 78.0% | 96.0% |
| SWE-bench Lite（解决率） | 8.5% | 22.3% | 12.3% | 40.0% |
| MBPP（pass@1） | 82.3% | 88.1% | 72.5% | 92.0% |
| 平均迭代时间 | 不适用 | 4.2 秒 | 12.8 秒 | 不适用 |

数据要点： 执行循环在 SWE-bench Lite 上较无执行基线提升了 13.8 个百分点，表明运行与调试代码的能力远比生成静态片段更有价值。然而，与人类专业开发者的差距仍然显著，尤其是在复杂的多文件任务上。

主要玩家与案例研究

OpenAI 是此次集成的明确先行者，但面临多方面的竞争。主要玩家包括：

1. GitHub Copilot（微软）： 截至 2025 年第一季度，拥有超过 180 万付费用户，是当前市场领导者。Copilot 在 IDE 内提供内联代码建议，但不执行代码。其新的“Copilot Workspace”功能（测试版）允许多文件编辑，但仍缺乏沙盒执行环境。据传微软计划在 2025 年秋季发布中为 Copilot 集成沙盒，但目前尚未可用。

2. Amazon CodeWhisperer（AWS）： 集成在 AWS 的 IDE 工具包中，CodeWhisperer 在云原生开发方面表现强劲，但仅限于代码生成与安全扫描。它不能自主执行或部署代码。亚马逊的优势在于与 AWS 服务的深度集成，但缺乏执行能力限制了其在端到端工作流中的实用性。

3. Replit（Ghostwriter）： Replit 的 Ghostwriter AI 是最接近的竞品。Replit 是一个基于浏览器的 IDE，天然在沙盒容器中运行代码。Ghostwriter 可以在 Replit 环境中生成、执行与调试代码。然而，它仅限于 Replit 平台，不与外部 CI/CD 流水线或本地开发环境集成。

时间归档

常见问题

这次公司发布“Codex Meets ChatGPT: OpenAI's Fusion Redefines AI from Chatbot to Autonomous Code Execution”主要讲了什么？

OpenAI’s decision to merge Codex into ChatGPT is far more than a feature update—it is a strategic pivot that redefines the role of large language models in software development. By…

从“How does OpenAI's Codex-ChatGPT merge compare to Replit Ghostwriter for full-stack development?”看，这家公司的这次发布为什么值得关注？

The merger of Codex into ChatGPT is not a simple API call addition; it required fundamental changes to the model’s architecture and the inference pipeline. At a high level, the system now operates in a three-stage loop:…

围绕“What security risks does autonomous code execution in ChatGPT pose for enterprise developers?”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

Codex 融入 ChatGPT：OpenAI 的融合将 AI 从聊天机器人重塑为自主代码执行引擎

技术深度解析

主要玩家与案例研究

时间归档

延伸阅读

常见问题