AI大转向：从预测词句到完成任务，Codex指明新方向

OpenAI最新论文《AI的智能体转向：来自Codex的证据》提供了迄今最清晰的证据，表明AI行业正经历一场根本性的范式转移。论文追溯了Codex——最初只是一个简单的代码自动补全工具——如何蜕变为一个能够设定子目标、调用外部工具并在出错后自我修正的自主智能体。这不仅仅是参数或数据的规模扩展，而是一次深层的架构与训练方法论变革，彻底重新定义了AI系统应有的功能。新范式取代了“下一个词预测”的主导地位，转而以“任务完成率”和“自主性”为核心框架。其影响深远：未来的AI产品将不再以文本流畅度评判，而是以可靠性和任务完成能力为衡量标准。

技术深度解析

论文的核心洞见在于：从语言模型到智能体的转变，需要对训练目标进行根本性重新思考。传统LLM通过最小化下一个词预测的交叉熵损失来优化，这能生成流畅文本，但无法保证任务完成。Codex团队引入了一个多阶段训练流程，明确针对任务成功进行优化。

架构变化： 智能体化的Codex保留了Transformer主干，但增加了几个关键组件：
- 分层规划器（Hierarchical Planner）： 一个独立模块，将高级用户请求（例如“构建一个网页爬虫”）分解为一系列子目标（例如“获取HTML”、“解析链接”、“保存为CSV”）。该规划器通过模仿学习在人工标注的任务分解数据上训练。
- 工具使用接口（Tool-Use Interface）： 模型通过函数调用令牌获得对一组API的访问权限——文件系统、Shell命令、网络搜索、代码解释器。论文显示，模型学会了自主调用这些工具，甚至能链式调用多个工具。
- 自我修正循环（Self-Correction Loop）： 每次操作后，系统检查错误（例如编译错误、运行时异常），如果发现错误，则进入“调试模式”，重新规划并重试。这是通过一个独立的“评论家”模型实现的，该模型对每一步的输出进行评分，如果分数低于阈值，则触发重新规划。

训练方法论： 训练数据不仅包含正确的代码，还包含失败尝试及后续修正的轨迹。模型使用一种基于人类反馈的强化学习（RLHF）变体进行微调，但奖励信号基于任务完成情况（例如“代码是否无错误运行？”、“是否产生正确输出？”），而非文本质量。论文报告称，这种“任务完成强化学习”至关重要：仅通过下一个词预测训练的模型在保留的编码任务集上仅达到34%的任务完成率，而智能体版本达到了78%。

相关开源项目： 论文的方法与几个读者可以探索的开源项目高度一致：
- OpenDevin（GitHub: OpenDevin/OpenDevin，约35k星）： 一个面向AI软件智能体的开放平台，采用类似的规划器-执行器架构。它在SWE-bench上表现出色。
- SWE-agent（GitHub: princeton-nlp/SWE-agent，约15k星）： 一个将LLM转化为软件工程智能体的框架，能够修复真实GitHub仓库中的漏洞。它使用了类似的工具使用和自我修正循环。
- CrewAI（GitHub: joaomdmoura/crewAI，约25k星）： 一个编排多个AI智能体协作完成任务的框架。虽然未被直接引用，但其多智能体规划方式与论文中的分层方法相呼应。

基准测试表现： 论文将智能体化Codex与先前模型在任务完成基准上进行了比较：

| 模型 | SWE-bench Lite (Pass@1) | AgentBench (平均分) | HumanEval (Pass@1) | 任务完成率（编码） |
|---|---|---|---|---|
| GPT-3.5 (Codex基础版) | 12.4% | 28.1 | 48.1% | 34% |
| GPT-4 (Codex基础版) | 18.2% | 35.6 | 67.0% | 52% |
| 智能体化Codex (论文) | 41.7% | 62.3 | 82.5% | 78% |
| Claude 3.5 Sonnet (智能体化) | 33.6% | 55.4 | 76.2% | 69% |

数据要点： 智能体化Codex的任务完成率相比其非智能体版本（GPT-4基础版）提升了2.3倍，相比GPT-3.5提升了3.4倍。这不是边际改进——它代表了能力的质的飞跃。在SWE-bench Lite上的差距尤为惊人：智能体版本修复真实世界软件漏洞的效率是原来的两倍以上。

关键玩家与案例研究

虽然论文来自OpenAI，但它所记录的转变是整个行业的趋势。几个关键玩家正在竞相将这一范式投入运营：

OpenAI： 这篇论文显然是一份战略文件，表明OpenAI未来的产品路线图以智能体为中心。Codex进化为智能体很可能是未来版本ChatGPT的“代码解释器”和“高级数据分析”功能的基础。该公司还在大力招聘“智能体AI”相关职位，内部消息称一款代号为“Operator”的新产品正在开发中，该产品将允许用户委托复杂的多步骤任务。

Anthropic： Claude系列模型在智能体能力方面表现强劲，尤其是在工具使用方面。Anthropic的“计算机使用”功能允许Claude控制虚拟桌面，这是一个直接竞争对手。论文的发现验证了Anthropic将“宪法AI”与工具使用训练相结合的策略。然而，Anthropic对完全自主性持更为谨慎的态度，强调“人在回路中”的保障措施。

Google DeepMind： DeepMind的Gemini模型已在AgentBench和SWE-bench上进行了基准测试，但其表现落后于OpenAI和Anthropic。论文指出了关键弱点：Google的模型仍然在下一个词预测范式上过度优化，缺乏针对任务完成的专门训练。然而，DeepMind最近在“智能体化”方向上的招聘和内部项目表明，他们正在迅速追赶。

初创公司与开源社区： 除了科技巨头，一批初创公司正在将智能体化AI作为核心产品。Cognition Labs的Devin、Factory的Droid以及Morph的Agent都展示了类似的能力。开源社区也在快速迭代，AutoGPT和BabyAGI等项目探索了自主任务分解的早期版本。论文为这些努力提供了学术验证，并可能加速这一领域的进展。

行业影响与预测

这篇论文不仅仅是一份技术报告——它是AI行业未来方向的宣言。以下是几个关键预测：

1. 评估标准的转变： 正如论文所暗示的，AI模型的评估将从“文本质量”转向“任务完成率”。这意味着未来的基准测试将更少关注困惑度或BLEU分数，而更多关注在现实世界场景中的成功执行。这将对模型开发产生深远影响：优化目标将不再是生成更流畅的文本，而是更可靠地完成任务。

2. 产品形态的转变： 当前的AI产品主要是聊天界面——用户输入提示，模型生成回复。智能体化范式将催生新一代产品：AI“员工”可以接受高级指令，自主规划并执行，同时定期向用户报告进度。OpenAI的“Operator”、Anthropic的“Computer Use”以及微软的Copilot进化版都是这一趋势的早期迹象。

3. 安全与治理挑战： 自主智能体带来了新的安全风险。一个能够调用工具和自我修正的AI系统，如果目标设定不当或奖励函数有缺陷，可能造成更大的损害。论文承认了这一点，并指出其“评论家”模型是一种安全机制，但行业需要更强大的保障措施。可解释性、可控性和对齐问题将变得更加紧迫。

4. 经济影响： 如果AI系统能够可靠地完成多步骤任务，那么对知识工作者的影响将是巨大的。软件工程、数据分析、客户支持和法律研究等领域可能首先受到影响。论文中Codex在SWE-bench上的表现表明，AI已经能够修复真实世界的软件漏洞——这是软件工程中一项高价值任务。随着这些能力扩展到其他领域，劳动力市场可能会经历重大重组。

结论

OpenAI的这篇论文是AI发展史上的一个分水岭。它正式宣告了“下一个词预测”时代的终结，以及“下一个任务完成”时代的开始。Codex从代码补全工具到自主智能体的进化，不仅仅是技术上的进步——它代表了我们对AI系统应该做什么的根本性重新思考。未来的AI将不再仅仅是对话者，而是行动者。它们将不再只是生成文本，而是完成工作。

对于开发者、企业家和政策制定者来说，信息是明确的：智能体化AI不是未来的可能性——它已经是现实。问题不再是“AI能否自主完成任务？”，而是“我们如何安全、负责任地部署这些能力？”

这篇论文提供了路线图。现在，行业需要决定如何走这条路。

时间归档

延伸阅读

常见问题

这次模型发布“AI's Great Shift: From Predicting Words to Completing Tasks, Codex Shows the Way”的核心内容是什么？

A new paper from OpenAI, titled 'The Agentic Turn in AI: Evidence from Codex,' provides the clearest evidence yet that the AI industry is undergoing a fundamental paradigm shift. T…

从“What is the difference between a language model and an AI agent?”看，这个模型发布为什么重要？

The paper's core insight is that the transition from language model to agent requires a fundamental rethinking of the training objective. Traditional LLMs are optimized to minimize cross-entropy loss on next-token predic…

围绕“How does task-completion reinforcement learning work?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。