AI大转向:从预测词句到完成任务,Codex指明新方向

Hacker News June 2026
来源:Hacker NewsAI agents归档:June 2026
OpenAI研究人员发表里程碑式论文,详述Codex从代码补全工具进化为全自主智能体的历程。这标志着行业正从“下一个词预测”向“下一个任务完成”深刻转型,重新定义AI系统与世界的交互方式。

OpenAI最新论文《AI的智能体转向:来自Codex的证据》提供了迄今最清晰的证据,表明AI行业正经历一场根本性的范式转移。论文追溯了Codex——最初只是一个简单的代码自动补全工具——如何蜕变为一个能够设定子目标、调用外部工具并在出错后自我修正的自主智能体。这不仅仅是参数或数据的规模扩展,而是一次深层的架构与训练方法论变革,彻底重新定义了AI系统应有的功能。新范式取代了“下一个词预测”的主导地位,转而以“任务完成率”和“自主性”为核心框架。其影响深远:未来的AI产品将不再以文本流畅度评判,而是以可靠性和任务完成能力为衡量标准。

技术深度解析

论文的核心洞见在于:从语言模型到智能体的转变,需要对训练目标进行根本性重新思考。传统LLM通过最小化下一个词预测的交叉熵损失来优化,这能生成流畅文本,但无法保证任务完成。Codex团队引入了一个多阶段训练流程,明确针对任务成功进行优化。

架构变化: 智能体化的Codex保留了Transformer主干,但增加了几个关键组件:
- 分层规划器(Hierarchical Planner): 一个独立模块,将高级用户请求(例如“构建一个网页爬虫”)分解为一系列子目标(例如“获取HTML”、“解析链接”、“保存为CSV”)。该规划器通过模仿学习在人工标注的任务分解数据上训练。
- 工具使用接口(Tool-Use Interface): 模型通过函数调用令牌获得对一组API的访问权限——文件系统、Shell命令、网络搜索、代码解释器。论文显示,模型学会了自主调用这些工具,甚至能链式调用多个工具。
- 自我修正循环(Self-Correction Loop): 每次操作后,系统检查错误(例如编译错误、运行时异常),如果发现错误,则进入“调试模式”,重新规划并重试。这是通过一个独立的“评论家”模型实现的,该模型对每一步的输出进行评分,如果分数低于阈值,则触发重新规划。

训练方法论: 训练数据不仅包含正确的代码,还包含失败尝试及后续修正的轨迹。模型使用一种基于人类反馈的强化学习(RLHF)变体进行微调,但奖励信号基于任务完成情况(例如“代码是否无错误运行?”、“是否产生正确输出?”),而非文本质量。论文报告称,这种“任务完成强化学习”至关重要:仅通过下一个词预测训练的模型在保留的编码任务集上仅达到34%的任务完成率,而智能体版本达到了78%。

相关开源项目: 论文的方法与几个读者可以探索的开源项目高度一致:
- OpenDevin(GitHub: OpenDevin/OpenDevin,约35k星): 一个面向AI软件智能体的开放平台,采用类似的规划器-执行器架构。它在SWE-bench上表现出色。
- SWE-agent(GitHub: princeton-nlp/SWE-agent,约15k星): 一个将LLM转化为软件工程智能体的框架,能够修复真实GitHub仓库中的漏洞。它使用了类似的工具使用和自我修正循环。
- CrewAI(GitHub: joaomdmoura/crewAI,约25k星): 一个编排多个AI智能体协作完成任务的框架。虽然未被直接引用,但其多智能体规划方式与论文中的分层方法相呼应。

基准测试表现: 论文将智能体化Codex与先前模型在任务完成基准上进行了比较:

| 模型 | SWE-bench Lite (Pass@1) | AgentBench (平均分) | HumanEval (Pass@1) | 任务完成率(编码) |
|---|---|---|---|---|
| GPT-3.5 (Codex基础版) | 12.4% | 28.1 | 48.1% | 34% |
| GPT-4 (Codex基础版) | 18.2% | 35.6 | 67.0% | 52% |
| 智能体化Codex (论文) | 41.7% | 62.3 | 82.5% | 78% |
| Claude 3.5 Sonnet (智能体化) | 33.6% | 55.4 | 76.2% | 69% |

数据要点: 智能体化Codex的任务完成率相比其非智能体版本(GPT-4基础版)提升了2.3倍,相比GPT-3.5提升了3.4倍。这不是边际改进——它代表了能力的质的飞跃。在SWE-bench Lite上的差距尤为惊人:智能体版本修复真实世界软件漏洞的效率是原来的两倍以上。

关键玩家与案例研究

虽然论文来自OpenAI,但它所记录的转变是整个行业的趋势。几个关键玩家正在竞相将这一范式投入运营:

OpenAI: 这篇论文显然是一份战略文件,表明OpenAI未来的产品路线图以智能体为中心。Codex进化为智能体很可能是未来版本ChatGPT的“代码解释器”和“高级数据分析”功能的基础。该公司还在大力招聘“智能体AI”相关职位,内部消息称一款代号为“Operator”的新产品正在开发中,该产品将允许用户委托复杂的多步骤任务。

Anthropic: Claude系列模型在智能体能力方面表现强劲,尤其是在工具使用方面。Anthropic的“计算机使用”功能允许Claude控制虚拟桌面,这是一个直接竞争对手。论文的发现验证了Anthropic将“宪法AI”与工具使用训练相结合的策略。然而,Anthropic对完全自主性持更为谨慎的态度,强调“人在回路中”的保障措施。

Google DeepMind: DeepMind的Gemini模型已在AgentBench和SWE-bench上进行了基准测试,但其表现落后于OpenAI和Anthropic。论文指出了关键弱点:Google的模型仍然在下一个词预测范式上过度优化,缺乏针对任务完成的专门训练。然而,DeepMind最近在“智能体化”方向上的招聘和内部项目表明,他们正在迅速追赶。

初创公司与开源社区: 除了科技巨头,一批初创公司正在将智能体化AI作为核心产品。Cognition Labs的Devin、Factory的Droid以及Morph的Agent都展示了类似的能力。开源社区也在快速迭代,AutoGPT和BabyAGI等项目探索了自主任务分解的早期版本。论文为这些努力提供了学术验证,并可能加速这一领域的进展。

行业影响与预测

这篇论文不仅仅是一份技术报告——它是AI行业未来方向的宣言。以下是几个关键预测:

1. 评估标准的转变: 正如论文所暗示的,AI模型的评估将从“文本质量”转向“任务完成率”。这意味着未来的基准测试将更少关注困惑度或BLEU分数,而更多关注在现实世界场景中的成功执行。这将对模型开发产生深远影响:优化目标将不再是生成更流畅的文本,而是更可靠地完成任务。

2. 产品形态的转变: 当前的AI产品主要是聊天界面——用户输入提示,模型生成回复。智能体化范式将催生新一代产品:AI“员工”可以接受高级指令,自主规划并执行,同时定期向用户报告进度。OpenAI的“Operator”、Anthropic的“Computer Use”以及微软的Copilot进化版都是这一趋势的早期迹象。

3. 安全与治理挑战: 自主智能体带来了新的安全风险。一个能够调用工具和自我修正的AI系统,如果目标设定不当或奖励函数有缺陷,可能造成更大的损害。论文承认了这一点,并指出其“评论家”模型是一种安全机制,但行业需要更强大的保障措施。可解释性、可控性和对齐问题将变得更加紧迫。

4. 经济影响: 如果AI系统能够可靠地完成多步骤任务,那么对知识工作者的影响将是巨大的。软件工程、数据分析、客户支持和法律研究等领域可能首先受到影响。论文中Codex在SWE-bench上的表现表明,AI已经能够修复真实世界的软件漏洞——这是软件工程中一项高价值任务。随着这些能力扩展到其他领域,劳动力市场可能会经历重大重组。

结论

OpenAI的这篇论文是AI发展史上的一个分水岭。它正式宣告了“下一个词预测”时代的终结,以及“下一个任务完成”时代的开始。Codex从代码补全工具到自主智能体的进化,不仅仅是技术上的进步——它代表了我们对AI系统应该做什么的根本性重新思考。未来的AI将不再仅仅是对话者,而是行动者。它们将不再只是生成文本,而是完成工作。

对于开发者、企业家和政策制定者来说,信息是明确的:智能体化AI不是未来的可能性——它已经是现实。问题不再是“AI能否自主完成任务?”,而是“我们如何安全、负责任地部署这些能力?”

这篇论文提供了路线图。现在,行业需要决定如何走这条路。

更多来自 Hacker News

当AI变得“无聊”:一场让每个人都成为产品经理的静默革命科技行业正经历一场无声却深刻的变革。AI系统正被刻意设计得“无聊”——即稳定、可预测,并融入日常工作的背景中。这一看似反直觉的目标,实则是技术成熟的标志。当AI不再需要持续调试、不再产生意外故障、也不再要求专家级理解才能操作时,它便从炫目的无标题For decades, brain imaging has been trapped in an impossible triangle: MRI offers exquisite detail but requires a room-sCodex AI Agent 精通 UI 设计:前端开发迎来终结?AINews 发现,Codex AI 代理正在接受 UI 设计与前端开发领域的专项训练,这一飞跃超越了传统的代码生成。这些代理现在能够理解设计原则——色彩理论、字体排印、间距系统和响应式布局——并自主生成多个界面变体,进行模拟 A/B 测试查看来源专题页Hacker News 已收录 5258 篇文章

相关专题

AI agents915 篇相关文章

时间归档

June 20262670 篇已发布文章

延伸阅读

免费电子书引爆AI智能体革命:工具调用才是AI落地的关键一本名为《构建使用工具和API的务实AI智能体》的免费电子书正在开发者社区中迅速传播,它凝聚了一个关键的行业转向:AI的瓶颈不再是模型智能,而是行动能力。AINews深入探究这本指南如何重塑从理论到生产的路径。Sutton 宣判 LLM 死路一条:强化学习才是 AI 下一次突破的引擎强化学习之父 Richard Sutton 直言,大语言模型是技术死胡同。在他看来,LLM 只是被动的文本预测器,从不与环境互动、从不从错误中学习、也从未发展出真正的自主性——这直接挑战了“规模就是一切”的整个范式。AI大裂变:智能体如何塑造人工智能的双重现实人工智能领域正出现一道深刻裂痕。技术先锋们见证着能自主规划执行复杂任务的智能体AI,而公众认知仍停留在有缺陷的对话机器人时代。这不仅是认知差异,更是技术范式从静态模型转向动态智能体所直接引发的‘折叠现实’。静默的智能体军备竞赛:AI如何从工具蜕变为自主数字员工人工智能领域正经历一场根本性的范式转移。行业焦点正从静态大语言模型转向动态、目标导向的AI智能体——这些能自主行动的“数字员工”标志着AI商业化与实用化的下一个前沿阵地。

常见问题

这次模型发布“AI's Great Shift: From Predicting Words to Completing Tasks, Codex Shows the Way”的核心内容是什么?

A new paper from OpenAI, titled 'The Agentic Turn in AI: Evidence from Codex,' provides the clearest evidence yet that the AI industry is undergoing a fundamental paradigm shift. T…

从“What is the difference between a language model and an AI agent?”看,这个模型发布为什么重要?

The paper's core insight is that the transition from language model to agent requires a fundamental rethinking of the training objective. Traditional LLMs are optimized to minimize cross-entropy loss on next-token predic…

围绕“How does task-completion reinforcement learning work?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。