OpenAI研究员颠覆性RL新范式:不更新参数,靠写Python代码学习

May 2026
reinforcement learning归档:May 2026
OpenAI研究员翁嘉怡提出了一种全新的强化学习范式,完全摒弃了传统的参数更新机制。智能体通过自主生成并执行Python脚本作为决策策略,将“学习”转化为程序合成问题。这一开源方法有望大幅降低计算成本,并显著提升模型的可解释性。

在一项挑战现代AI根基的突破性研究中,OpenAI研究员翁嘉怡提出了一种全新的强化学习(RL)范式:智能体无需更新任何神经网络参数即可学习。其核心思想简洁而优雅:智能体不再通过梯度下降调整隐藏层中数百万个权重,而是编写一个Python脚本(.py文件)来编码其决策策略。该脚本被直接执行,智能体通过迭代式代码生成而非反向传播来优化策略。

这一方法已作为开源项目发布,标志着从“学习即优化”到“学习即编程”的根本性转变。智能体的全部“知识”都存储在人类可读、可审计的Python代码中,而非分散在神经网络的海量权重里。

该开源项目(GitHub上名为“rl-by-code”)已获得超过4000颗星。项目包含一个最小化实现,使用OpenAI的GPT-4o-mini作为代码生成器,在简单环境中每次训练运行的总成本不到0.50美元。关键超参数是代码生成时语言模型的“温度”:更高的温度鼓励探索多样化的脚本,更低的温度则倾向于利用已知的良好模式。

技术深度解析

翁嘉怡提出的这一范式,我们称之为“基于脚本的强化学习”(Script-based Reinforcement Learning, SRL),它用代码生成器取代了传统的策略网络。架构非常直接:一个语言模型(LM)作为核心,接收当前状态观测值和历史奖励序列作为输入。LM随后生成一个Python脚本,其中定义了一个函数 `policy(state) -> action`。该脚本在沙盒环境中执行,产生的动作被应用到环境中。奖励信号被反馈给LM,LM在下一轮迭代中利用它生成一个新的、改进后的脚本。

关键在于,LM自身的参数从未被更新。“学习”完全发生在生成程序的搜索空间内。LM充当了代码生成的强大先验,而迭代式精化过程由一种简单的进化策略引导:获得更高奖励的脚本被保留并变异,低奖励脚本则被丢弃。这让人联想到遗传编程,但加入了现代元素——变异和交叉操作由LM本身执行,LM能够生成语义上有意义的代码变更。

基准性能:

| 环境 | SRL(基于脚本) | DQN(神经网络) | PPO(神经网络) | SRL计算成本 | DQN计算成本 |
|---|---|---|---|---|---|
| CartPole-v1 | 500(最高分) | 500(最高分) | 500(最高分) | ~$0.30 | ~$5.00 |
| LunarLander-v2 | 280 | 260 | 290 | ~$1.20 | ~$15.00 |
| FrozenLake (8x8) | 0.85(成功率) | 0.78 | 0.82 | ~$0.10 | ~$2.00 |
| Taxi-v3 | 9.5(平均奖励) | 9.2 | 9.6 | ~$0.50 | ~$8.00 |

数据要点: 在这些离散的、基于规则的环境中,SRL的性能达到或超过了传统RL算法,同时将计算成本降低了10-50倍。在最优策略可以用几十行代码表达的简单环境中,成本优势最为显著。

该方法的致命弱点是可扩展性。在需要高维感官输入的任务中(例如,从原始像素玩Atari游戏),SRL的性能显著下降。生成的Python脚本变得笨重——数千行嵌套的条件语句——LM难以为此类复杂映射生成连贯的代码。这表明SRL最适合那些状态空间可以被有意义地抽象为一小组离散或连续变量的任务。

关键参与者与案例研究

首席研究员翁嘉怡是OpenAI后训练团队的成员,拥有强化学习和程序合成双重背景。这项工作建立在“神经符号”AI的研究谱系之上,但翁嘉怡的贡献在于其极致的简洁性:没有混合架构,没有神经符号集成——只有纯粹的代码生成。

其他几个组织也在探索相关方向。DeepMind的“FunSearch”项目使用LLM生成解决数学问题的代码,但它是在监督学习环境下运行,而非RL。Google的“Code-as-Policies”(CaP)框架从自然语言生成机器人控制代码,但它需要预训练的策略,不涉及迭代学习。翁嘉怡方法的关键区别在于,它是一个完整的RL算法,而不仅仅是代码生成工具。

相关方法对比:

| 方法 | 组织 | 学习机制 | 可解释性 | 计算效率 | 任务适用性 |
|---|---|---|---|---|---|
| 基于脚本的RL (SRL) | OpenAI (翁嘉怡) | 代码生成 + 进化 | 非常高 | 非常高 | 基于规则、离散 |
| Code-as-Policies (CaP) | Google | 从提示词进行LLM代码生成 | 高 | 中等 | 机器人、操作 |
| FunSearch | DeepMind | LLM代码生成 + 进化搜索 | 中等 | 低 | 数学发现 |
| 传统RL (DQN/PPO) | 多家机构 | 神经网络梯度下降 | 低 | 低 | 通用、高维 |

数据要点: SRL占据了一个独特的生态位:它是唯一将完全可解释性与自包含的RL学习循环相结合的方法。其计算效率无与伦比,但目前适用性最窄。

一个值得注意的案例研究是将SRL应用于模拟自动驾驶任务(CARLA模拟器,简化版)。智能体仅使用10个传感器读数(到物体的距离、速度、转向角)执行车道保持和避障任务。生成的Python脚本仅有30行代码,使用了简单的条件逻辑和比例控制。

相关专题

reinforcement learning73 篇相关文章

时间归档

May 20261812 篇已发布文章

延伸阅读

SFT优先:为何在多模态AI训练中急于应用RL会适得其反越来越多AI团队急于将强化学习应用于多模态模型,却遭遇性能崩溃。AINews揭示根本原因:监督微调阶段未解决的“隐藏创伤”被RL放大,导致灾难性失败。具身智能迎来“GPT-3时刻”:一小时训练达成99%成功率,缩放定律终获物理验证长期被假设的“具身缩放定律”获得决定性验证。一家领先的AI公司展示了一套系统,让机器人仅通过一小时的模拟训练,便能学会一项全新的复杂物理操作任务,并在现实世界中部署时达到99%的成功率。这标志着AI从纯软件智能向可扩展、快速适应的物理智能体龙虾王每月烧掉940万Token:AI精英资源鸿沟的内幕一个专注于优化龙虾烹饪的AI项目,每月消耗价值940万人民币的Token。研究者坦言,作为OpenAI员工享有无限API权限,这暴露了AI开发中赤裸裸的资源鸿沟。开源流水线将Claude Code变身自动化学术论文工厂,6,400星引爆社区一个开源项目通过将Claude Code封装成完整的学术论文写作流水线,迅速斩获6,400个GitHub星标。它覆盖文献综述、实验设计到稿件撰写全流程,并透明公开每阶段API成本,标志着AI正从写作助手跃升为研究全流程的编排者。

常见问题

这次模型发布“OpenAI Researcher's New RL Paradigm: Learning by Writing Python, Not Updating Parameters”的核心内容是什么?

In a development that challenges the very foundations of modern AI, OpenAI researcher Weng Jiayi has proposed a new reinforcement learning (RL) paradigm where agents learn without…

从“How does script-based RL compare to traditional reinforcement learning in terms of sample efficiency?”看,这个模型发布为什么重要?

Weng Jiayi's paradigm, which we'll call 'Script-based Reinforcement Learning' (SRL), replaces the traditional policy network with a code generator. The architecture is straightforward: a language model (LM) serves as the…

围绕“Can script-based RL be combined with neural networks for perception tasks?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。