技术深度解析
翁嘉怡提出的这一范式,我们称之为“基于脚本的强化学习”(Script-based Reinforcement Learning, SRL),它用代码生成器取代了传统的策略网络。架构非常直接:一个语言模型(LM)作为核心,接收当前状态观测值和历史奖励序列作为输入。LM随后生成一个Python脚本,其中定义了一个函数 `policy(state) -> action`。该脚本在沙盒环境中执行,产生的动作被应用到环境中。奖励信号被反馈给LM,LM在下一轮迭代中利用它生成一个新的、改进后的脚本。
关键在于,LM自身的参数从未被更新。“学习”完全发生在生成程序的搜索空间内。LM充当了代码生成的强大先验,而迭代式精化过程由一种简单的进化策略引导:获得更高奖励的脚本被保留并变异,低奖励脚本则被丢弃。这让人联想到遗传编程,但加入了现代元素——变异和交叉操作由LM本身执行,LM能够生成语义上有意义的代码变更。
基准性能:
| 环境 | SRL(基于脚本) | DQN(神经网络) | PPO(神经网络) | SRL计算成本 | DQN计算成本 |
|---|---|---|---|---|---|
| CartPole-v1 | 500(最高分) | 500(最高分) | 500(最高分) | ~$0.30 | ~$5.00 |
| LunarLander-v2 | 280 | 260 | 290 | ~$1.20 | ~$15.00 |
| FrozenLake (8x8) | 0.85(成功率) | 0.78 | 0.82 | ~$0.10 | ~$2.00 |
| Taxi-v3 | 9.5(平均奖励) | 9.2 | 9.6 | ~$0.50 | ~$8.00 |
数据要点: 在这些离散的、基于规则的环境中,SRL的性能达到或超过了传统RL算法,同时将计算成本降低了10-50倍。在最优策略可以用几十行代码表达的简单环境中,成本优势最为显著。
该方法的致命弱点是可扩展性。在需要高维感官输入的任务中(例如,从原始像素玩Atari游戏),SRL的性能显著下降。生成的Python脚本变得笨重——数千行嵌套的条件语句——LM难以为此类复杂映射生成连贯的代码。这表明SRL最适合那些状态空间可以被有意义地抽象为一小组离散或连续变量的任务。
关键参与者与案例研究
首席研究员翁嘉怡是OpenAI后训练团队的成员,拥有强化学习和程序合成双重背景。这项工作建立在“神经符号”AI的研究谱系之上,但翁嘉怡的贡献在于其极致的简洁性:没有混合架构,没有神经符号集成——只有纯粹的代码生成。
其他几个组织也在探索相关方向。DeepMind的“FunSearch”项目使用LLM生成解决数学问题的代码,但它是在监督学习环境下运行,而非RL。Google的“Code-as-Policies”(CaP)框架从自然语言生成机器人控制代码,但它需要预训练的策略,不涉及迭代学习。翁嘉怡方法的关键区别在于,它是一个完整的RL算法,而不仅仅是代码生成工具。
相关方法对比:
| 方法 | 组织 | 学习机制 | 可解释性 | 计算效率 | 任务适用性 |
|---|---|---|---|---|---|
| 基于脚本的RL (SRL) | OpenAI (翁嘉怡) | 代码生成 + 进化 | 非常高 | 非常高 | 基于规则、离散 |
| Code-as-Policies (CaP) | Google | 从提示词进行LLM代码生成 | 高 | 中等 | 机器人、操作 |
| FunSearch | DeepMind | LLM代码生成 + 进化搜索 | 中等 | 低 | 数学发现 |
| 传统RL (DQN/PPO) | 多家机构 | 神经网络梯度下降 | 低 | 低 | 通用、高维 |
数据要点: SRL占据了一个独特的生态位:它是唯一将完全可解释性与自包含的RL学习循环相结合的方法。其计算效率无与伦比,但目前适用性最窄。
一个值得注意的案例研究是将SRL应用于模拟自动驾驶任务(CARLA模拟器,简化版)。智能体仅使用10个传感器读数(到物体的距离、速度、转向角)执行车道保持和避障任务。生成的Python脚本仅有30行代码,使用了简单的条件逻辑和比例控制。