技术深度解析
Sutton 的批评根植于两种学习范式之间的根本区别:统计模式匹配与互动式强化学习。LLM 通过在静态的人类生成文本语料库上进行下一个 token 预测来训练。损失函数很简单:最小化预测 token 分布与实际下一个 token 之间的交叉熵。这是一种纯粹的观察式学习范式——模型从不产生改变世界的行动,从不从环境中接收奖励信号,也从不体验自身输出的后果。本质上,它就是一个非常高级的自动补全工具。
相比之下,强化学习围绕着一个随时间与环境互动的智能体概念构建。在每个时间步,智能体观察状态、选择行动、接收奖励,并转换到新状态。目标是学习一个策略——从状态到行动的映射——以最大化累积奖励。这个框架由 Sutton 及其合作者 Andrew Barto 在他们开创性的教科书《强化学习导论》中正式提出,明确包含了 LLM 所缺失的反馈循环。
| 学习范式 | 核心机制 | 与环境互动 | 学习信号 | 自主性 |
|---|---|---|---|---|
| 下一个 Token 预测 (LLM) | 从上下文中预测下一个 token | 无(静态数据集) | 人类文本上的交叉熵损失 | 无 |
| 强化学习 (RL) | 智能体选择行动,观察奖励 | 连续、实时 | 来自环境的奖励 | 完全自主 |
| 模仿学习 | 克隆专家演示 | 被动(离线数据集) | 行为克隆损失 | 有限 |
| 世界模型 + RL | 智能体使用内部模型进行规划 | 模拟互动 | 来自模型或环境的奖励 | 完全自主 |
数据要点: 该表格突显了根本性的架构差距。LLM 在文本的闭环中运行,而 RL 系统在行动与后果的开环中运行。LLM 中自主性的缺失并非一个缺陷——而是该架构本身的设计特征。
Sutton 含蓄认可的最有前景的方向之一,是将世界模型与 RL 相结合。世界模型是一个学习到的环境模拟器,智能体可将其用于规划和推理。由 Google DeepMind 的 Danijar Hafner 开发的 Dreamer 算法就是一个典型例子。Dreamer 从过去的经验中学习一个世界模型,然后利用它来想象未来的轨迹,并选择能最大化预测奖励的行动。这种方法在连续控制任务(如 DeepMind Control Suite 和 Atari 游戏)中取得了最先进的结果,且通常比无模型 RL 方法需要更少的环境互动。
在 GitHub 上,开源仓库 `danijar/dreamerv3` 已累积超过 3,500 颗星,并提供了 DreamerV3 算法的完整实现。它展示了如何通过强化学习端到端地训练一个世界模型,从而在无需针对特定任务调整超参数的情况下,在多个领域实现稳健的性能。另一个相关仓库是 `google-research/planet`,它是 Dreamer 的前身,引入了 PlaNet(基于学习模型的规划)架构。这些项目代表了 Sutton 认为对真正智能至关重要的那种互动式、基于模型的学习。
关键人物与案例研究
Sutton 本人是这场辩论中最突出的人物。作为 RL 基础教科书的合著者,以及上世纪 90 年代初在西洋双陆棋上达到大师级水平的 TD-Gammon 算法的发明者,他的观点分量极重。他目前在 DeepMind Alberta 领导研究,其团队持续推动 RL 和世界模型的边界。
DeepMind 一直是基于 RL 方法最积极的倡导者。他们的 AlphaGo 和 AlphaZero 系统将深度神经网络与蒙特卡洛树搜索和 RL 相结合,在围棋、国际象棋和将棋中实现了超人类水平的表现。最近,DeepMind 的 AlphaFold 使用一种结合结构预测的 RL 形式解决了蛋白质折叠问题——一个困扰科学家数十年的难题。这些成功表明,当 RL 与适当的世界模型结合时,能够实现纯语言建模无法企及的突破。
| 系统 | 核心技术 | 领域 | 关键成就 |
|---|---|---|---|
| AlphaGo | 深度 RL + 蒙特卡洛树搜索 | 棋盘游戏 | 击败世界冠军李世石 |
| AlphaZero | 自我对弈 RL + MCTS | 国际象棋、围棋、将棋 | 无需人类数据达到超人类水平 |
| DreamerV3 | 世界模型 + RL | 连续控制 | 在 20+ 个任务上达到 SOTA |
| Gato (DeepMind) | Transformer + RL | 多领域 | 单个智能体处理 600+ 任务 |
| RT-2 (Google) | LLM + 机器人数据 | 机器人技术 | 语言引导的操控 |
数据要点: 过去十年中最令人印象深刻的 AI 成就——AlphaGo、AlphaFold、机器人技术——都依赖于某种形式的互动学习或世界模型,而非纯粹的文本预测。