Sutton 宣判 LLM 死路一条:强化学习才是 AI 下一次突破的引擎

Hacker News May 2026
来源:Hacker Newsreinforcement learningworld models归档:May 2026
强化学习之父 Richard Sutton 直言,大语言模型是技术死胡同。在他看来,LLM 只是被动的文本预测器,从不与环境互动、从不从错误中学习、也从未发展出真正的自主性——这直接挑战了“规模就是一切”的整个范式。

为强化学习奠定理论基础的先驱研究者 Richard Sutton,对当前 AI 范式发出了猛烈抨击。在最近的一段视频中,他认为大语言模型(LLM)从根本上是一条死路——不是因为它们缺乏能力,而是因为它们缺少真正智能所必需的架构。Sutton 主张,LLM 只是被动的统计模式匹配器,仅通过从静态人类文本中预测下一个 token 来训练。它们从未在环境中行动,从未从真实世界的后果中接收奖励信号,也从未从自己的错误中学习。他认为,这种自主性和互动学习的缺失,意味着 LLM 只能模拟理解,而无法真正实现理解。这一批评直击当前 AI 热潮的核心,迫使整个行业重新审视:我们是否在错误的方向上投入了数十亿美元。

技术深度解析

Sutton 的批评根植于两种学习范式之间的根本区别:统计模式匹配与互动式强化学习。LLM 通过在静态的人类生成文本语料库上进行下一个 token 预测来训练。损失函数很简单:最小化预测 token 分布与实际下一个 token 之间的交叉熵。这是一种纯粹的观察式学习范式——模型从不产生改变世界的行动,从不从环境中接收奖励信号,也从不体验自身输出的后果。本质上,它就是一个非常高级的自动补全工具。

相比之下,强化学习围绕着一个随时间与环境互动的智能体概念构建。在每个时间步,智能体观察状态、选择行动、接收奖励,并转换到新状态。目标是学习一个策略——从状态到行动的映射——以最大化累积奖励。这个框架由 Sutton 及其合作者 Andrew Barto 在他们开创性的教科书《强化学习导论》中正式提出,明确包含了 LLM 所缺失的反馈循环。

| 学习范式 | 核心机制 | 与环境互动 | 学习信号 | 自主性 |
|---|---|---|---|---|
| 下一个 Token 预测 (LLM) | 从上下文中预测下一个 token | 无(静态数据集) | 人类文本上的交叉熵损失 | 无 |
| 强化学习 (RL) | 智能体选择行动,观察奖励 | 连续、实时 | 来自环境的奖励 | 完全自主 |
| 模仿学习 | 克隆专家演示 | 被动(离线数据集) | 行为克隆损失 | 有限 |
| 世界模型 + RL | 智能体使用内部模型进行规划 | 模拟互动 | 来自模型或环境的奖励 | 完全自主 |

数据要点: 该表格突显了根本性的架构差距。LLM 在文本的闭环中运行,而 RL 系统在行动与后果的开环中运行。LLM 中自主性的缺失并非一个缺陷——而是该架构本身的设计特征。

Sutton 含蓄认可的最有前景的方向之一,是将世界模型与 RL 相结合。世界模型是一个学习到的环境模拟器,智能体可将其用于规划和推理。由 Google DeepMind 的 Danijar Hafner 开发的 Dreamer 算法就是一个典型例子。Dreamer 从过去的经验中学习一个世界模型,然后利用它来想象未来的轨迹,并选择能最大化预测奖励的行动。这种方法在连续控制任务(如 DeepMind Control Suite 和 Atari 游戏)中取得了最先进的结果,且通常比无模型 RL 方法需要更少的环境互动。

在 GitHub 上,开源仓库 `danijar/dreamerv3` 已累积超过 3,500 颗星,并提供了 DreamerV3 算法的完整实现。它展示了如何通过强化学习端到端地训练一个世界模型,从而在无需针对特定任务调整超参数的情况下,在多个领域实现稳健的性能。另一个相关仓库是 `google-research/planet`,它是 Dreamer 的前身,引入了 PlaNet(基于学习模型的规划)架构。这些项目代表了 Sutton 认为对真正智能至关重要的那种互动式、基于模型的学习。

关键人物与案例研究

Sutton 本人是这场辩论中最突出的人物。作为 RL 基础教科书的合著者,以及上世纪 90 年代初在西洋双陆棋上达到大师级水平的 TD-Gammon 算法的发明者,他的观点分量极重。他目前在 DeepMind Alberta 领导研究,其团队持续推动 RL 和世界模型的边界。

DeepMind 一直是基于 RL 方法最积极的倡导者。他们的 AlphaGo 和 AlphaZero 系统将深度神经网络与蒙特卡洛树搜索和 RL 相结合,在围棋、国际象棋和将棋中实现了超人类水平的表现。最近,DeepMind 的 AlphaFold 使用一种结合结构预测的 RL 形式解决了蛋白质折叠问题——一个困扰科学家数十年的难题。这些成功表明,当 RL 与适当的世界模型结合时,能够实现纯语言建模无法企及的突破。

| 系统 | 核心技术 | 领域 | 关键成就 |
|---|---|---|---|
| AlphaGo | 深度 RL + 蒙特卡洛树搜索 | 棋盘游戏 | 击败世界冠军李世石 |
| AlphaZero | 自我对弈 RL + MCTS | 国际象棋、围棋、将棋 | 无需人类数据达到超人类水平 |
| DreamerV3 | 世界模型 + RL | 连续控制 | 在 20+ 个任务上达到 SOTA |
| Gato (DeepMind) | Transformer + RL | 多领域 | 单个智能体处理 600+ 任务 |
| RT-2 (Google) | LLM + 机器人数据 | 机器人技术 | 语言引导的操控 |

数据要点: 过去十年中最令人印象深刻的 AI 成就——AlphaGo、AlphaFold、机器人技术——都依赖于某种形式的互动学习或世界模型,而非纯粹的文本预测。

更多来自 Hacker News

AI智能体改写企业规模法则:小团队,大影响由大语言模型驱动的AI智能体正在悄然瓦解传统企业规模的固有优势。如今,小型企业可以部署自主智能体团队,7×24小时处理客户服务、库存管理、订单处理和财务对账——这些任务过去需要数十名人类员工才能完成。核心的技术突破在于可靠的多步骤任务执行:无标题GitHub's launch of the Copilot desktop application is not a minor update but a calculated strategic counterstrike. The nAda-MK:用有向无环图搜索取代静态内核,重塑大模型推理优化手工调优推理内核的时代正在终结。Ada-MK 是一种新颖的自适应 MegaKernel 优化框架,它将内核优化视为在有向无环图(DAG)上的搜索问题。传统的推理引擎依赖预先编写的静态内核库——这些库虽然稳定,但在不同模型、批次大小和硬件配置查看来源专题页Hacker News 已收录 3498 篇文章

相关专题

reinforcement learning72 篇相关文章world models129 篇相关文章

时间归档

May 20261765 篇已发布文章

延伸阅读

从语言模型到世界模型:自主AI智能体的下一个十年被动语言模型的时代正在终结。未来十年,AI将借助通过多模态学习理解物理现实的“世界模型”,转型为主动的自主智能体。这一根本性变革将重塑所有领域的人机协作模式。AI智能体迈入沙盒时代:安全失败环境如何解锁真正自主性一类新型开发平台正悄然兴起,旨在破解AI智能体的根本训练瓶颈。通过提供高保真、安全的沙盒环境,这些系统让自主智能体得以规模化学习、失败与迭代,推动AI从脚本化聊天机器人迈向强健的任务执行者。这一基础设施的演进,标志着智能体领域迎来关键成熟节AI智能体现实检验:为何复杂任务仍需人类专家尽管在特定领域取得显著进展,但高级AI智能体在处理复杂现实任务时仍面临根本性的性能鸿沟。新研究表明,擅长结构化测试的系统一旦遭遇模糊性、即兴发挥和多步骤物理推理便会失灵。这一现实正推动行业重心从完全自动化转向人机协作。AI智能体如何逆向工程《GTA》:自主理解数字世界的黎明一项突破性实验展示了AI智能体自主逆向工程《侠盗猎车手:圣安地列斯》数字世界的能力。该智能体的目标并非通关获胜,而是以科学方法探究游戏底层逻辑与运行机制。这标志着AI从被动工具向主动探索者的关键跃迁——它开始构建任意软件的认知模型。

常见问题

这次模型发布“Sutton Declares LLMs a Dead End: Why Reinforcement Learning Will Power AI's Next Breakthrough”的核心内容是什么?

Richard Sutton, the pioneering researcher who laid the theoretical foundations of reinforcement learning, has delivered a blistering critique of the current AI paradigm. In a recen…

从“Richard Sutton LLM dead end critique explained”看,这个模型发布为什么重要?

Sutton's critique is rooted in a fundamental distinction between two types of learning: statistical pattern matching and interactive reinforcement learning. LLMs are trained via next-token prediction on a static corpus o…

围绕“reinforcement learning vs large language models comparison”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。