技术深度解析
这场辩论的核心在于大语言模型与世界模型在架构与学习范式上的根本差异。
LLM:关联引擎
以GPT-4、Claude 3和Llama 3为代表的现代大语言模型基于Transformer架构,通过海量文本与代码的下一词元预测进行训练,学习序列的概率分布。其“知识”实则是词元间极度复杂的统计关联网络。当被问及“如果把玻璃杯推下桌子会怎样?”时,模型生成“玻璃杯会掉落破碎”的合理答案,并非因为它模拟了物理过程,而是该序列在其训练数据的前后语境中具有高概率。这种方法产生了惊人的流畅性和广泛( albeit 浅层)的理解模仿能力。关键局限包括:
- 缺乏根基性:与感知运动经验无连接
- 认知盲区:无法区分已知与未知,会以高置信度虚构(幻觉)信息
- 静态知识:知识在训练时冻结,更新需昂贵重训练
世界模型:因果模拟器
哈萨比斯倡导并在强化学习与具身AI研究中推进的世界模型路径,旨在构建环境的内化可操作模型。世界模型通常是能根据当前状态与动作预测环境未来状态的神经网络。例如DeepMind的DreamerV3——这是一个基于模型的强化学习智能体,它从像素中学习世界模型,并完全在其潜在空间内通过模拟未来轨迹进行规划。它不仅预测下一个词,更预测行动的后果。这需要学习能捕捉物体本质、动力学特性及其交互的压缩表征。
体现该研究的典型GitHub仓库是`danijar/dreamerv3`。这个TensorFlow/JAX实现已获超3.5k星标,展示了仅用像素数据和单一超参数集,在从2D游戏到3D机器人模拟的多元领域达到顶尖性能。其成功证明了通用可扩展世界模型的潜力。
| 维度 | 大语言模型 | 世界模型(如DreamerV3) |
| :--------------- | :--------------------------------- | :------------------------------------- |
| 主要输入 | 离散词元(文本/代码) | 连续感知数据(像素、本体感觉) |
| 学习目标 | 下一词元预测(最大化似然) | 未来状态预测/奖励最大化 |
| 核心能力 | 统计关联与模式补全 | 环境中的因果推理与规划 |
| 知识更新 | 重训练/微调 | 支持在线学习 |
| 典型基准 | MMLU(知识)、HumanEval(编程) | Atari 100K、DMLab、机器人操控 |
| 关键缺陷 | 幻觉、缺乏根基性 | 样本效率低、领域特异性强 |
数据启示:上表揭示了一个根本二分法——LLM擅长压缩和生成以语言表达的人类知识,而世界模型擅长在动态系统中学习与规划。它们是针对智能不同维度的互补范式。
关键参与者与案例研究
AI生态已分化为重度投入LLM规模扩展范式的公司,与追求以推理和世界模型为核心的混合或替代路径的阵营。
LLM规模扩展先锋:
- OpenAI:规模假设的原型。从GPT-3到GPT-4,其战略始终是扩大模型规模、数据与算力,赌定推理等能力会“涌现”。其产品ChatGPT是此路径的公众面孔。
- Anthropic:通过宪法AI与机制可解释性聚焦于提升LLM的可靠性与可控性,本质上试图从内部“修复”LLM范式的局限。
- Meta (FAIR):凭借Llama 3推动开源高效LLM,在民主化访问的同时强化了“文本即基础”的模型理念。
世界模型与混合路径倡导者:
- DeepMind (Google):在哈萨比斯领导下,DeepMind的基因建立在世界模型与强化学习之上。AlphaGo的树搜索是在游戏模型内进行规划的一种形式;AlphaFold 2预测蛋白质结构——实为分子层面的物理世界模型。其最近的Gemini模型家族,特别是拥有超大上下文窗口的Gemini 1.5 Pro,代表了将部分规划与多模态根基性整合到以LLM为主架构中的尝试,这是内部融合的明确信号。
- xAI:埃隆·马斯克的公司凭借Grok-1模型强调求真与实时知识获取,间接承认了纯LLM的静态知识缺陷。
- **Cogn[未完待续]