技术深度解析
Hassabis 论点的核心在于当前基于 Transformer 的架构存在一个根本局限:它们本质上只是知识的冻结快照。像 GPT-4o 或 Claude 3.5 这样的模型,在庞大语料库上一次性训练完成后,其权重便固定下来,部署后不再变化。任何新信息——无论是科学发现、地缘政治事件,还是用户的个人偏好——都必须通过昂贵的微调或检索增强生成(RAG)来整合,这些方法只是权宜之计,而非模型的原生能力。
持续学习 指的是模型能够增量式地更新知识库,同时避免灾难性遗忘。这是神经网络领域一个众所周知的难题,常被称为稳定性-可塑性困境。当前的方法包括弹性权重巩固(EWC),它通过惩罚对先前任务重要的权重变化来保持稳定性;以及渐进式神经网络,它通过为新任务添加新列来扩展能力。然而,这些方法大多停留在学术层面,尚未能扩展到现代大语言模型数十亿参数的规模。在这一领域,一个值得关注的开源项目是 Mammoth(github.com/aimagelab/mammoth),这是一个基于 PyTorch 的持续学习框架,已获得超过 1200 颗星。它实现了多种最先进的方法,包括经验回放和元学习,但其基准测试仍局限于 CIFAR-100 和 Mini-ImageNet 等小规模数据集,而非网络规模的文本数据。将这些技术扩展到 LLM 仍是一个开放的工程挑战。
内省 或元认知要求模型拥有对自身推理过程的内部表征。这超越了思维链提示的范畴。它要求模型能够评估自身输出的有效性,在检测到错误时回溯,甚至质疑自身的假设。一种架构方法是 Self-Refine 框架(github.com/madaan/self-refine),它通过反馈和精炼的迭代循环来工作。另一种是 STaR(Self-Taught Reasoner),它通过生成推理过程并根据正确性进行筛选来引导推理。然而,这些方法仍然很浅层——它们并非真正的内省,只是在循环中生成和批评。真正的内省需要模型拥有一个可查询的可微分内部世界模型,这一概念在 DeepMind 自身的 Dreamer 和 MuZero 工作中有所探索,这些模型从像素中学习世界模型并用于规划。将此类世界模型与 LLM 集成是一个关键的研究方向。
长期记忆 是第三个支柱。当前模型拥有固定的上下文窗口(通常为 128k 到 200k 个 token)。虽然滑动窗口注意力和稀疏注意力等技术可以扩展这一窗口,但它们并未提供真正的持久记忆。像 MemGPT(github.com/cpacker/MemGPT)这样的方法试图为 LLM 提供虚拟内存系统,使其能够像操作系统管理 RAM 一样管理上下文。MemGPT 在 GitHub 上已获得超过 10,000 颗星,并在需要长期对话和文档分析的任务中展现出令人期待的结果。然而,它仍然是一个围绕固定模型的包装器,而非架构层面的变革。
| 能力 | 当前 LLM 状态 | AGI 需求 | 关键技术差距 |
|---|---|---|---|
| 持续学习 | 仅限微调或 RAG | 实时在线学习 | 灾难性遗忘、计算成本 |
| 内省 | 思维链、自精炼循环 | 元认知错误检测 | 缺乏内部世界模型 |
| 长期记忆 | 固定上下文窗口(128k-200k) | 持久、结构化的记忆 | 记忆检索、压缩、遗忘 |
数据要点: 上表显示,对于每一项 AGI 需求,当前 LLM 依赖的都是临时性的外部机制,而非原生的架构支持。弥合这些差距需要根本性的创新,而非渐进式的改进。
关键参与者与案例研究
DeepMind 并非唯一认识到这些差距的机构。几家主要参与者也在追求类似的策略,尽管侧重点有所不同。
DeepMind(Google DeepMind) 在记忆和元学习方面有着悠久的研究历史。他们的 可微分神经计算机(DNC) 和 神经图灵机 是早期尝试为神经网络赋予外部记忆的成果。最近,Gemini 集成了多模态能力,并展现出改进的推理能力,但它仍然缺乏真正的持续学习。Hassabis 的公开声明是一个战略信号,表明 DeepMind 正在加倍投入这些研究领域。
OpenAI 一直专注于规模和 alignment,但他们的 o1 模型(前身为 Q*)据称使用内部思维链推理进行自我纠正,这是向内省迈出的一步。然而,o1 仍然是一个静态模型。OpenAI 的 ChatGPT 通过用户特定上下文使用了一种记忆形式,但这很浅层,且无法跨会话持久化。他们最近在 CriticGPT(一个训练用于批评 GPT-4 输出的模型)上的工作,是构建内省能力的直接尝试。