技术深度解析
当代AI系统的架构基础,为其在全新环境中运作设置了固有屏障。大语言模型的核心是Transformer架构,它通过自注意力机制处理信息,该机制会权衡序列中不同标记(token)的相关性。这种设计擅长识别训练数据中的统计模式和关联,但缺乏认知科学家所称的'概念融合'能力——即人类将迥异概念融合成真正新想法的能力。
以一个数学运算为例:一个基于文本训练的Transformer可以学到'2 + 2 = 4'频繁出现,并能推广到类似的算术运算。然而,当要求它发明一种满足前所未有的、特定新颖约束的全新数学运算时,它就会失败。它只能重组已知的运算(加法、减法等),而无法构想出诸如'量子纠缠加法'这样的运算——即数字基于量子物理学原理进行结合。
用于图像生成的扩散模型也面临类似的限制。像Stable Diffusion和DALL-E 3这样的模型,通过文本提示引导,迭代地对随机噪声进行去噪,从而生成令人印象深刻的图像。它们的'创造力'受限于从数十亿图像-文本对中学到的潜在空间。它们可以创造出已知元素的新颖组合——比如'戴着蒸汽朋克帽子的猫'——但无法发明一种全新的、在统计上与训练数据中现有风格混合体毫无相似之处的艺术风格。
新兴的'世界模型'试图通过学习环境的压缩表示来解决这个问题。Danijar Hafner在GitHub上开发的DreamerV3仓库展示了智能体如何通过强化学习来构建世界模型以规划行动。然而,即使是这些先进的系统,也只在具有预定义规则的模拟环境中运行。它们可以通过探索巨大的状态空间来掌握像《我的世界》这样的游戏,但无法发明新的游戏机制,或构想出与训练数据分布中任何事物都不相似的全新游戏。
| AI架构 | 核心机制 | 在新环境中的优势 | 根本性局限 |
|---|---|---|---|
| Transformer (大语言模型) | 自注意力,下一词预测 | 已知概念的重组 | 无法建立超越训练数据分布的新概念框架 |
| 扩散模型 | 由CLIP引导的迭代去噪 | 新颖的视觉组合 | 潜在空间受训练图像约束;无法发明新的视觉语法 |
| 强化学习智能体 | 通过试错实现奖励最大化 | 在目标明确的环境中掌握复杂环境 | 需要预定义的奖励函数;无法定义自身的新颖目标 |
| 世界模型 (如 DreamerV3) | 学习到的环境模拟 | 在部分可观测环境中的规划 | 仅能模拟其经历过的事物;无法想象物理上不可能但概念上自洽的世界 |
数据启示: 上表揭示了不同AI架构间一个一致的规律:它们擅长在已定义的空间内进行优化和重组,但缺乏重新定义空间本身的元认知能力。这正是那1%鸿沟的技术本质。
关键参与者与案例研究
弥合创新鸿沟的竞赛,既有行业巨头,也有雄心勃勃的研究实验室参与,它们从不同角度切入这一问题。
OpenAI的策略:规模化与涌现
OpenAI一直押注于'规模化假说'——即在多样化数据上训练的足够大的模型将展现出涌现能力,包括某种形式的创造力。他们的GPT-4及后续模型展示了令人印象深刻的少样本学习能力,并能通过类比推理解决某些新颖谜题。然而,即使是最先进的系统,在面对需要'尤里卡!'(顿悟)时刻的任务时仍感吃力。在一项涉及发明满足新颖约束的新棋盘游戏规则的受控测试中,GPT-4生成的规则集看似合理但缺乏原创性,而人类游戏设计师则创造了更为优雅、原创的系统。
Anthropic的宪法AI与概念框架
Anthropic及其Claude模型,通过宪法AI强调透明度和安全性。他们对'概念框架'的研究,为通向更具结构化的推理指明了一条道路。通过显式地表征概念及其关系,而非纯粹依赖统计模式,未来的系统或许能更好地处理新颖场景。研究员Chris Olah在机制可解释性方面的工作,旨在理解神经网络如何表征概念,这可能最终催生出能更灵活操纵这些表征的架构。
Google DeepMind的系统化探索
DeepMind开创了将AI与类人探索相结合的方法。他们的AlphaFold系统通过掌握蛋白质折叠的物理和进化约束,而非发明新的生物学原理,彻底改变了蛋白质结构预测领域。这凸显了其优势与局限:在规则明确、目标函数清晰的领域,AI可以取得超人成就;但在需要构想全新科学假设或实验范式的领域,人类直觉仍然至关重要。他们的Gato等多模态模型,以及旨在构建通用AI智能体的项目,正试图通过整合感知、行动和规划来扩大AI的探索边界,但核心的'无中生有'的创造力挑战依然存在。