技术深度解析
这场辩论的核心不仅是哲学性的,更是深刻技术性的,它围绕着主导范式——自回归大语言模型(Autoregressive LLM)的架构局限性展开。像GPT-4、Claude 3和Llama 3这样的模型是概率序列预测器。它们通过基于海量训练数据预测下一个词元(单词片段)来生成看似合理的文本。虽然流畅得令人惊叹,但这种架构缺乏稳健智能的几个关键属性:一个关于世界如何运作的持久内部模型;执行可靠且可验证的思维链推理的能力;以及进行长远规划的能力。
杨立昆提出的替代方案以联合嵌入预测架构(JEPA)和分层世界模型为核心。JEPA旨在通过预测输入中缺失的信息(而非序列中的下一个词)来学习世界的抽象表征。这更接近人类和动物的学习方式:通过构建预测环境状态的内部模型。其目标是创建理解因果关系的系统,而不仅仅是文本中的相关性。Meta AI的开源库`fairseq`长期以来一直是序列建模研究的中心,但新的焦点在探索基于能量的模型和超越语言的自我监督学习项目中已显而易见。
一个关键的技术区别在于对“系统2”推理的追求——缓慢、审慎、逻辑性的思考——与当前LLM“系统1”式快速、直觉性但常常不可靠的回应形成对比。像DeepMind(凭借其Gemini系列和AlphaGeometry研究)和Anthropic(凭借其宪法AI和机制可解释性工作)这样的公司正在投资于灌输更可靠推理能力的技术,但主要仍在Transformer框架内进行。杨立昆认为这远远不够;需要一种全新的架构。
| 架构范式 | 核心机制 | 优势 | 关键局限性 | 主要支持者 |
|----------------------------|---------------------|---------------|----------------------|----------------|
| 自回归LLM(当前主导) | 基于海量文本数据集进行下一个词元预测。 | 前所未有的流畅性、多功能性、快速产品化能力。 | 幻觉问题、缺乏持久世界模型、规划能力差、推理计算成本高。 | OpenAI, Anthropic, Google (Gemini), 大多数初创公司。 |
| 世界模型 / JEPA(提议的替代方案) | 学习预测世界状态的潜在表征。 | 具备真正理解、可靠推理、规划、能源效率的潜力。 | 技术不成熟、未经验证于大规模应用、掌握语言的路径不明确。 | 杨立昆 (Meta AI), “基于模型”强化学习的支持者。 |
| 神经符号混合 | 将神经网络与形式逻辑/符号推理相结合。 | 显式推理、可验证性、数据效率高。 | 集成挑战、符号组件难以扩展、通常灵活性较低。 | MIT、IBM、DeepMind(部分)的研究人员。 |
数据启示: 该表格揭示了一个经典的创新者困境。现有架构(LLM)具有明确的短期商业优势,但也公认存在根本性的天花板。挑战者架构则承诺了一条超越这些天花板的路径,但属于高风险、长期的研发赌注,没有明确的市场化时间表。
关键参与者与案例研究
行业格局由体现这些不同理念的组织所定义。
产品驱动阵营:
* Anthropic: 作为杨立昆批评的直接对象,Anthrope围绕AI安全和“宪法”原则构建了强大的商业叙事。其从Claude 2到Claude 3.5 Sonnet的快速迭代,以及在编码和分析方面的强劲基准测试成绩,是产品中心方法的典范。然而,其对精炼Transformer架构的依赖,使其容易受到杨立昆的批评——即它只是在打磨一个根本上受限的范式。
* OpenAI: 产品驱动规模化发展的原型。它从一个研究实验室演变为一个主导性的平台公司,凭借GPT-4、ChatGPT和GPT商店,展示了LLM路径的巨大市场力量。其向智能体能力和多模态模型的转向,显示了在现有架构框架内进化产品的尝试。
* Google DeepMind: 一个混合案例。尽管其Gemini模型完全处于产品竞赛中,但其在AlphaFold、AlphaGo和AlphaGeometry上的基础研究,则代表了杨立昆所倡导的深度科学探索。谷歌内部研究部门与产品部门之间的张力,正是整个行业辩论的缩影。
科学优先阵营:
* Meta AI (FAIR): 在杨立昆的指导下,Meta的基础AI研究实验室已成为开放、长期科学探索的旗手。发布Llama模型是一项战略举措,旨在将LLM层商品化,并将竞争推向下一个架构层级。其研究重点明确指向JEPA、世界模型和自监督学习,旨在为AI奠定新的科学基础,而非仅仅优化现有产品。