技术深度解析
该研究的方法论是其对抗插值假说的最有力武器。为了构建一个能消除插值可能性的任务,研究人员通常转向具有精心控制特性的算法或合成数据。一种经典方法是在由上下文无关语法或特定计算原语(例如,使用训练中未出现的素数模数的模运算)控制的序列上进行训练,然后在需要以新颖的组合方式应用底层规则的序列上进行测试。
从架构上看,核心问题是:Transformer内部的什么机制使之成为可能?自注意力机制本质上是一个模式补全引擎。然而,当在大量结构化数据(如代码或数学证明)上训练时,它可能学会在其高维潜在空间中将变量、操作和控制流表示为可操作的抽象概念。像Yann LeCun这样的研究人员曾主张混合架构,但这项工作表明,纯粹的Transformer在达到足够规模并经过适当训练后,可以通过连续表示来近似符号操作——这种现象被一些人称为“软符号处理”。
一个关键的技术细节是中间推导要求的作用。强制模型输出逐步推理过程(由Google的Jason Wei及其同事通过思维链提示开创),相当于一种“草稿纸”。它可能允许模型将问题分解为已掌握的子问题,从而有效地在已学习的子程序空间中进行搜索。这与DeepMind的“神经算法推理”系列工作中探索的“通过逐步执行进行算法推理”框架相吻合。
推动这一前沿领域的相关开源仓库包括:
* `facebookresearch/neuralcompressor`:一个用于探索神经网络如何学习和执行算法任务的工具包,常用于相关研究。
* `google-deepmind/neural_networks_constrained`:用于在具有形式约束的任务上训练网络、探究泛化能力的研究代码。
* `EleutherAI/math-lm`:专注于在数学数据上训练语言模型的仓库,对规则学习的基准测试至关重要。
| 模型类型 | 训练数据关键点 | 分布外规则学习测试表现 | 典型成功指标 |
|---|---|---|---|
| 标准LLM(如GPT-3) | 广泛的网络文本 | 差;依赖表面相似性 | 下一词预测准确率 |
| 代码训练LM(如Codex) | GitHub仓库 | 中等;学习编程语法与惯用法 | 代码补全正确性 |
| 合成数据训练Transformer(研究焦点) | 算法生成序列,包含保留规则 | 高;专为测试纯粹规则归纳设计 | 在保留规则上的准确率 + 正确推导步骤 |
数据要点:上表演示了一个递进过程。通用网络文本训练的模型在受控规则学习上失败。代码训练的模型显示出一定的迁移能力。而本研究采用的方法——使用合成的、受控的数据——是唯一能够清晰隔离并测量规则学习能力本身(与记忆现实世界模式分离)的方法。
关键参与者与案例研究
这项研究处于数个专注于机器推理基础的学术和工业实验室工作的交叉点。
学术先驱:纽约大学数据科学中心和MIT CSAIL的研究人员长期研究神经网络泛化的理论极限。Brenden Lake关于类人概念学习的工作以及Joshua Tenenbaum关于构建认知贝叶斯模型的研究提供了一个对比背景;他们主张更具结构性、归纳偏置的模型。来自Transformer阵营的这一新证据挑战了这种二分法,表明不那么显式结构化的架构仍然可以捕捉规则。
工业研发:Google DeepMind凭借其Gemini模型,特别是AlphaCode和AlphaGeometry项目,一直是该领域的领导者。AlphaGeometry解决了奥林匹克几何问题,是一个绝佳的案例研究。它结合了符号演绎引擎(基于显式规则)与语言模型(神经)。新发现表明,神经组件的作用可能比之前假设的更具规则意识。OpenAI在GPT-4数学能力方面的工作,及其在MATH数据集上报告的表现,也与此相关,尽管关于泛化界限的公开细节通常较少。
工具与平台战略:各公司正押注于这一不断演进的能力。Anthropic对Constitutional AI和模型诚实性的关注,隐含地依赖于模型理解和应用抽象原则(规则)的能力。Replit的AI驱动编码环境假设底层模型能够推断编程意图和规则,而不仅仅是复制片段。Wolfram Research正在探索将Wolfram Alpha的计算知识引擎与LLM相结合,本质上是在神经模式匹配之上叠加一个庞大的显式规则系统,以产生可靠输出。