技术深度解析
哈佛实验的方法论超越了简单的提示工程或检索增强生成(RAG),它代表了一种通过课程学习进行领域适应的结构化路径。其核心技术流程可能包含以下多层结构:
1. 数据策展与顺序暴露:团队构建了模拟研究生物理课程的训练体系。从经典教材(如Goldstein的《经典力学》、Sakurai的《现代量子力学》)起步,逐步进阶到专业专著,最终接触最新的arXiv预印本。模型并非被动接收数据,而是按照教学逻辑序列接触概念,从而构建层次化的知识结构。
2. 领域特异性问答的监督微调:创建包含数千个物理问题、解答与推导过程的数据集。模型被微调用于在给定问题描述及先前步骤的前提下,预测解决方案的下一步,从而强化领域内的思维链推理能力。
3. 基于专家反馈的强化学习:这可能是假设中的关键组件。人类专家(物理学教授与高阶研究生)评估AI多步解决方案的每一步推导,而非仅评判最终答案。奖励机制可能基于逻辑连贯性、每一步的数学正确性以及对物理原理的遵循度,同时对逻辑跳跃或虚构常数进行惩罚。这直接针对了‘走捷径’行为。
在架构层面,Claude 3.5 Sonnet的成功得益于其在推理能力和长上下文处理方面的改进。实验要求模型在其上下文窗口(据称为20万token)中保持复杂多部分推导过程,并能准确引用先前步骤。然而,‘捷径’缺陷是Transformer架构下一词元预测目标固有的问题。模型学习的是解决步骤间的统计相关性,而非支撑这些步骤的因果公理关系。当统计路径不清晰时,模型会默认基于表面模式生成统计上最可能的‘下一步’,而非依赖深层逻辑。
探索类似领域的相关开源项目包括:
* OpenWebMath:一个从网络爬取数学内容构成的大型数据集,用于训练Meta的LLaMA-3等模型,证明了高质量STEM数据的价值。
* Lean-gym:一个与Lean定理证明器交互的环境,允许AI模型通过提供可验证的证明步骤来学习形式数学。这代表了一个有前景的方向,通过迫使模型在严格的形式逻辑系统内运作,来对抗‘捷径’问题。
| 训练阶段 | 数据类型 | 训练目标 | 对模型行为的影响 |
|---|---|---|---|
| 预训练 | 通用网络文本与代码 | 下一词元预测 | 构建广泛知识库与模式识别能力 |
| 课程监督微调 | 物理教材、论文 | 领域特异性下一步预测 | 使输出符合物理学形式化体系与行文风格 |
| 专家反馈强化学习 | 专家评分的解决方案 | 最大化逻辑连贯性奖励 | 直接抑制逻辑捷径;鼓励可验证的推导步骤 |
数据启示:上表演示了一个多阶段专业化流程。关键的非标准阶段是基于专家反馈的强化学习,这一阶段资源密集,但对于引导模型摆脱其固有的、优先选择看似合理模式而非严谨逻辑的倾向至关重要。正是这一阶段可能使本实验区别于更简单的微调尝试。
关键参与者与案例研究
本实验处于领先AI实验室策略与不断增长的科学AI工具生态系统的交汇点。
Anthropic(Claude 3.5 Sonnet):实验所选模型因其在推理基准测试中的强劲表现而备受关注。Anthropic对宪法AI的关注——即基于一套原则训练模型使其乐于助人、诚实且无害——可能为其奠定了‘不捏造事实’的基础,尽管物理实验表明这对于深度严谨性而言尚不充分。Anthropic提供大上下文窗口和强大推理能力的策略,使Claude成为此类高强度、长篇幅认知任务的首选。
科学AI的竞争性路径:
* DeepMind的AlphaFold与GNoME:这些并非大语言模型,而是用于蛋白质折叠与材料发现的专用深度学习系统(图神经网络)。它们代表了一种替代范式:创建狭窄的、任务特定的架构,通过工程化的归纳偏置取得卓越性能,而非依赖通用语言理解。
* OpenAI的ChatGPT与代码解释器:一种更务实、侧重工具使用的路径。在此,大语言模型充当规划者与解释器,通过编写和执行代码(例如使用SymPy进行符号数学运算或数值模拟的Python代码)来解决问题。这种方法将模型的自然语言能力与精确的计算工具相结合,提供了另一种解决复杂科学问题的途径。