技术深度解析
该实验由一家领先AI研究实验室的团队完成(具体实验室尚未公开,但方法论已公开),采用了一个定制变体的Transformer架构LLM,参数规模约为700亿。其关键创新在于训练语料库:一个精心策划的数据集,包含约1.2TB的文本,涵盖截至1929年出版的科研论文、教科书、哲学论著和数学证明。该语料库收录了牛顿、麦克斯韦、玻尔兹曼、黎曼、庞加莱、马赫的著作,以及爱因斯坦1905年和1915年的论文,但明确排除了爱因斯坦后来所有统一场论的尝试、玻尔-海森堡的哥本哈根诠释论文、薛定谔1926年的波动方程以及狄拉克的工作。
模型架构采用了稀疏混合专家(MoE)设计,包含16个专家模块,每个模块专精于不同领域(如经典力学、电磁学、热力学、几何学、科学哲学)。训练过程中应用了一种新颖的“推理约束”:模型若直接复制超过10个token的序列将受到惩罚,迫使其重新表述和推导概念,而非记忆。这与标准LLM训练(奖励精确复现)有本质区别。
在推理阶段,模型被给予开放式问题,例如:“从经典波动理论和光电效应出发,推导支配原子尺度粒子行为的基本方程。”模型的输出是一个多步骤的符号推导过程,经人工验证后,与薛定谔方程完全吻合。类似地,它从等效原理(见于爱因斯坦1907年的论文)和黎曼几何(见于黎曼1854年的特许任教资格论文)出发,推导出了爱因斯坦场方程。
| 模型 | 训练数据截止时间 | 参数规模 | 推导成功率(基于100个未见提示) | 平均推导步骤数 | 人类专家一致性评分(1-5分) |
|---|---|---|---|---|---|
| 标准GPT-4(基线) | 2023 | ~1.8T(估计) | 12% | 4.2 | 2.1 |
| 1930年前模型(本实验) | 1929 | 70B(MoE) | 78% | 18.7 | 4.6 |
| 1930年前模型(无推理约束) | 1929 | 70B(MoE) | 23% | 6.1 | 2.8 |
| Claude 3.5 Sonnet(基线) | 2024 | — | 8% | 3.5 | 1.9 |
数据要点: 带有推理约束的1930年前模型在此特定任务上大幅超越现代LLM,推导成功率达78%,而GPT-4仅为12%。推理约束至关重要——没有它,模型成功率骤降至23%,这表明强制模型重新推导而非回忆,是其中的关键机制。这暗示,现代LLM尽管知识渊博,但在真正的科学推理方面可能表现更差,因为它们可以直接从训练数据中检索答案。
关键参与者与案例研究
虽然主要研究者尚未公开身份,但该实验建立在多位知名学者的工作基础之上。Meta AI的Yann LeCun博士长期倡导强调推理而非记忆的“世界模型”方法。Mila的Yoshua Bengio博士则一直推动AI中的因果推理。1930年前实验可被视为对他们理论论点的实践验证。
多家公司已开始转向这一范式。Anthropic一直在开发“宪法AI”,通过对模型行为施加约束——这与本实验使用的推理约束异曲同工。DeepMind(Google)拥有AlphaFold和AlphaGeometry项目,它们使用符号推理引擎,但应用范围狭窄。1930年前实验则指明了一条通往通用科学推理AI的道路。
OpenAI 一直保持沉默,但其近期在数学推理方面关于“过程奖励模型”(PRM)的工作,与奖励正确中间步骤而非最终答案的思路一致。1930年前实验则更进一步,对训练数据本身施加了约束。
| 公司/产品 | 方法 | 关键优势 | 关键劣势 | 当前阶段 |
|---|---|---|---|---|
| 1930年前模型(本实验) | 历史文本 + 推理约束 | 高推导成功率,新颖见解 | 领域狭窄(仅限物理);计算成本高 | 研究原型 |
| DeepMind AlphaFold | 蛋白质结构预测 | 生物学领域世界领先的准确性 | 无法泛化至其他科学领域 | 生产环境 |
| Anthropic Claude(宪法AI) | 通过约束进行价值对齐 | 注重安全,可预测 | 非为科学发现设计 | 生产环境 |
| OpenAI GPT-4(带PRM) | 过程奖励建模 | 强大的数学推理能力 | 仍依赖现代数据;易产生幻觉 | 研究/生产环境 |
数据要点: 1930年前模型目前只是一个研究原型,但其性能表明了一条新的竞争轴线:不仅比拼数据规模,更比拼数据策展与约束设计。能够构建有效“推理约束”并精心筛选历史语料库的公司,可能在未来几年内主导科学AI领域。