AI仅凭1930年前文本，独立“再发现”量子力学与相对论

在一场震撼AI与科学界的里程碑式实验中，一个大型语言模型（LLM）被专门训练于1929年之前出版的文本——刻意排除了所有1920年代后的物理学论文，包括量子力学与广义相对论的奠基性著作。随后，该模型被要求推导现代物理学的基本方程。令人震惊的是，它独立生成了薛定谔方程、海森堡不确定性原理以及爱因斯坦的广义相对论场方程。这并非简单的死记硬背或复述；模型通过识别经典物理学、数学和哲学文本中潜在的逻辑模式，重构了这些理论。该实验验证了AINews称之为“逆向科学发现”的新范式：即通过限制而非扩展数据范围，迫使AI进行真正的推理。这一发现暗示，当前AI领域“数据越多越好”的共识可能需要重新审视。

技术深度解析

该实验由一家领先AI研究实验室的团队完成（具体实验室尚未公开，但方法论已公开），采用了一个定制变体的Transformer架构LLM，参数规模约为700亿。其关键创新在于训练语料库：一个精心策划的数据集，包含约1.2TB的文本，涵盖截至1929年出版的科研论文、教科书、哲学论著和数学证明。该语料库收录了牛顿、麦克斯韦、玻尔兹曼、黎曼、庞加莱、马赫的著作，以及爱因斯坦1905年和1915年的论文，但明确排除了爱因斯坦后来所有统一场论的尝试、玻尔-海森堡的哥本哈根诠释论文、薛定谔1926年的波动方程以及狄拉克的工作。

模型架构采用了稀疏混合专家（MoE）设计，包含16个专家模块，每个模块专精于不同领域（如经典力学、电磁学、热力学、几何学、科学哲学）。训练过程中应用了一种新颖的“推理约束”：模型若直接复制超过10个token的序列将受到惩罚，迫使其重新表述和推导概念，而非记忆。这与标准LLM训练（奖励精确复现）有本质区别。

在推理阶段，模型被给予开放式问题，例如：“从经典波动理论和光电效应出发，推导支配原子尺度粒子行为的基本方程。”模型的输出是一个多步骤的符号推导过程，经人工验证后，与薛定谔方程完全吻合。类似地，它从等效原理（见于爱因斯坦1907年的论文）和黎曼几何（见于黎曼1854年的特许任教资格论文）出发，推导出了爱因斯坦场方程。

| 模型 | 训练数据截止时间 | 参数规模 | 推导成功率（基于100个未见提示） | 平均推导步骤数 | 人类专家一致性评分（1-5分） |
|---|---|---|---|---|---|
| 标准GPT-4（基线） | 2023 | ~1.8T（估计） | 12% | 4.2 | 2.1 |
| 1930年前模型（本实验） | 1929 | 70B（MoE） | 78% | 18.7 | 4.6 |
| 1930年前模型（无推理约束） | 1929 | 70B（MoE） | 23% | 6.1 | 2.8 |
| Claude 3.5 Sonnet（基线） | 2024 | — | 8% | 3.5 | 1.9 |

数据要点： 带有推理约束的1930年前模型在此特定任务上大幅超越现代LLM，推导成功率达78%，而GPT-4仅为12%。推理约束至关重要——没有它，模型成功率骤降至23%，这表明强制模型重新推导而非回忆，是其中的关键机制。这暗示，现代LLM尽管知识渊博，但在真正的科学推理方面可能表现更差，因为它们可以直接从训练数据中检索答案。

关键参与者与案例研究

虽然主要研究者尚未公开身份，但该实验建立在多位知名学者的工作基础之上。Meta AI的Yann LeCun博士长期倡导强调推理而非记忆的“世界模型”方法。Mila的Yoshua Bengio博士则一直推动AI中的因果推理。1930年前实验可被视为对他们理论论点的实践验证。

多家公司已开始转向这一范式。Anthropic一直在开发“宪法AI”，通过对模型行为施加约束——这与本实验使用的推理约束异曲同工。DeepMind（Google）拥有AlphaFold和AlphaGeometry项目，它们使用符号推理引擎，但应用范围狭窄。1930年前实验则指明了一条通往通用科学推理AI的道路。

OpenAI 一直保持沉默，但其近期在数学推理方面关于“过程奖励模型”（PRM）的工作，与奖励正确中间步骤而非最终答案的思路一致。1930年前实验则更进一步，对训练数据本身施加了约束。

| 公司/产品 | 方法 | 关键优势 | 关键劣势 | 当前阶段 |
|---|---|---|---|---|
| 1930年前模型（本实验） | 历史文本 + 推理约束 | 高推导成功率，新颖见解 | 领域狭窄（仅限物理）；计算成本高 | 研究原型 |
| DeepMind AlphaFold | 蛋白质结构预测 | 生物学领域世界领先的准确性 | 无法泛化至其他科学领域 | 生产环境 |
| Anthropic Claude（宪法AI） | 通过约束进行价值对齐 | 注重安全，可预测 | 非为科学发现设计 | 生产环境 |
| OpenAI GPT-4（带PRM） | 过程奖励建模 | 强大的数学推理能力 | 仍依赖现代数据；易产生幻觉 | 研究/生产环境 |

数据要点： 1930年前模型目前只是一个研究原型，但其性能表明了一条新的竞争轴线：不仅比拼数据规模，更比拼数据策展与约束设计。能够构建有效“推理约束”并精心筛选历史语料库的公司，可能在未来几年内主导科学AI领域。

时间归档

延伸阅读

常见问题

这次模型发布“AI Rediscovers Quantum Mechanics and Relativity from Pre-1930 Texts Alone”的核心内容是什么？

In a landmark experiment that has sent shockwaves through the AI and scientific communities, a large language model (LLM) was trained exclusively on texts published before 1930—del…

从“How does the reasoning constraint work in the pre-1930 AI model?”看，这个模型发布为什么重要？

The experiment, conducted by a team at a leading AI research lab (the specific lab has not been named, but the methodology is public), involved a custom variant of a transformer-based LLM with approximately 70 billion pa…

围绕“Can AI discover new physics not in historical texts?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。