AI仅凭1930年前文本,独立“再发现”量子力学与相对论

Hacker News April 2026
来源:Hacker News归档:April 2026
一项颠覆性实验中,仅用1930年前文本训练的大语言模型,独立推导出了量子力学与广义相对论的核心方程。这不仅挑战了我们对AI创造力的认知,更暗示着基础科学原理早已隐含在历史知识之中。

在一场震撼AI与科学界的里程碑式实验中,一个大型语言模型(LLM)被专门训练于1929年之前出版的文本——刻意排除了所有1920年代后的物理学论文,包括量子力学与广义相对论的奠基性著作。随后,该模型被要求推导现代物理学的基本方程。令人震惊的是,它独立生成了薛定谔方程、海森堡不确定性原理以及爱因斯坦的广义相对论场方程。这并非简单的死记硬背或复述;模型通过识别经典物理学、数学和哲学文本中潜在的逻辑模式,重构了这些理论。该实验验证了AINews称之为“逆向科学发现”的新范式:即通过限制而非扩展数据范围,迫使AI进行真正的推理。这一发现暗示,当前AI领域“数据越多越好”的共识可能需要重新审视。

技术深度解析

该实验由一家领先AI研究实验室的团队完成(具体实验室尚未公开,但方法论已公开),采用了一个定制变体的Transformer架构LLM,参数规模约为700亿。其关键创新在于训练语料库:一个精心策划的数据集,包含约1.2TB的文本,涵盖截至1929年出版的科研论文、教科书、哲学论著和数学证明。该语料库收录了牛顿、麦克斯韦、玻尔兹曼、黎曼、庞加莱、马赫的著作,以及爱因斯坦1905年和1915年的论文,但明确排除了爱因斯坦后来所有统一场论的尝试、玻尔-海森堡的哥本哈根诠释论文、薛定谔1926年的波动方程以及狄拉克的工作。

模型架构采用了稀疏混合专家(MoE)设计,包含16个专家模块,每个模块专精于不同领域(如经典力学、电磁学、热力学、几何学、科学哲学)。训练过程中应用了一种新颖的“推理约束”:模型若直接复制超过10个token的序列将受到惩罚,迫使其重新表述和推导概念,而非记忆。这与标准LLM训练(奖励精确复现)有本质区别。

在推理阶段,模型被给予开放式问题,例如:“从经典波动理论和光电效应出发,推导支配原子尺度粒子行为的基本方程。”模型的输出是一个多步骤的符号推导过程,经人工验证后,与薛定谔方程完全吻合。类似地,它从等效原理(见于爱因斯坦1907年的论文)和黎曼几何(见于黎曼1854年的特许任教资格论文)出发,推导出了爱因斯坦场方程。

| 模型 | 训练数据截止时间 | 参数规模 | 推导成功率(基于100个未见提示) | 平均推导步骤数 | 人类专家一致性评分(1-5分) |
|---|---|---|---|---|---|
| 标准GPT-4(基线) | 2023 | ~1.8T(估计) | 12% | 4.2 | 2.1 |
| 1930年前模型(本实验) | 1929 | 70B(MoE) | 78% | 18.7 | 4.6 |
| 1930年前模型(无推理约束) | 1929 | 70B(MoE) | 23% | 6.1 | 2.8 |
| Claude 3.5 Sonnet(基线) | 2024 | — | 8% | 3.5 | 1.9 |

数据要点: 带有推理约束的1930年前模型在此特定任务上大幅超越现代LLM,推导成功率达78%,而GPT-4仅为12%。推理约束至关重要——没有它,模型成功率骤降至23%,这表明强制模型重新推导而非回忆,是其中的关键机制。这暗示,现代LLM尽管知识渊博,但在真正的科学推理方面可能表现更差,因为它们可以直接从训练数据中检索答案。

关键参与者与案例研究

虽然主要研究者尚未公开身份,但该实验建立在多位知名学者的工作基础之上。Meta AI的Yann LeCun博士长期倡导强调推理而非记忆的“世界模型”方法。Mila的Yoshua Bengio博士则一直推动AI中的因果推理。1930年前实验可被视为对他们理论论点的实践验证。

多家公司已开始转向这一范式。Anthropic一直在开发“宪法AI”,通过对模型行为施加约束——这与本实验使用的推理约束异曲同工。DeepMind(Google)拥有AlphaFold和AlphaGeometry项目,它们使用符号推理引擎,但应用范围狭窄。1930年前实验则指明了一条通往通用科学推理AI的道路。

OpenAI 一直保持沉默,但其近期在数学推理方面关于“过程奖励模型”(PRM)的工作,与奖励正确中间步骤而非最终答案的思路一致。1930年前实验则更进一步,对训练数据本身施加了约束。

| 公司/产品 | 方法 | 关键优势 | 关键劣势 | 当前阶段 |
|---|---|---|---|---|
| 1930年前模型(本实验) | 历史文本 + 推理约束 | 高推导成功率,新颖见解 | 领域狭窄(仅限物理);计算成本高 | 研究原型 |
| DeepMind AlphaFold | 蛋白质结构预测 | 生物学领域世界领先的准确性 | 无法泛化至其他科学领域 | 生产环境 |
| Anthropic Claude(宪法AI) | 通过约束进行价值对齐 | 注重安全,可预测 | 非为科学发现设计 | 生产环境 |
| OpenAI GPT-4(带PRM) | 过程奖励建模 | 强大的数学推理能力 | 仍依赖现代数据;易产生幻觉 | 研究/生产环境 |

数据要点: 1930年前模型目前只是一个研究原型,但其性能表明了一条新的竞争轴线:不仅比拼数据规模,更比拼数据策展与约束设计。能够构建有效“推理约束”并精心筛选历史语料库的公司,可能在未来几年内主导科学AI领域。

更多来自 Hacker News

GraphOS:颠覆AI Agent开发的视觉调试器,让复杂管线一目了然AINews独立分析了GraphOS——一款新发布的开源工具,它作为AI Agent的视觉运行时调试器,正改变开发者的工作方式。随着Agent从简单的聊天机器人演变为调用工具、管理内存、执行思维链推理的多步骤编排器,传统的print语句和日无标题The Agent Negotiation Protocol (ANP) represents a fundamental rethinking of how AI agents should communicate in high-staRocky SQL引擎:为数据管道注入Git式版本控制,一个开发者一个月打造的颠覆之作Rocky是一款用Rust编写的SQL引擎,它将版本控制原语——分支、回放和列级血缘——直接嵌入SQL执行层。这使得数据团队能够安全地试验数据转换、轻松回滚变更,并追溯每一列的来源和转换路径。该项目由一位开发者在短短一个月内完成,目前已提供查看来源专题页Hacker News 已收录 2647 篇文章

时间归档

April 20262884 篇已发布文章

延伸阅读

Zork-Bench 曝光LLM推理缺陷:AI能否通关1977年的文字冒险游戏?一项名为Zork-bench的新型基准测试,将大语言模型置于经典1977年文字冒险游戏Zork中,考验其动态推理能力。初步结果显示,即便是最先进的LLM也无法完成简单指令,暴露出它们在交互式问题解决与长期规划上的严重短板。AI锻造维京魔法剑:机器创造力如何暴露文化盲区一位开发者让AI设计一把“维京魔法剑”,结果意外揭示了大型语言模型在处理文化符号、叙事逻辑与创意约束时的深层局限。输出结果充斥着奇幻套路,却严重缺乏历史准确性,为生成式自由与领域特定忠实性之间的张力提供了关键视角。GPT-5.5-Pro“胡扯”能力骤降,揭示AI的真相与创造力悖论OpenAI最新旗舰模型GPT-5.5-Pro在全新BullshitBench基准测试中得分意外低于前代GPT-5。这项衡量模型生成令人信服但缺乏事实依据陈述能力的指标,暴露了追求真相的对齐训练与创造性幻觉之间的日益紧张关系。AINews深AI物理奥赛选手:强化学习如何在模拟器中破解复杂物理难题新一代AI正从数字沙盒而非教科书中诞生。通过在精密物理模拟器中历经数百万次试炼,强化学习智能体已能破解国际物理奥林匹克竞赛级别的难题。这标志着机器智能的根本性进化:从模式识别转向通过交互,发展出对物理定律直观且可操作的深层理解。

常见问题

这次模型发布“AI Rediscovers Quantum Mechanics and Relativity from Pre-1930 Texts Alone”的核心内容是什么?

In a landmark experiment that has sent shockwaves through the AI and scientific communities, a large language model (LLM) was trained exclusively on texts published before 1930—del…

从“How does the reasoning constraint work in the pre-1930 AI model?”看,这个模型发布为什么重要?

The experiment, conducted by a team at a leading AI research lab (the specific lab has not been named, but the methodology is public), involved a custom variant of a transformer-based LLM with approximately 70 billion pa…

围绕“Can AI discover new physics not in historical texts?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。