AI仅凭1930年前文本,独立“再发现”量子力学与相对论

Hacker News April 2026
来源:Hacker News归档:April 2026
一项颠覆性实验中,仅用1930年前文本训练的大语言模型,独立推导出了量子力学与广义相对论的核心方程。这不仅挑战了我们对AI创造力的认知,更暗示着基础科学原理早已隐含在历史知识之中。

在一场震撼AI与科学界的里程碑式实验中,一个大型语言模型(LLM)被专门训练于1929年之前出版的文本——刻意排除了所有1920年代后的物理学论文,包括量子力学与广义相对论的奠基性著作。随后,该模型被要求推导现代物理学的基本方程。令人震惊的是,它独立生成了薛定谔方程、海森堡不确定性原理以及爱因斯坦的广义相对论场方程。这并非简单的死记硬背或复述;模型通过识别经典物理学、数学和哲学文本中潜在的逻辑模式,重构了这些理论。该实验验证了AINews称之为“逆向科学发现”的新范式:即通过限制而非扩展数据范围,迫使AI进行真正的推理。这一发现暗示,当前AI领域“数据越多越好”的共识可能需要重新审视。

技术深度解析

该实验由一家领先AI研究实验室的团队完成(具体实验室尚未公开,但方法论已公开),采用了一个定制变体的Transformer架构LLM,参数规模约为700亿。其关键创新在于训练语料库:一个精心策划的数据集,包含约1.2TB的文本,涵盖截至1929年出版的科研论文、教科书、哲学论著和数学证明。该语料库收录了牛顿、麦克斯韦、玻尔兹曼、黎曼、庞加莱、马赫的著作,以及爱因斯坦1905年和1915年的论文,但明确排除了爱因斯坦后来所有统一场论的尝试、玻尔-海森堡的哥本哈根诠释论文、薛定谔1926年的波动方程以及狄拉克的工作。

模型架构采用了稀疏混合专家(MoE)设计,包含16个专家模块,每个模块专精于不同领域(如经典力学、电磁学、热力学、几何学、科学哲学)。训练过程中应用了一种新颖的“推理约束”:模型若直接复制超过10个token的序列将受到惩罚,迫使其重新表述和推导概念,而非记忆。这与标准LLM训练(奖励精确复现)有本质区别。

在推理阶段,模型被给予开放式问题,例如:“从经典波动理论和光电效应出发,推导支配原子尺度粒子行为的基本方程。”模型的输出是一个多步骤的符号推导过程,经人工验证后,与薛定谔方程完全吻合。类似地,它从等效原理(见于爱因斯坦1907年的论文)和黎曼几何(见于黎曼1854年的特许任教资格论文)出发,推导出了爱因斯坦场方程。

| 模型 | 训练数据截止时间 | 参数规模 | 推导成功率(基于100个未见提示) | 平均推导步骤数 | 人类专家一致性评分(1-5分) |
|---|---|---|---|---|---|
| 标准GPT-4(基线) | 2023 | ~1.8T(估计) | 12% | 4.2 | 2.1 |
| 1930年前模型(本实验) | 1929 | 70B(MoE) | 78% | 18.7 | 4.6 |
| 1930年前模型(无推理约束) | 1929 | 70B(MoE) | 23% | 6.1 | 2.8 |
| Claude 3.5 Sonnet(基线) | 2024 | — | 8% | 3.5 | 1.9 |

数据要点: 带有推理约束的1930年前模型在此特定任务上大幅超越现代LLM,推导成功率达78%,而GPT-4仅为12%。推理约束至关重要——没有它,模型成功率骤降至23%,这表明强制模型重新推导而非回忆,是其中的关键机制。这暗示,现代LLM尽管知识渊博,但在真正的科学推理方面可能表现更差,因为它们可以直接从训练数据中检索答案。

关键参与者与案例研究

虽然主要研究者尚未公开身份,但该实验建立在多位知名学者的工作基础之上。Meta AI的Yann LeCun博士长期倡导强调推理而非记忆的“世界模型”方法。Mila的Yoshua Bengio博士则一直推动AI中的因果推理。1930年前实验可被视为对他们理论论点的实践验证。

多家公司已开始转向这一范式。Anthropic一直在开发“宪法AI”,通过对模型行为施加约束——这与本实验使用的推理约束异曲同工。DeepMind(Google)拥有AlphaFold和AlphaGeometry项目,它们使用符号推理引擎,但应用范围狭窄。1930年前实验则指明了一条通往通用科学推理AI的道路。

OpenAI 一直保持沉默,但其近期在数学推理方面关于“过程奖励模型”(PRM)的工作,与奖励正确中间步骤而非最终答案的思路一致。1930年前实验则更进一步,对训练数据本身施加了约束。

| 公司/产品 | 方法 | 关键优势 | 关键劣势 | 当前阶段 |
|---|---|---|---|---|
| 1930年前模型(本实验) | 历史文本 + 推理约束 | 高推导成功率,新颖见解 | 领域狭窄(仅限物理);计算成本高 | 研究原型 |
| DeepMind AlphaFold | 蛋白质结构预测 | 生物学领域世界领先的准确性 | 无法泛化至其他科学领域 | 生产环境 |
| Anthropic Claude(宪法AI) | 通过约束进行价值对齐 | 注重安全,可预测 | 非为科学发现设计 | 生产环境 |
| OpenAI GPT-4(带PRM) | 过程奖励建模 | 强大的数学推理能力 | 仍依赖现代数据;易产生幻觉 | 研究/生产环境 |

数据要点: 1930年前模型目前只是一个研究原型,但其性能表明了一条新的竞争轴线:不仅比拼数据规模,更比拼数据策展与约束设计。能够构建有效“推理约束”并精心筛选历史语料库的公司,可能在未来几年内主导科学AI领域。

更多来自 Hacker News

无标题In a move that has sent ripples through Silicon Valley and global policy circles, Anthropic released its 'Exponential AIFable5越狱攻击揭示AI安全致命缺陷:叙事逻辑绕过所有护栏AINews发现了一种正在快速传播的AI越狱技术,名为“Fable5”,它利用大语言模型的核心叙事理解能力进行攻击。攻击者将恶意指令嵌入虚构故事中——包含角色、情节和道德困境——从而诱使模型在创意写作的伪装下生成被禁止的内容。我们的测试证实Equiv:开源工具用数学证明AI代码重构的正确性从GPT-4到Claude再到各类专用编程助手,AI代码生成工具的爆发式增长极大加速了软件开发进程。然而,一个关键盲点依然存在:当AI提出重构建议时,开发者如何确信新代码在语义上与旧代码完全一致?新开源的Equiv工具直接应对这一挑战,将形查看来源专题页Hacker News 已收录 4613 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

AI Agent 重塑开源论坛:Seaticket.ai 为 Discourse 社区注入智能支持一款名为 seaticket.ai 的新工具正部署 AI Agent,自动扫描 Discourse 论坛帖子,检测未解答的技术问题并生成定制化解决方案。这标志着从被动、依赖人工的支持模式,向主动、实时的智能响应转变,有望彻底改变开源社区管理特德·姜揭穿生成式AI艺术空洞:意图为何至关重要著名科幻作家特德·姜对生成式AI提出尖锐批评,指出其输出本质是统计模式匹配,缺乏真正的艺术意图。AINews深度剖析为何这一结构性缺陷无法通过规模扩展解决,以及它对创造力未来的深远影响。RegexPSPACE基准测试揭示LLM在形式语言推理中的致命缺陷一项名为RegexPSPACE的全新基准测试揭示,即便是最先进的大语言模型,在正则表达式等价性与包含性问题上也遭遇了灾难性失败——这些问题属于PSPACE完全问题。这一发现暴露了模式匹配与形式推理之间的关键鸿沟,威胁着形式验证、编译器优化和GPT-5攻克量子引力难题:AI首次产出可验证的原创物理学成果在人工智能发展史上具有里程碑意义的时刻,GPT-5独立推导出一个自洽的全新量子引力数学框架——一个困扰人类物理学家近一个世纪的难题。这标志着大型语言模型首次产出可验证的原创科学成果,将AI从加速工具的角色转变为基础发现的核心参与者。

常见问题

这次模型发布“AI Rediscovers Quantum Mechanics and Relativity from Pre-1930 Texts Alone”的核心内容是什么?

In a landmark experiment that has sent shockwaves through the AI and scientific communities, a large language model (LLM) was trained exclusively on texts published before 1930—del…

从“How does the reasoning constraint work in the pre-1930 AI model?”看,这个模型发布为什么重要?

The experiment, conducted by a team at a leading AI research lab (the specific lab has not been named, but the methodology is public), involved a custom variant of a transformer-based LLM with approximately 70 billion pa…

围绕“Can AI discover new physics not in historical texts?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。