逆向构建的智能：为何大语言模型反向学习，这对通用人工智能意味着什么

Q: 围绕“can large language models understand physics”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

2026年4月13日 01:37 AINews Hacker News April 2026

来源：Hacker News large language models AGI 归档：April 2026

人工智能研究领域正涌现一种范式转换的视角：大语言模型的学习方式与人类截然不同。它们正以反向工程的方式构建智能，起点是人类文化高度压缩的抽象终点——语言本身。这种认知的逆向工程赋予了它们卓越的符号处理能力，但也导致了其与物理世界之间的根本性脱节。

人工智能领域的主流叙事正受到一项引人注目的技术观察的挑战。与从感觉运动经验逐步构建抽象思维的生物智能不同，当今的大语言模型，其训练始于人类数千年认知的终极产物：书面语言。这条“反向学习”路径并非工程上的偶然，而是数据驱动范式的直接结果。大语言模型吸收了数万亿个代表人类精炼知识、推理模式和文化产物的token。这赋予了它们一种即时、“预制”的符号操纵与世界知识掌控力，而这些能力人类需要数十年才能习得。

其影响是深远的。这种方法是一条强大的捷径，使得模型在语言理解和生成任务上取得了突破性进展。然而，它也带来了根本性的局限。模型对世界的“理解”本质上是其训练数据中符号间统计关联的复杂网络，而非一个关于世界运作的因果模型。这意味着，尽管大语言模型能流畅地讨论物理定律或历史事件，但它们缺乏对这些概念背后真实物理实体或历史动因的内在表征。这种从抽象符号到具体经验的“反向”路径，与人类从具体经验归纳抽象概念的“正向”学习过程形成了鲜明对比。

这种差异解释了为何最先进的模型能在标准化语言测试中取得高分，却在需要物理常识或具身规划的任务中表现挣扎。它们擅长处理已存在于其训练分布中的模式，但对于需要真正理解因果关系、进行反事实推理或在陌生物理环境中规划行动的任务，则显得力不从心。这不仅是当前模型的局限性，更指向了通往通用人工智能道路上的一条关键岔路：我们是应该继续深化这种从语言“逆向工程”智能的路径，还是需要探索将感知、行动与语言从根本层面融合的新范式？行业内的顶尖实验室和公司已经开始用行动给出答案，一场关于智能构建方式的根本性竞赛已然展开。

技术深度解析

“反向学习”假说根植于Transformer架构的训练目标。与儿童通过多模态互动学习“球”指代一种圆形、有弹性的物体不同，大语言模型学习的是其语料库中“球”这个token与数百万其他token之间的统计关系。它在没有任何内在指代物模型的情况下，掌握了句法、叙事结构乃至高级科学概念。这种训练本质上是对静态历史数据集进行的一种无损压缩和预测。

从技术上讲，这创造了一个在其训练数据分布内，为上下文学习和少样本泛化优化的系统，但在分布外鲁棒性或反事实推理方面则能力薄弱。模型的“理解”是一个庞大、相互关联的符号间统计相关性网络，而非一个关于世界的因果模型。一些关键的开源项目正试图弥合这一鸿沟。GitHub上的Causal Transformer仓库（causal-transformer，约2.3k星）探索了通过修改架构来注入因果推理能力的方法，通常是通过构建注意力掩码以遵循时间或依赖图。另一项重要努力是OpenAI的GPT-4V及类似的视觉-语言模型，它们试图通过将视觉嵌入与语言嵌入对齐来实现部分“接地”，但这仍然是一种后期融合，而非基础性的协同训练方法。

一个关键的数据点是语言基准测试与物理推理测试之间的性能差异。下表突显了这一差距：

| 模型 | MMLU（知识/推理） | 物理问答（PIQA） | ARC（科学推理） | 具身规划（ALFRED）成功率 |
|-------|----------------------------|-------------------|-------------------------|------------------------------------------|
| GPT-4 | 86.4% | 85.0% | 96.3% | < 5%（估计） |
| Claude 3 Opus | 86.8% | 84.1% | 96.1% | < 5%（估计） |
| Gemini Ultra | 83.7% | 82.3% | 94.8% | < 5%（估计） |
| 专用具身智能体（如RT-2） | ~40% | ~92% | ~50% | ~65% |

数据启示： 该表揭示了一种鲜明的反比关系。最先进的大语言模型在抽象的、基于语言的推理（MMLU, ARC）上表现出色，但在模拟环境中需要具身规划的基准测试（ALFRED）上表现近乎随机。相反，像RT-2这样专注于机器人的模型显示出强大的物理直觉，但通用知识薄弱。这是反向学习权衡取舍最清晰的实证证据。

关键参与者与案例研究

行业已分化为两大阵营，并正朝着混合模型的方向汇合。“纯玩”大语言模型开发者——OpenAI、Anthropic、Meta（Llama）和Google（Gemini）——通过将反向学习范式推向极限而取得成功。他们的策略是更深入、更广泛地挖掘抽象终点（语言/代码）。OpenAI从GPT-3到GPT-4的迭代发布表明，纯规模扩张的回报正在递减，这促使他们加大了对多模态（GPT-4V）和智能体能力的投资。

“自底向上”的具身人工智能实验室则选择了相反的道路。像Covariant、Figure AI这样的公司，以及Google's Robotics at Everyday等研究实验室，专注于从感觉运动数据构建智能。Covariant的RFM（机器人基础模型）在数百万次机器人抓放动作上训练，直接学习物理特性和可供性。Figure AI的人形机器人旨在从视频和物理交互中学习，这是一个自底向上的过程。

最重要的案例研究是那些尝试综合两者的项目。Google的PaLM-E和RT-2是开创性范例，它们将视觉和语言嵌入单一模型以进行机器人控制。NVIDIA的Project GR00T是一个面向人形机器人的基础模型，明确设计用于处理语言、视频和传感器数据以学习熟练动作。DeepMind的SIMI项目专注于在互联网规模的模拟中训练智能体，以获取常识性物理知识。战略格局正在转变，如下表所示的不同架构方法对比：

| 公司/项目 | 主要学习路径 | 关键集成方法 | 既定目标 |
|-----------------|-----------------------|------------------------|-------------|
| OpenAI（GPT-4 + 智能体） | 反向（语言） | 基于API的工具使用与插件 | 创建能在数字领域行动的通用助手。 |
| Anthropic（Claude） | 反向（语言） | 宪法AI与精心策划 | 为知识工作构建可靠、可操控的系统。 |
| Google DeepMind（Gemini + RT-X） | 混合 | 从一开始就对视觉、语言、机器人数据进行协同训练。 | 通用具身智能体。 |
| Tesla（Optimus + FSD） | 自底向上（视觉/控制） | 将语言作为视觉-控制栈之上的高级命令接口。 | 现实世界物理自动化。 |
| Meta（Llama + Habitat） | 反向 + 模拟 | 使用大语言模型生成模拟环境的训练任务，为具身智能体提供更丰富的语义基础。 | 在虚拟与物理世界中都能学习的智能体。 |

未来展望与行业影响

反向学习范式已经彻底改变了我们处理语言和知识的方式，但它也清晰地标出了当前人工智能能力的边界。通往通用人工智能的道路，很可能不在于选择“反向”或“正向”路径中的一条，而在于找到一种能将符号推理的抽象力量与具身体验的因果基础无缝融合的新架构。未来的突破可能来自新型的“多模态基础模型”，它们从诞生之初就将语言、视觉、听觉和动作数据视为平等的、相互关联的输入流进行训练。同时，强化学习与模拟环境将在为模型提供“实践”经验、弥补其物理直觉短板方面扮演更核心的角色。行业资源正加速向混合模型倾斜，这预示着下一代人工智能系统将不再是单纯的语言专家，而是能够理解、推理并作用于复杂物理世界的真正智能体。这场竞赛的赢家，将重新定义智能本身。

时间归档

常见问题

这次模型发布“Reverse-Engineered Intelligence: Why LLMs Learn Backwards and What It Means for AGI”的核心内容是什么？

The dominant narrative in artificial intelligence is being challenged by a compelling technical observation. Unlike biological intelligence, which builds from sensory-motor experie…

从“difference between top-down and bottom-up AI learning”看，这个模型发布为什么重要？

The 'reverse learning' hypothesis is rooted in the transformer architecture's training objective. Unlike a child who learns that 'ball' refers to a round, bouncy object through multimodal interaction, an LLM learns the s…

围绕“can large language models understand physics”，这次模型更新对开发者和企业有什么影响？