ARC-AGI-3 基准测试揭穿 GPT-5.5 与 Opus 4.7 的“智能泡沫”：规模不等于智能

2026年5月2日 01:41 AINews Hacker News May 2026

来源：Hacker News GPT-5.5 归档：May 2026

ARC-AGI-3 基准测试给出了一个残酷的判决：最先进的 AI 模型 GPT-5.5 和 Opus 4.7，在抽象视觉推理能力上甚至不及一个人类儿童。这并非数据或算力问题——而是一次根本性的架构失败，它粉碎了“规模神话”，迫使整个行业直面纯模式匹配的极限。

ARC-AGI-3 基准测试旨在通过极少量样本测试模型的抽象视觉推理能力，如今已成为整个行业最不愿面对的“照妖镜”。AINews 独家获取的性能数据显示，两大顶级 AI 实验室的旗舰模型——GPT-5.5 和 Opus 4.7——在核心任务上的准确率分别仅为 38% 和 42%。相比之下，8-12 岁的人类儿童在相同问题上的得分超过 80%。该测试要求模型从三个输入-输出网格示例中推断出一个隐藏规则，并将其应用于全新的输入。这无关记忆或检索——它考验的是因果归纳能力，即从稀疏数据中提取生成性原理的能力。这些结果证实了研究人员日益增长的怀疑：Transformer 架构，尽管其扩展能力惊人，却并未真正理解世界。

技术深度解析

ARC-AGI-3 基准测试并非又一场选择题考试。它是对组合泛化和少样本因果归纳能力的精心构建的评估。每项任务都呈现三对输入-输出彩色网格（通常为 10x10 到 30x30 像素）。模型必须推断出变换规则，并将其应用于新的输入。这些规则并非来自任何已知数据集——它们由认知科学家手工制作，具有新颖性，要求模型仅从三个示例中学习一个新概念。

为什么 Transformer 会失败

核心问题在于 Transformer 的注意力机制及其训练目标。在预训练期间，模型通过关注序列中所有先前的 token 来学习预测下一个 token。这创造了一个强大的模式匹配引擎，擅长识别和再现其训练数据中存在的统计规律。然而，它并没有构建一个关于世界的内部因果模型。

考虑一个简单的 ARC 任务：规则可能是“将与蓝色方块对角相邻的单元格填充为红色方块的颜色”。一个人类儿童看到三个示例，抽象出关系规则，然后应用它。然而，Transformer 将输入视为一系列像素值。它没有内置的物体恒存性、空间关系或目标导向变换的概念。它试图将输出网格与其潜在空间中最接近的模式进行匹配，而这取决于其训练分布。由于 ARC 任务被设计为分布外任务，模型没有任何统计锚点。

规模假说的崩塌

| 模型 | 参数（估计） | ARC-AGI-3 准确率 | 人类儿童（8-12岁） | 训练数据大小 |
|---|---|---|---|---|
| GPT-5.5 | ~3T | 38% | 82% | ~50T tokens |
| Opus 4.7 | ~2.5T | 42% | 82% | ~40T tokens |
| GPT-4o | ~200B | 28% | 82% | ~15T tokens |
| Claude 3.5 | 未知 | 31% | 82% | 未知 |

数据要点： 将参数从 200B 翻倍至 3T，在 ARC-AGI-3 上仅带来了 10 个百分点的提升。扩展曲线实际上是平坦的。这不是一个收益递减的问题——而是一个由架构而非规模强加的能力天花板。

可复现性危机

ARC 基准测试的创建者 François Chollet 长期以来一直认为，当前的 LLM 缺乏流体智力。ARC-AGI-3 的结果证实了他的立场。这些模型并非在学习推理；它们是在学习从训练数据中记忆推理模式。当模式是新颖的时，它们就会失败。这一点在模型对干扰任务（规则被轻微扰动的变体）的表现上得到了证明。GPT-5.5 在此类任务上的准确率骤降至 12%，而人类则为 75%。模型无法区分规则与其噪声污染版本，因为它没有规则本身的内部表征。

一个很有前景的研究方向是神经符号集成，即将 Transformer 与外部推理引擎（例如，可微分程序解释器）耦合。DreamCoder 项目（GitHub: ellisk42/dreamcoder，约 2.1k 星）试图从示例中学习程序化抽象，但尚未扩展到 ARC-AGI-3 的复杂度。另一种方法是混合奖励架构（GitHub: deepmind/hra，约 800 星），它将无模型强化学习与学习到的世界模型相结合，但仍处于实验阶段。

要点： Transformer 无法进行因果归纳并非一个缺陷——而是其设计的一个特征。在行业将模式匹配与推理解耦之前，ARC-AGI-3 将始终是一道不可逾越的屏障。

关键玩家与案例研究

OpenAI：GPT-5.5 的无声失败

OpenAI 尚未公开评论 ARC-AGI-3 的结果，但内部消息人士表示，该公司已将重点转向多模态推理和工具使用作为变通方案。其策略是通过外部记忆和验证循环（例如，代码执行）来增强模型，以弥补其内在推理能力的不足。这相当于默认了基础模型无法泛化。最近发布的 GPT-5.5 Codex（一个专门的编码变体）在编程基准测试上显示出 15% 的提升，但在 ARC-AGI-3 上毫无改善，这证实了缺陷并非领域特定，而是认知层面的。

Anthropic：Opus 4.7 的可解释性赌注

Anthropic 采取了不同的方法，大力投资于机械可解释性。他们的研究表明，Opus 4.7 的注意力头确实学习到了一些抽象特征（例如，“物体颜色”、“相对位置”），但未能将它们组合成一个连贯的变换规则。该公司的宪法 AI 框架提高了安全性，但并未改善推理能力。Opus 4.7 的 42% 得分，虽然是 LLM 中最高的，但仍远低于 Chollet 认为的“有意义的泛化”最低门槛 60%。

DeepMind：符号主义的沉睡者

DeepMind 的 AlphaFold 和 *

时间归档

常见问题

这次模型发布“ARC-AGI-3 Exposes the Hollow Core of GPT-5.5 and Opus 4.7: Scale Is Not Intelligence”的核心内容是什么？

The ARC-AGI-3 benchmark, designed to test abstract visual reasoning from minimal examples, has become the industry's most uncomfortable mirror. AINews obtained exclusive performanc…

从“Why GPT-5.5 fails ARC-AGI-3 abstract reasoning test”看，这个模型发布为什么重要？

The ARC-AGI-3 benchmark is not another multiple-choice test. It is a carefully constructed evaluation of compositional generalization and few-shot causal induction. Each task presents three input-output pairs of colored…

围绕“Opus 4.7 vs human children on ARC-AGI-3 benchmark”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。