技术深度解析
ARC-AGI-3 基准测试并非又一场选择题考试。它是对组合泛化和少样本因果归纳能力的精心构建的评估。每项任务都呈现三对输入-输出彩色网格(通常为 10x10 到 30x30 像素)。模型必须推断出变换规则,并将其应用于新的输入。这些规则并非来自任何已知数据集——它们由认知科学家手工制作,具有新颖性,要求模型仅从三个示例中学习一个新概念。
为什么 Transformer 会失败
核心问题在于 Transformer 的注意力机制及其训练目标。在预训练期间,模型通过关注序列中所有先前的 token 来学习预测下一个 token。这创造了一个强大的模式匹配引擎,擅长识别和再现其训练数据中存在的统计规律。然而,它并没有构建一个关于世界的内部因果模型。
考虑一个简单的 ARC 任务:规则可能是“将与蓝色方块对角相邻的单元格填充为红色方块的颜色”。一个人类儿童看到三个示例,抽象出关系规则,然后应用它。然而,Transformer 将输入视为一系列像素值。它没有内置的物体恒存性、空间关系或目标导向变换的概念。它试图将输出网格与其潜在空间中最接近的模式进行匹配,而这取决于其训练分布。由于 ARC 任务被设计为分布外任务,模型没有任何统计锚点。
规模假说的崩塌
| 模型 | 参数(估计) | ARC-AGI-3 准确率 | 人类儿童(8-12岁) | 训练数据大小 |
|---|---|---|---|---|
| GPT-5.5 | ~3T | 38% | 82% | ~50T tokens |
| Opus 4.7 | ~2.5T | 42% | 82% | ~40T tokens |
| GPT-4o | ~200B | 28% | 82% | ~15T tokens |
| Claude 3.5 | 未知 | 31% | 82% | 未知 |
数据要点: 将参数从 200B 翻倍至 3T,在 ARC-AGI-3 上仅带来了 10 个百分点的提升。扩展曲线实际上是平坦的。这不是一个收益递减的问题——而是一个由架构而非规模强加的能力天花板。
可复现性危机
ARC 基准测试的创建者 François Chollet 长期以来一直认为,当前的 LLM 缺乏流体智力。ARC-AGI-3 的结果证实了他的立场。这些模型并非在学习推理;它们是在学习从训练数据中记忆推理模式。当模式是新颖的时,它们就会失败。这一点在模型对干扰任务(规则被轻微扰动的变体)的表现上得到了证明。GPT-5.5 在此类任务上的准确率骤降至 12%,而人类则为 75%。模型无法区分规则与其噪声污染版本,因为它没有规则本身的内部表征。
一个很有前景的研究方向是神经符号集成,即将 Transformer 与外部推理引擎(例如,可微分程序解释器)耦合。DreamCoder 项目(GitHub: ellisk42/dreamcoder,约 2.1k 星)试图从示例中学习程序化抽象,但尚未扩展到 ARC-AGI-3 的复杂度。另一种方法是混合奖励架构(GitHub: deepmind/hra,约 800 星),它将无模型强化学习与学习到的世界模型相结合,但仍处于实验阶段。
要点: Transformer 无法进行因果归纳并非一个缺陷——而是其设计的一个特征。在行业将模式匹配与推理解耦之前,ARC-AGI-3 将始终是一道不可逾越的屏障。
关键玩家与案例研究
OpenAI:GPT-5.5 的无声失败
OpenAI 尚未公开评论 ARC-AGI-3 的结果,但内部消息人士表示,该公司已将重点转向多模态推理和工具使用作为变通方案。其策略是通过外部记忆和验证循环(例如,代码执行)来增强模型,以弥补其内在推理能力的不足。这相当于默认了基础模型无法泛化。最近发布的 GPT-5.5 Codex(一个专门的编码变体)在编程基准测试上显示出 15% 的提升,但在 ARC-AGI-3 上毫无改善,这证实了缺陷并非领域特定,而是认知层面的。
Anthropic:Opus 4.7 的可解释性赌注
Anthropic 采取了不同的方法,大力投资于机械可解释性。他们的研究表明,Opus 4.7 的注意力头确实学习到了一些抽象特征(例如,“物体颜色”、“相对位置”),但未能将它们组合成一个连贯的变换规则。该公司的宪法 AI 框架提高了安全性,但并未改善推理能力。Opus 4.7 的 42% 得分,虽然是 LLM 中最高的,但仍远低于 Chollet 认为的“有意义的泛化”最低门槛 60%。
DeepMind:符号主义的沉睡者
DeepMind 的 AlphaFold 和 *