技术深度解析
ARC-AGI并非又一个普通基准测试;它是一个精心设计的、针对泛化能力的对抗性测试。每个任务由少量输入-输出对(通常3-5个)的2D网格(尺寸从1x1到30x30不等)组成。AI必须推断出转换规则——可能涉及物体检测、计数、对称性、拓扑甚至简单算术——并将其应用于新的输入网格。规则从不明确给出;必须从示例中归纳得出。
关键的技术挑战在于,ARC-AGI任务被设计为与任何现代深度学习模型的训练分布正交。Chollet刻意避开了那些可以通过像素统计模式匹配来解决的任务。相反,这些任务要求组合泛化——即以新颖方式重新组合已知概念的能力。例如,一个任务可能要求AI识别出相同颜色的物体应该被连接起来,但前提是它们之间的曼哈顿距离在某个范围内。
从算法角度来看,解决ARC-AGI需要一种程序合成形式。AI必须在一个可能的程序空间(使用领域特定语言)中进行搜索,以解释这些示例。这在计算上非常昂贵:搜索空间是组合爆炸式的。表现最佳的方法,例如Kaggle竞赛中的那些,结合使用了:
- 手工制作的DSL(领域特定语言),包含用于网格操作的原语(复制、旋转、泛洪填充等)
- 束搜索或蒙特卡洛树搜索来探索程序候选
- 演绎推理来剪枝不一致的程序
- 集成方法,结合多个求解器
值得注意的是,纯深度学习方法——即使是GPT-4或Claude这样的大型语言模型——在ARC-AGI上表现也很差。这是因为Transformer本质上是模式匹配器;它们在处理那些需要显式推理对象、关系和转换的任务时表现挣扎,而这些内容在其训练数据中并不存在。
一个值得注意的开源项目是ARC-AGI GitHub仓库(fchollet/ARC-AGI),已获得超过4700颗星。该仓库包含数据集、评估代码和基线求解器。社区还贡献了几个独立的实现,例如arc-solver(一个基于Python的程序合成方法)和arc-prize-2024(官方竞赛代码)。
数据表:ARC-AGI性能(公开排行榜)
| 方法 | 准确率 (%) | 方法类型 | 使用的训练数据 |
|---|---|---|---|
| 人类(平均) | 85.0 | — | — |
| 最佳Kaggle方案 (2024) | 38.2 | 程序合成 + DSL | 无(手工制作) |
| GPT-4 (零样本) | 12.5 | 大语言模型 | 海量网络文本 |
| Claude 3.5 (零样本) | 14.1 | 大语言模型 | 海量网络文本 |
| 神经符号混合 (2023) | 31.0 | 神经 + 符号 | ARC训练集 |
| 随机基线 | 0.5 | — | — |
数据要点: 人类表现与最佳AI系统之间的差距超过45个百分点,这表明当前AI缺乏抽象推理的核心认知能力。即使是最好的程序合成方法也远未达到人类水平的泛化能力。
关键参与者与案例研究
François Chollet 是核心人物。作为Keras的创建者和谷歌的软件工程师,Chollet长期以来一直是“规模假说”的批评者——该假说认为仅仅让模型变得更大并喂给它们更多数据就能实现AGI。ARC-AGI是他对该范式的直接挑战。他公开主张,智能不在于记忆,而在于用最少的数据适应新情况的能力。
Kaggle竞赛(ARC Prize 2024): 2024年,Kaggle举办了一场奖金池为10万美元的竞赛,寻找最佳的ARC-AGI求解器。该竞赛吸引了超过1500支队伍。由来自日本和美国的 researchers 组成的团队提出的获胜方案达到了38.2%的准确率。他们的方法结合了手工制作的DSL和一种复杂的搜索算法,该算法使用学习到的启发式方法来优先考虑有希望的程序候选。这一结果虽然令人印象深刻,但仍凸显了该基准测试的难度。
DeepMind: DeepMind已发表关于使用程序合成处理类似ARC任务的研究,尽管他们尚未发布专门的求解器。他们在DreamCoder和类似AlphaFold的搜索算法方面的工作为攻克ARC-AGI提供了理论基础,但实际成果仍然有限。
OpenAI: OpenAI并未公开专注于ARC-AGI,但他们在过程奖励模型和用于推理的自我对弈(例如在数学问题背景下)方面的工作可能被借鉴。然而,他们对大规模强化学习和海量数据集的依赖在哲学上与ARC-AGI的精神相悖。
对比表:解决ARC-AGI的关键方法
| 组织/团队 | 方法 | 关键创新 | 准确率 | 年份 |
|---|---|---|---|---|
| Kaggle获胜者 (2024) | 程序合成 + DSL | 用于程序搜索的学习启发式方法 | 38.2% | 2024 |
| DeepMind (研究) | 程序合成 + 神经引导 | 将神经网络作为搜索先验 | 未公开 | 2023 |
| OpenAI (理论) | 过程奖励模型 | 逐步推理验证 | 未测试 | 2024 |
| 社区开源 (arc-solver) | 基于Python的DSL | 可扩展的搜索框架 | ~25% | 2023 |