ARC-AGI:暴露AI推理短板的终极基准测试,为何它至关重要

GitHub April 2026
⭐ 4755
来源:GitHub归档:April 2026
多年来,AI基准测试总被数据和算力的堆砌所“攻破”。而由Keras作者François Chollet打造的ARC-AGI,却反其道而行之——仅凭寥寥几个示例,就要求AI展现真正的抽象与推理能力。本文将深入剖析,为何ARC-AGI已成为衡量通用智能进展的黄金标准。

ARC-AGI(抽象与推理语料库)是一个专为衡量AI系统在全新任务上进行抽象推理能力而设计的基准测试,而非测试其对记忆模式的熟练程度。由François Chollet创建,该语料库包含数百个独特的任务,每个任务都以一组输入-输出网格示例的形式呈现。AI必须推断出底层规则,并将其应用于新的测试网格。与传统奖励规模和数据的基准测试不同,ARC-AGI强调认知灵活性、少样本泛化和程序合成。该基准测试已成为AI社区的关键压力测试,暴露了依赖统计模式匹配的深度学习模型的根本局限性。当前最先进的系统仅能达到约30-40%的准确率,远低于人类水平。

技术深度解析

ARC-AGI并非又一个普通基准测试;它是一个精心设计的、针对泛化能力的对抗性测试。每个任务由少量输入-输出对(通常3-5个)的2D网格(尺寸从1x1到30x30不等)组成。AI必须推断出转换规则——可能涉及物体检测、计数、对称性、拓扑甚至简单算术——并将其应用于新的输入网格。规则从不明确给出;必须从示例中归纳得出。

关键的技术挑战在于,ARC-AGI任务被设计为与任何现代深度学习模型的训练分布正交。Chollet刻意避开了那些可以通过像素统计模式匹配来解决的任务。相反,这些任务要求组合泛化——即以新颖方式重新组合已知概念的能力。例如,一个任务可能要求AI识别出相同颜色的物体应该被连接起来,但前提是它们之间的曼哈顿距离在某个范围内。

从算法角度来看,解决ARC-AGI需要一种程序合成形式。AI必须在一个可能的程序空间(使用领域特定语言)中进行搜索,以解释这些示例。这在计算上非常昂贵:搜索空间是组合爆炸式的。表现最佳的方法,例如Kaggle竞赛中的那些,结合使用了:
- 手工制作的DSL(领域特定语言),包含用于网格操作的原语(复制、旋转、泛洪填充等)
- 束搜索蒙特卡洛树搜索来探索程序候选
- 演绎推理来剪枝不一致的程序
- 集成方法,结合多个求解器

值得注意的是,纯深度学习方法——即使是GPT-4或Claude这样的大型语言模型——在ARC-AGI上表现也很差。这是因为Transformer本质上是模式匹配器;它们在处理那些需要显式推理对象、关系和转换的任务时表现挣扎,而这些内容在其训练数据中并不存在。

一个值得注意的开源项目是ARC-AGI GitHub仓库(fchollet/ARC-AGI),已获得超过4700颗星。该仓库包含数据集、评估代码和基线求解器。社区还贡献了几个独立的实现,例如arc-solver(一个基于Python的程序合成方法)和arc-prize-2024(官方竞赛代码)。

数据表:ARC-AGI性能(公开排行榜)

| 方法 | 准确率 (%) | 方法类型 | 使用的训练数据 |
|---|---|---|---|
| 人类(平均) | 85.0 | — | — |
| 最佳Kaggle方案 (2024) | 38.2 | 程序合成 + DSL | 无(手工制作) |
| GPT-4 (零样本) | 12.5 | 大语言模型 | 海量网络文本 |
| Claude 3.5 (零样本) | 14.1 | 大语言模型 | 海量网络文本 |
| 神经符号混合 (2023) | 31.0 | 神经 + 符号 | ARC训练集 |
| 随机基线 | 0.5 | — | — |

数据要点: 人类表现与最佳AI系统之间的差距超过45个百分点,这表明当前AI缺乏抽象推理的核心认知能力。即使是最好的程序合成方法也远未达到人类水平的泛化能力。

关键参与者与案例研究

François Chollet 是核心人物。作为Keras的创建者和谷歌的软件工程师,Chollet长期以来一直是“规模假说”的批评者——该假说认为仅仅让模型变得更大并喂给它们更多数据就能实现AGI。ARC-AGI是他对该范式的直接挑战。他公开主张,智能不在于记忆,而在于用最少的数据适应新情况的能力。

Kaggle竞赛(ARC Prize 2024): 2024年,Kaggle举办了一场奖金池为10万美元的竞赛,寻找最佳的ARC-AGI求解器。该竞赛吸引了超过1500支队伍。由来自日本和美国的 researchers 组成的团队提出的获胜方案达到了38.2%的准确率。他们的方法结合了手工制作的DSL和一种复杂的搜索算法,该算法使用学习到的启发式方法来优先考虑有希望的程序候选。这一结果虽然令人印象深刻,但仍凸显了该基准测试的难度。

DeepMind: DeepMind已发表关于使用程序合成处理类似ARC任务的研究,尽管他们尚未发布专门的求解器。他们在DreamCoder和类似AlphaFold的搜索算法方面的工作为攻克ARC-AGI提供了理论基础,但实际成果仍然有限。

OpenAI: OpenAI并未公开专注于ARC-AGI,但他们在过程奖励模型和用于推理的自我对弈(例如在数学问题背景下)方面的工作可能被借鉴。然而,他们对大规模强化学习和海量数据集的依赖在哲学上与ARC-AGI的精神相悖。

对比表:解决ARC-AGI的关键方法

| 组织/团队 | 方法 | 关键创新 | 准确率 | 年份 |
|---|---|---|---|---|
| Kaggle获胜者 (2024) | 程序合成 + DSL | 用于程序搜索的学习启发式方法 | 38.2% | 2024 |
| DeepMind (研究) | 程序合成 + 神经引导 | 将神经网络作为搜索先验 | 未公开 | 2023 |
| OpenAI (理论) | 过程奖励模型 | 逐步推理验证 | 未测试 | 2024 |
| 社区开源 (arc-solver) | 基于Python的DSL | 可扩展的搜索框架 | ~25% | 2023 |

更多来自 GitHub

Build123d:有望取代OpenSCAD与CadQuery的Python CAD库Build123d是一个纯Python编写的程序化CAD建模库,旨在作为OpenSCAD和CadQuery的现代替代品。它利用OpenCASCADE Technology (OCCT) 内核实现稳健的布尔运算、2D/3D几何操作和实体建模,Langfuse:重塑AI工程的开源大模型可观测性平台Langfuse已成为LLM工程领域的领先开源平台,提供了一套全面的可观测性、评估和提示词管理工具。该平台源自Y Combinator 2023年冬季批次,经历了爆炸式增长,如今在GitHub上拥有超过26,000颗星标,日均新增星标超过3OpenAI Cookbook:掌握GPT API与提示工程的非官方圣经OpenAI Cookbook不仅仅是一个文档库,更是一项战略性资产,它降低了整个AI开发者生态的入门门槛。由OpenAI维护,该Cookbook提供了数百个即用型Python代码片段,涵盖文本生成、嵌入、微调、函数调用以及高级提示工程技术查看来源专题页GitHub 已收录 990 篇文章

时间归档

April 20262248 篇已发布文章

延伸阅读

DeepMind MeltingPot重塑多智能体强化学习基准:从个体博弈走向社会智能人工智能的竞技场正从单打独斗转向复杂群体互动。谷歌DeepMind推出革命性评估套件MeltingPot,首次将合作博弈与社会动态纳入标准化测试框架,为多智能体系统树立全新衡量标尺。BIG-bench:谷歌协作式基准测试,重塑AI能力评估范式谷歌推出的BIG-bench标志着语言模型评估的范式转变。它超越了狭隘的模仿游戏,通过涵盖200多项多样化任务的协作式基准,系统性地探索AI能力的边界——从数学推理到社会偏见检测。其社区驱动的方法正在为全面的AI评估树立新标准。Dynabench:Meta的动态基准测试平台,重新定义AI智能评估范式Meta AI推出的Dynabench平台正在从根本上挑战我们评估人工智能的方式。它用人类评估者与AI模型之间的动态对抗循环取代静态测试集,创建了一个持续演进的基准,防止模型单纯记忆答案。这标志着AI评估向衡量真正理解与鲁棒性的关键演进。Salesforce CodeGen:开源挑战者如何重塑AI编程新格局Salesforce Research正式推出开源代码生成模型CodeGen,成为AI编程领域一股不可忽视的力量。该模型家族完全基于谷歌TPU-v4硬件训练,参数量覆盖3.5亿至160亿,性能足以比肩OpenAI Codex等专有巨头,为业

常见问题

GitHub 热点“ARC-AGI: The Benchmark That Exposes AI's Reasoning Gap and Why It Matters”主要讲了什么?

ARC-AGI (Abstraction and Reasoning Corpus) is a benchmark designed to measure an AI system's ability to perform abstract reasoning on novel tasks, rather than its proficiency on me…

这个 GitHub 项目在“ARC-AGI benchmark vs human performance comparison”上为什么会引发关注?

ARC-AGI is not just another benchmark; it is a carefully crafted adversarial test for generalization. Each task consists of a small number of input-output pairs (typically 3-5) of 2D grids (sizes vary from 1x1 to 30x30).…

从“How to run ARC-AGI tasks locally with Python”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 4755,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。