技术深度解析
几何ARC求解器的核心创新在于,它将视觉推理重新表述为一个代数几何问题,完全绕开了梯度下降和统计学习。该系统通过一个多阶段流程运行,将像素转化为数学基元,并在严格定义的数学空间中搜索变换规则。
从像素到普吕克坐标: 第一步是解析ARC任务的输入和输出网格。系统识别对象(彩色单元格的连通区域),编码每个对象的属性(位置、形状、颜色)。关键在于,对象*之间*的关系是使用普吕克坐标来捕获的。在射影几何中,普吕克坐标提供了一种在更高维空间中表示直线、平面等几何实体的方法,使得某些关系和交点更易于计算。对于ARC而言,这意味着将对象间的空间和逻辑关系表示为普吕克空间中的点,从而将视觉排列转化为代数结构。
格拉斯曼流形搜索空间: 从输入网格到输出网格的变换,被假设为在格拉斯曼流形内运行的函数。格拉斯曼流形Gr(k, n)是n维向量空间中所有k维子空间的集合。在此上下文中,它可以被视为所有可能存在于对象之间的‘抽象关系’或‘模式’的空间。求解器的任务是找到特定的子空间(即模式),当将其应用于输入的代数表示时,能产生输出的表示。这将推理从“找到一个能将A映射到B的神经网络”转变为“找到在Gr(k, n)中将A映射到B的几何变换”。
确定性程序合成: 在格拉斯曼流形内的搜索并非随机,而是由一个受人类认知先验启发的基元操作库所引导,这些操作包括:对称性(反射、旋转)、集合运算(并集、交集、差集)、拓扑变化(扩张、收缩)以及逻辑过滤器(按颜色、按位置)。求解器将这些基元组合成一个程序。其强大之处在于,几何框架将搜索限制在数学上在该定义空间内有效的组合,使得对许多任务而言,穷举搜索所有可能程序在计算上变得可行。
性能与基准测试: 与传统AI方法相比,结果差异显著。下表对比了几何求解器与领先的神经和程序合成方法在ARC标准任务子集上的表现。
| 方法 / 系统 | 范式 | 解决的ARC任务数(公开集) | 所需训练数据 | 编码的类人先验 |
|---|---|---|---|---|
| 几何求解器(本工作) | 符号-几何搜索 | 316 | 零 | 显式(几何、逻辑) |
| OpenAI GPT-4V + 程序合成 | 多模态LLM + 搜索 | ~85(估计) | 海量(网络规模) | 隐式(从数据中学习) |
| DeepMind的Perceiver | 神经网络(交叉注意力) | ~20 | 大量(ARC特定) | 极少 |
| 人类平均表现 | — | ~280-320(在可比集合上) | — | 先天与后天习得 |
| 随机猜测基线 | — | <5 | — | 无 |
*数据要点:* 几何求解器的性能不仅仅是略有提升;它代表了一个数量级上的成功,在一个被设计为“AI难”的基准测试上达到了接近人类的水平。关键在于,它是在零训练样本的情况下做到这一点的,这凸显了嵌入正确数学先验知识所带来的巨大杠杆效应。其成功率是已报道的最佳神经方法的3.5倍以上,而后者需要大量训练且泛化能力仍然不足。
虽然该求解器尚未成为开源工具,但其原理与神经符号AI和程序合成领域的活跃研究相契合。研究人员可以在`arc-agi/arc-benchmark`(官方ARC数据集和评估框架)和`facebookresearch/attic`(抽象推理和程序归纳研究库)等代码库中探索相关的基础代码。这种几何方法本身可能很快会拥有专门的代码库,因为该方法已成熟,可供社区扩展到图表推理或直觉物理等其他领域。
关键参与者与案例研究
这一突破并非凭空出现。它是AI内部不同阵营的研究路线汇聚的顶点,这些阵营都在努力应对纯统计学习的局限性。
François Chollet与ARC基准测试: 这项工作的催化剂正是ARC本身,它由Google的François Chollet创建。Chollet一直直言不讳地批评那些奖励记忆和插值的基准测试。他设计ARC的明确目的,就是衡量“超越训练分布的泛化能力”或流体智能。每项ARC任务都是一个独特的、自包含的谜题。