几何学突破:零训练破解316项ARC任务,撼动AI数据驱动范式

一项人工智能研究突破正在业内引发震动,它从根本上挑战了当前盛行的‘规模即一切’范式。这项成就的核心是Abstraction and Reasoning Corpus(ARC)基准测试——该测试由François Chollet创建,专门用于衡量AI系统的流体智能,即人类那种通过识别核心抽象概念来解决全新问题的类人能力。与擅长在训练分布内进行插值的大型语言模型不同,ARC任务要求真正的分布外推理能力,因此对数据驱动方法具有众所周知的抵抗力。

由合作研究团队开发的新型求解器,采用了一种植根于普吕克几何和格拉斯曼流形的零样本方法。它完全避开了梯度下降和统计学习,将视觉推理重新表述为代数几何问题。该系统通过多阶段流程运行:将像素转换为数学基元,然后在严格定义的数学空间中搜索变换规则。

这一成果的震撼之处在于其性能表现。在ARC公开任务集上,该几何求解器解决了316项任务,达到了接近人类平均表现(约280-320项)的水平。相比之下,结合程序合成的OpenAI GPT-4V估计仅能解决约85项,且需要海量网络规模训练数据;DeepMind的Perceiver等纯神经网络方法仅能解决约20项,且需要大量ARC特定训练。几何求解器不仅实现了数量级上的超越,更关键的是在零训练样本下达成此成就,凸显了嵌入正确数学先验知识的巨大杠杆效应。

这一突破并非孤立事件,而是AI内部不同研究路线汇聚的结晶。ARC创建者Chollet一直批评奖励记忆和插值的基准测试,他设计ARC正是为了衡量‘超越训练分布的泛化能力’。与此同时,神经符号AI和程序合成领域的研究者为几何方法提供了认知先验库(如对称性、集合运算)和搜索框架。尽管该求解器尚未开源,但其原理与`arc-agi/arc-benchmark`(官方ARC数据集)和`facebookresearch/attic`(抽象推理研究库)等仓库中的活跃研究方向一致。该方法有望很快扩展至图表推理、直觉物理等其他领域,为追求真正通用人工智能开辟一条全新的、基于数学本质的路径。

技术深度解析

几何ARC求解器的核心创新在于,它将视觉推理重新表述为一个代数几何问题,完全绕开了梯度下降和统计学习。该系统通过一个多阶段流程运行,将像素转化为数学基元,并在严格定义的数学空间中搜索变换规则。

从像素到普吕克坐标: 第一步是解析ARC任务的输入和输出网格。系统识别对象(彩色单元格的连通区域),编码每个对象的属性(位置、形状、颜色)。关键在于,对象*之间*的关系是使用普吕克坐标来捕获的。在射影几何中,普吕克坐标提供了一种在更高维空间中表示直线、平面等几何实体的方法,使得某些关系和交点更易于计算。对于ARC而言,这意味着将对象间的空间和逻辑关系表示为普吕克空间中的点,从而将视觉排列转化为代数结构。

格拉斯曼流形搜索空间: 从输入网格到输出网格的变换,被假设为在格拉斯曼流形内运行的函数。格拉斯曼流形Gr(k, n)是n维向量空间中所有k维子空间的集合。在此上下文中,它可以被视为所有可能存在于对象之间的‘抽象关系’或‘模式’的空间。求解器的任务是找到特定的子空间(即模式),当将其应用于输入的代数表示时,能产生输出的表示。这将推理从“找到一个能将A映射到B的神经网络”转变为“找到在Gr(k, n)中将A映射到B的几何变换”。

确定性程序合成: 在格拉斯曼流形内的搜索并非随机,而是由一个受人类认知先验启发的基元操作库所引导,这些操作包括:对称性(反射、旋转)、集合运算(并集、交集、差集)、拓扑变化(扩张、收缩)以及逻辑过滤器(按颜色、按位置)。求解器将这些基元组合成一个程序。其强大之处在于,几何框架将搜索限制在数学上在该定义空间内有效的组合,使得对许多任务而言,穷举搜索所有可能程序在计算上变得可行。

性能与基准测试: 与传统AI方法相比,结果差异显著。下表对比了几何求解器与领先的神经和程序合成方法在ARC标准任务子集上的表现。

| 方法 / 系统 | 范式 | 解决的ARC任务数(公开集) | 所需训练数据 | 编码的类人先验 |
|---|---|---|---|---|
| 几何求解器(本工作) | 符号-几何搜索 | 316 | | 显式(几何、逻辑) |
| OpenAI GPT-4V + 程序合成 | 多模态LLM + 搜索 | ~85(估计) | 海量(网络规模) | 隐式(从数据中学习) |
| DeepMind的Perceiver | 神经网络(交叉注意力) | ~20 | 大量(ARC特定) | 极少 |
| 人类平均表现 | — | ~280-320(在可比集合上) | — | 先天与后天习得 |
| 随机猜测基线 | — | <5 | — | 无 |

*数据要点:* 几何求解器的性能不仅仅是略有提升;它代表了一个数量级上的成功,在一个被设计为“AI难”的基准测试上达到了接近人类的水平。关键在于,它是在零训练样本的情况下做到这一点的,这凸显了嵌入正确数学先验知识所带来的巨大杠杆效应。其成功率是已报道的最佳神经方法的3.5倍以上,而后者需要大量训练且泛化能力仍然不足。

虽然该求解器尚未成为开源工具,但其原理与神经符号AI和程序合成领域的活跃研究相契合。研究人员可以在`arc-agi/arc-benchmark`(官方ARC数据集和评估框架)和`facebookresearch/attic`(抽象推理和程序归纳研究库)等代码库中探索相关的基础代码。这种几何方法本身可能很快会拥有专门的代码库,因为该方法已成熟,可供社区扩展到图表推理或直觉物理等其他领域。

关键参与者与案例研究

这一突破并非凭空出现。它是AI内部不同阵营的研究路线汇聚的顶点,这些阵营都在努力应对纯统计学习的局限性。

François Chollet与ARC基准测试: 这项工作的催化剂正是ARC本身,它由Google的François Chollet创建。Chollet一直直言不讳地批评那些奖励记忆和插值的基准测试。他设计ARC的明确目的,就是衡量“超越训练分布的泛化能力”或流体智能。每项ARC任务都是一个独特的、自包含的谜题。

常见问题

这次模型发布“Geometric Breakthrough Solves 316 ARC Tasks Without Training, Challenging AI's Data-Driven Paradigm”的核心内容是什么?

A research breakthrough is sending shockwaves through the artificial intelligence community, fundamentally questioning the prevailing 'scale is all you need' paradigm. The achievem…

从“How does the Plücker geometry ARC solver work step by step?”看,这个模型发布为什么重要?

The core innovation of the geometric ARC solver lies in its reformulation of visual reasoning as a problem in algebraic geometry, completely sidestepping gradient descent and statistical learning. The system operates thr…

围绕“What is the Abstraction and Reasoning Corpus (ARC) benchmark and why is it hard?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。