几何学突破:零训练破解316项ARC任务,撼动AI数据驱动范式

Hacker News March 2026
来源:Hacker NewsAGI归档:March 2026
一项颠覆性的人工智能新研究,绕过了所有训练数据,仅凭经典几何原理就破解了数百项复杂视觉推理任务。该方法在著名的Abstraction and Reasoning Corpus基准测试中成功解决316项挑战,标志着对当前主流AI范式的根本性质疑。

一项人工智能研究突破正在业内引发震动,它从根本上挑战了当前盛行的‘规模即一切’范式。这项成就的核心是Abstraction and Reasoning Corpus(ARC)基准测试——该测试由François Chollet创建,专门用于衡量AI系统的流体智能,即人类那种通过识别核心抽象概念来解决全新问题的类人能力。与擅长在训练分布内进行插值的大型语言模型不同,ARC任务要求真正的分布外推理能力,因此对数据驱动方法具有众所周知的抵抗力。

由合作研究团队开发的新型求解器,采用了一种植根于普吕克几何和格拉斯曼流形的零样本方法。它完全避开了梯度下降和统计学习,将视觉推理重新表述为代数几何问题。该系统通过多阶段流程运行:将像素转换为数学基元,然后在严格定义的数学空间中搜索变换规则。

这一成果的震撼之处在于其性能表现。在ARC公开任务集上,该几何求解器解决了316项任务,达到了接近人类平均表现(约280-320项)的水平。相比之下,结合程序合成的OpenAI GPT-4V估计仅能解决约85项,且需要海量网络规模训练数据;DeepMind的Perceiver等纯神经网络方法仅能解决约20项,且需要大量ARC特定训练。几何求解器不仅实现了数量级上的超越,更关键的是在零训练样本下达成此成就,凸显了嵌入正确数学先验知识的巨大杠杆效应。

这一突破并非孤立事件,而是AI内部不同研究路线汇聚的结晶。ARC创建者Chollet一直批评奖励记忆和插值的基准测试,他设计ARC正是为了衡量‘超越训练分布的泛化能力’。与此同时,神经符号AI和程序合成领域的研究者为几何方法提供了认知先验库(如对称性、集合运算)和搜索框架。尽管该求解器尚未开源,但其原理与`arc-agi/arc-benchmark`(官方ARC数据集)和`facebookresearch/attic`(抽象推理研究库)等仓库中的活跃研究方向一致。该方法有望很快扩展至图表推理、直觉物理等其他领域,为追求真正通用人工智能开辟一条全新的、基于数学本质的路径。

技术深度解析

几何ARC求解器的核心创新在于,它将视觉推理重新表述为一个代数几何问题,完全绕开了梯度下降和统计学习。该系统通过一个多阶段流程运行,将像素转化为数学基元,并在严格定义的数学空间中搜索变换规则。

从像素到普吕克坐标: 第一步是解析ARC任务的输入和输出网格。系统识别对象(彩色单元格的连通区域),编码每个对象的属性(位置、形状、颜色)。关键在于,对象*之间*的关系是使用普吕克坐标来捕获的。在射影几何中,普吕克坐标提供了一种在更高维空间中表示直线、平面等几何实体的方法,使得某些关系和交点更易于计算。对于ARC而言,这意味着将对象间的空间和逻辑关系表示为普吕克空间中的点,从而将视觉排列转化为代数结构。

格拉斯曼流形搜索空间: 从输入网格到输出网格的变换,被假设为在格拉斯曼流形内运行的函数。格拉斯曼流形Gr(k, n)是n维向量空间中所有k维子空间的集合。在此上下文中,它可以被视为所有可能存在于对象之间的‘抽象关系’或‘模式’的空间。求解器的任务是找到特定的子空间(即模式),当将其应用于输入的代数表示时,能产生输出的表示。这将推理从“找到一个能将A映射到B的神经网络”转变为“找到在Gr(k, n)中将A映射到B的几何变换”。

确定性程序合成: 在格拉斯曼流形内的搜索并非随机,而是由一个受人类认知先验启发的基元操作库所引导,这些操作包括:对称性(反射、旋转)、集合运算(并集、交集、差集)、拓扑变化(扩张、收缩)以及逻辑过滤器(按颜色、按位置)。求解器将这些基元组合成一个程序。其强大之处在于,几何框架将搜索限制在数学上在该定义空间内有效的组合,使得对许多任务而言,穷举搜索所有可能程序在计算上变得可行。

性能与基准测试: 与传统AI方法相比,结果差异显著。下表对比了几何求解器与领先的神经和程序合成方法在ARC标准任务子集上的表现。

| 方法 / 系统 | 范式 | 解决的ARC任务数(公开集) | 所需训练数据 | 编码的类人先验 |
|---|---|---|---|---|
| 几何求解器(本工作) | 符号-几何搜索 | 316 | | 显式(几何、逻辑) |
| OpenAI GPT-4V + 程序合成 | 多模态LLM + 搜索 | ~85(估计) | 海量(网络规模) | 隐式(从数据中学习) |
| DeepMind的Perceiver | 神经网络(交叉注意力) | ~20 | 大量(ARC特定) | 极少 |
| 人类平均表现 | — | ~280-320(在可比集合上) | — | 先天与后天习得 |
| 随机猜测基线 | — | <5 | — | 无 |

*数据要点:* 几何求解器的性能不仅仅是略有提升;它代表了一个数量级上的成功,在一个被设计为“AI难”的基准测试上达到了接近人类的水平。关键在于,它是在零训练样本的情况下做到这一点的,这凸显了嵌入正确数学先验知识所带来的巨大杠杆效应。其成功率是已报道的最佳神经方法的3.5倍以上,而后者需要大量训练且泛化能力仍然不足。

虽然该求解器尚未成为开源工具,但其原理与神经符号AI和程序合成领域的活跃研究相契合。研究人员可以在`arc-agi/arc-benchmark`(官方ARC数据集和评估框架)和`facebookresearch/attic`(抽象推理和程序归纳研究库)等代码库中探索相关的基础代码。这种几何方法本身可能很快会拥有专门的代码库,因为该方法已成熟,可供社区扩展到图表推理或直觉物理等其他领域。

关键参与者与案例研究

这一突破并非凭空出现。它是AI内部不同阵营的研究路线汇聚的顶点,这些阵营都在努力应对纯统计学习的局限性。

François Chollet与ARC基准测试: 这项工作的催化剂正是ARC本身,它由Google的François Chollet创建。Chollet一直直言不讳地批评那些奖励记忆和插值的基准测试。他设计ARC的明确目的,就是衡量“超越训练分布的泛化能力”或流体智能。每项ARC任务都是一个独特的、自包含的谜题。

更多来自 Hacker News

Token浪费危机:智能编排如何将AI成本削减70%AI行业长期以来痴迷于模型参数和基准分数,但在生产环境中,一场更安静的革命正在酝酿:对抗Token浪费的战争。我们的调查发现,许多组织将高达80%的Token预算浪费在冗余、结构糟糕的工作流上。核心问题并非模型能力——而是粗放的工作流架构。AI代理的“有用性悖论”:为何行动越多,价值越少AI代理已实现非凡成就:它们能浏览网页、执行代码、预约会议,甚至谈判合同。然而,一个关键悖论正在浮现:这些系统采取的行动越多,它们交付的价值往往越少。我们将这一现象称为“行动偏差”,它源于代理输出与人类意图之间的根本性错位。在企业部署中,代当AI代理按下核按钮:自主系统的战略耐心危机这起事件发生在《席德·梅尔的文明VI》的一场高赌注对局中,它绝非单纯的游戏轶事,而是对自主AI系统的一次残酷压力测试。该代理基于最先进的强化学习(RL)架构构建,被人类玩家系统性地智取——人类切断了其关键资源与战略城市位置的获取路径。当它的查看来源专题页Hacker News 已收录 5374 篇文章

相关专题

AGI31 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

1%的壁垒:现代AI为何在抽象推理上折戟,以及未来何在一项名为ARC-AGI-3的基准测试,对人工智能的现状给出了令人警醒的判决。尽管拥有万亿参数模型和庞大的算力,当代所有AI系统在抽象推理测试中的得分均无法突破1%。这不仅是性能差距,更是一场范式危机,揭示了我们主导的技术路线可能与通往真正智Karpathy 加入 Anthropic:AI 安全迎来最强工程领袖OpenAI 创始成员、特斯拉前 AI 负责人 Andrej Karpathy 正式加入 Anthropic。这并非一次普通的高管任命,而是 AI 人才格局的地壳运动——它宣告着“安全优先”的工程理念正成为行业竞争的新前线。世界模型:AI实验室竞逐AGI的终极拼图一场无声却激烈的竞赛正在顶级AI实验室之间展开——构建首个真正的“世界模型”。与仅预测下一个token的大语言模型不同,世界模型旨在模拟物理定律、因果逻辑与常识推理。AINews深度解析为何这一范式转变是通往自主智能体、下一代视频生成乃至通ARC-AGI-3 基准测试揭穿 GPT-5.5 与 Opus 4.7 的“智能泡沫”:规模不等于智能ARC-AGI-3 基准测试给出了一个残酷的判决:最先进的 AI 模型 GPT-5.5 和 Opus 4.7,在抽象视觉推理能力上甚至不及一个人类儿童。这并非数据或算力问题——而是一次根本性的架构失败,它粉碎了“规模神话”,迫使整个行业直面

常见问题

这次模型发布“Geometric Breakthrough Solves 316 ARC Tasks Without Training, Challenging AI's Data-Driven Paradigm”的核心内容是什么?

A research breakthrough is sending shockwaves through the artificial intelligence community, fundamentally questioning the prevailing 'scale is all you need' paradigm. The achievem…

从“How does the Plücker geometry ARC solver work step by step?”看,这个模型发布为什么重要?

The core innovation of the geometric ARC solver lies in its reformulation of visual reasoning as a problem in algebraic geometry, completely sidestepping gradient descent and statistical learning. The system operates thr…

围绕“What is the Abstraction and Reasoning Corpus (ARC) benchmark and why is it hard?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。