几何学突破:零训练破解316项ARC任务,撼动AI数据驱动范式

Hacker News March 2026
来源:Hacker NewsAGI归档:March 2026
一项颠覆性的人工智能新研究,绕过了所有训练数据,仅凭经典几何原理就破解了数百项复杂视觉推理任务。该方法在著名的Abstraction and Reasoning Corpus基准测试中成功解决316项挑战,标志着对当前主流AI范式的根本性质疑。

一项人工智能研究突破正在业内引发震动,它从根本上挑战了当前盛行的‘规模即一切’范式。这项成就的核心是Abstraction and Reasoning Corpus(ARC)基准测试——该测试由François Chollet创建,专门用于衡量AI系统的流体智能,即人类那种通过识别核心抽象概念来解决全新问题的类人能力。与擅长在训练分布内进行插值的大型语言模型不同,ARC任务要求真正的分布外推理能力,因此对数据驱动方法具有众所周知的抵抗力。

由合作研究团队开发的新型求解器,采用了一种植根于普吕克几何和格拉斯曼流形的零样本方法。它完全避开了梯度下降和统计学习,将视觉推理重新表述为代数几何问题。该系统通过多阶段流程运行:将像素转换为数学基元,然后在严格定义的数学空间中搜索变换规则。

这一成果的震撼之处在于其性能表现。在ARC公开任务集上,该几何求解器解决了316项任务,达到了接近人类平均表现(约280-320项)的水平。相比之下,结合程序合成的OpenAI GPT-4V估计仅能解决约85项,且需要海量网络规模训练数据;DeepMind的Perceiver等纯神经网络方法仅能解决约20项,且需要大量ARC特定训练。几何求解器不仅实现了数量级上的超越,更关键的是在零训练样本下达成此成就,凸显了嵌入正确数学先验知识的巨大杠杆效应。

这一突破并非孤立事件,而是AI内部不同研究路线汇聚的结晶。ARC创建者Chollet一直批评奖励记忆和插值的基准测试,他设计ARC正是为了衡量‘超越训练分布的泛化能力’。与此同时,神经符号AI和程序合成领域的研究者为几何方法提供了认知先验库(如对称性、集合运算)和搜索框架。尽管该求解器尚未开源,但其原理与`arc-agi/arc-benchmark`(官方ARC数据集)和`facebookresearch/attic`(抽象推理研究库)等仓库中的活跃研究方向一致。该方法有望很快扩展至图表推理、直觉物理等其他领域,为追求真正通用人工智能开辟一条全新的、基于数学本质的路径。

技术深度解析

几何ARC求解器的核心创新在于,它将视觉推理重新表述为一个代数几何问题,完全绕开了梯度下降和统计学习。该系统通过一个多阶段流程运行,将像素转化为数学基元,并在严格定义的数学空间中搜索变换规则。

从像素到普吕克坐标: 第一步是解析ARC任务的输入和输出网格。系统识别对象(彩色单元格的连通区域),编码每个对象的属性(位置、形状、颜色)。关键在于,对象*之间*的关系是使用普吕克坐标来捕获的。在射影几何中,普吕克坐标提供了一种在更高维空间中表示直线、平面等几何实体的方法,使得某些关系和交点更易于计算。对于ARC而言,这意味着将对象间的空间和逻辑关系表示为普吕克空间中的点,从而将视觉排列转化为代数结构。

格拉斯曼流形搜索空间: 从输入网格到输出网格的变换,被假设为在格拉斯曼流形内运行的函数。格拉斯曼流形Gr(k, n)是n维向量空间中所有k维子空间的集合。在此上下文中,它可以被视为所有可能存在于对象之间的‘抽象关系’或‘模式’的空间。求解器的任务是找到特定的子空间(即模式),当将其应用于输入的代数表示时,能产生输出的表示。这将推理从“找到一个能将A映射到B的神经网络”转变为“找到在Gr(k, n)中将A映射到B的几何变换”。

确定性程序合成: 在格拉斯曼流形内的搜索并非随机,而是由一个受人类认知先验启发的基元操作库所引导,这些操作包括:对称性(反射、旋转)、集合运算(并集、交集、差集)、拓扑变化(扩张、收缩)以及逻辑过滤器(按颜色、按位置)。求解器将这些基元组合成一个程序。其强大之处在于,几何框架将搜索限制在数学上在该定义空间内有效的组合,使得对许多任务而言,穷举搜索所有可能程序在计算上变得可行。

性能与基准测试: 与传统AI方法相比,结果差异显著。下表对比了几何求解器与领先的神经和程序合成方法在ARC标准任务子集上的表现。

| 方法 / 系统 | 范式 | 解决的ARC任务数(公开集) | 所需训练数据 | 编码的类人先验 |
|---|---|---|---|---|
| 几何求解器(本工作) | 符号-几何搜索 | 316 | | 显式(几何、逻辑) |
| OpenAI GPT-4V + 程序合成 | 多模态LLM + 搜索 | ~85(估计) | 海量(网络规模) | 隐式(从数据中学习) |
| DeepMind的Perceiver | 神经网络(交叉注意力) | ~20 | 大量(ARC特定) | 极少 |
| 人类平均表现 | — | ~280-320(在可比集合上) | — | 先天与后天习得 |
| 随机猜测基线 | — | <5 | — | 无 |

*数据要点:* 几何求解器的性能不仅仅是略有提升;它代表了一个数量级上的成功,在一个被设计为“AI难”的基准测试上达到了接近人类的水平。关键在于,它是在零训练样本的情况下做到这一点的,这凸显了嵌入正确数学先验知识所带来的巨大杠杆效应。其成功率是已报道的最佳神经方法的3.5倍以上,而后者需要大量训练且泛化能力仍然不足。

虽然该求解器尚未成为开源工具,但其原理与神经符号AI和程序合成领域的活跃研究相契合。研究人员可以在`arc-agi/arc-benchmark`(官方ARC数据集和评估框架)和`facebookresearch/attic`(抽象推理和程序归纳研究库)等代码库中探索相关的基础代码。这种几何方法本身可能很快会拥有专门的代码库,因为该方法已成熟,可供社区扩展到图表推理或直觉物理等其他领域。

关键参与者与案例研究

这一突破并非凭空出现。它是AI内部不同阵营的研究路线汇聚的顶点,这些阵营都在努力应对纯统计学习的局限性。

François Chollet与ARC基准测试: 这项工作的催化剂正是ARC本身,它由Google的François Chollet创建。Chollet一直直言不讳地批评那些奖励记忆和插值的基准测试。他设计ARC的明确目的,就是衡量“超越训练分布的泛化能力”或流体智能。每项ARC任务都是一个独特的、自包含的谜题。

更多来自 Hacker News

Audrey:终结AI代理“失忆症”的本地优先记忆层Audrey是一个开源、本地优先的记忆层,旨在解决AI代理中持续存在的“失忆症”问题。当前的代理要么在会话结束后忘记一切,要么依赖基于云端的记忆系统,这会带来隐私风险、延迟和单点故障。Audrey将所有记忆数据——对话历史、用户偏好、项目上Fragnesia漏洞绕过KASLR与SMAP:Linux内核的全新本地提权噩梦Fragnesia是Linux内核中的一个关键本地提权(LPE)漏洞,针对内存管理子系统中碎片化页分配的处理机制。通过利用`__alloc_pages_slowpath`函数中的竞态条件,攻击者可以破坏内核内存,将非root用户权限提升至完OpenAI vs.马斯克庭审:AI信任与问责的终极裁决OpenAI首席执行官萨姆·奥尔特曼与联合创始人埃隆·马斯克之间的法庭对决,已升级为AI行业最具分量的法律考验。核心争议在于:OpenAI 2015年那份承诺安全、透明、广泛造福人类的原始章程,是否构成具有法律约束力的契约。马斯克认为,Op查看来源专题页Hacker News 已收录 3344 篇文章

相关专题

AGI22 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

1%的壁垒:现代AI为何在抽象推理上折戟,以及未来何在一项名为ARC-AGI-3的基准测试,对人工智能的现状给出了令人警醒的判决。尽管拥有万亿参数模型和庞大的算力,当代所有AI系统在抽象推理测试中的得分均无法突破1%。这不仅是性能差距,更是一场范式危机,揭示了我们主导的技术路线可能与通往真正智ARC-AGI-3 基准测试揭穿 GPT-5.5 与 Opus 4.7 的“智能泡沫”:规模不等于智能ARC-AGI-3 基准测试给出了一个残酷的判决:最先进的 AI 模型 GPT-5.5 和 Opus 4.7,在抽象视觉推理能力上甚至不及一个人类儿童。这并非数据或算力问题——而是一次根本性的架构失败,它粉碎了“规模神话”,迫使整个行业直面逆向构建的智能:为何大语言模型反向学习,这对通用人工智能意味着什么人工智能研究领域正涌现一种范式转换的视角:大语言模型的学习方式与人类截然不同。它们正以反向工程的方式构建智能,起点是人类文化高度压缩的抽象终点——语言本身。这种认知的逆向工程赋予了它们卓越的符号处理能力,但也导致了其与物理世界之间的根本性脱Meta超级智能首秀:一场豪赌推理AI,重写AGI竞赛规则Meta新组建的超级智能团队携其首个重大模型发布正式亮相,这标志着一次价值数十亿美元的战略豪赌。这不仅是一个新的大语言模型,更代表着AI系统向复杂规划、长程推理和自主任务执行能力的根本性转变,将彻底重塑人工智能产业的发展轨迹。

常见问题

这次模型发布“Geometric Breakthrough Solves 316 ARC Tasks Without Training, Challenging AI's Data-Driven Paradigm”的核心内容是什么?

A research breakthrough is sending shockwaves through the artificial intelligence community, fundamentally questioning the prevailing 'scale is all you need' paradigm. The achievem…

从“How does the Plücker geometry ARC solver work step by step?”看,这个模型发布为什么重要?

The core innovation of the geometric ARC solver lies in its reformulation of visual reasoning as a problem in algebraic geometry, completely sidestepping gradient descent and statistical learning. The system operates thr…

围绕“What is the Abstraction and Reasoning Corpus (ARC) benchmark and why is it hard?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。