ARC-AGI-3首日飞跃:36%成功率如何重写AI推理规则

人工智能通用抽象与推理语料库第三版(ARC-AGI-3)结果的公开发布,在AI研究界引发了震动。一个架构与来源均未披露的模型,在其未经适配的首次尝试中便获得了36%的成功率。为理解这一飞跃的意义,需要回顾历史:在上一代ARC-AGI-2基准测试中表现顶尖的模型,例如来自Google DeepMind或Anthropic的模型,都需要经过数周乃至数月的密集训练、微调和提示工程,才能突破30%的门槛。由研究员François Chollet创建的ARC基准,其设计初衷正是为了衡量AI通过极少示例推断核心抽象规则,从而解决新颖视觉推理谜题的能力——这是一项被认为触及当前AI系统能力边界、更接近人类核心智能的任务。因此,一个模型能在未经针对性训练的情况下,首次尝试即达到36%,强烈暗示其底层架构或训练范式发生了质变,可能从依赖海量数据拟合的模式,转向了某种更接近“理解”与“泛化”的机制。这一结果不仅刷新了榜单,更可能预示着AI从“模式识别”迈向“概念构建”的关键一步。

技术深度解析

ARC-AGI-3基准测试由一系列独特的视觉推理谜题组成。每个谜题呈现一个由彩色单元格组成的小网格(输入),以及一个必须被推断出来以生成正确输出网格的转换规则。这些谜题被设计成“外星”风格——与标准训练语料库中的任何内容都不同——旨在测试AI形成和检验抽象假设的能力。36%的首次尝试得分意味着,该模型在没有预先接触的情况下,成功解决了超过三分之一的全新任务。

这一性能飞跃明确地表明,驱动因素并非纯粹的模型规模。最可能的技术解释涉及整合了不同计算形式的架构:

1. 先进的混合神经符号系统: 该模型可能在深度神经网络中嵌入了一个可微分的符号推理层。诸如DeepMind的PrediNet(一个用于关系推理的架构库)或关于神经定理证明器的研究提供了蓝图。神经组件负责从网格中处理感知和特征提取,而符号组件则操纵离散概念(例如“物体”、“对称”、“迭代”)以形成并执行基于规则的程序。突破点在于使这种集成变得无缝且可端到端训练。

2. 具备海量先验知识的程序合成: 该模型可能是一个经过微调的大型语言模型,用于生成类似Python的程序来解决ARC任务。像“ARCathon” GitHub代码库这样的项目展示了社区利用LLM为ARC进行程序合成的努力。达到36%的飞跃可能源于一个在大量精心策划的算法和推理任务语料库上进行预训练的模型,这赋予了它强大的先验能力,使其能够从少量示例中生成正确、简洁的代码。

3. 自监督世界模型学习:David Ha的“Transformer是一个世界模型” 等研究启发,该模型可能在一个由简单网格世界转换构成的合成宇宙中进行过预训练。通过学习预测网格在随机规则下的下一个状态,它构建了一个内部模拟引擎。当面对ARC时,它会对候选规则进行“思维模拟”,以找到符合的那一个。

一个关键的数据点是这一结果与仅仅数月前已知的最先进水平之间的性能差距。

| 模型/方法 (ARC-AGI-2时期) | 最佳报告得分 | 达到所需时间/精力 | 关键方法 |
|---|---|---|---|
| 经过微调的大型视觉语言模型 | ~32-35% | 数月的迭代调优 | 大量的提示工程与数据集整理 |
| 专用程序合成流程 | ~28-30% | 数周的流程优化 | 基于LLM的代码生成与验证器 |
| 人类平均水平 (参考) | ~85% | 不适用 | 自然认知推理 |
| 未命名模型 (ARC-AGI-3,首次尝试) | 36% | 首日 | 架构创新 (推测) |

数据启示: 上表突显了这种不连续性。新模型的*首次尝试*即等于或超过了先前需要大量人力投入的方法的*峰值性能*。这排除了渐进式优化是主要原因的可能性,并指向了能力获取方式的质的不同。

关键参与者与案例分析

虽然取得36%分数的具体模型尚属未知,但已知有几个实体正在推动抽象推理的前沿,是产生这一结果的主要候选者。

* Google DeepMind: 在强化学习和符号集成(AlphaGo, AlphaCode)方面历史悠久,拥有深厚的研究积累。其Gemini项目明确以多模态推理为目标,且内部团队很可能早期就能接触到像ARC-AGI-3这样的专有基准。ARC创建者François Chollet研究员现在就在谷歌,能提供直接见解。
* OpenAI: 对“推理”能力的追求是其公开宣称的下一前沿。OpenAI的o1模型系列预览了一种使用思维链计算的“慢思考”模式。在ARC上的突破将符合其超越下一个词预测、迈向可靠推理的战略,可能成为未来模型的关键组成部分。
* Anthropic: 其对AI安全性和可解释性的关注必然要求强大的推理能力。Claude在遵循复杂指令方面的优势暗示了其底层的组合理解能力。一种使推理步骤更加透明和可靠的混合架构,与Anthropic已发布的研究方向是一致的。
* 新兴研究实验室: 不能排除资金雄厚的初创公司或学术联盟的可能性。Adept AI正在构建能对软件界面进行推理的智能体。Midjourney的David Holz曾谈及构建“抽象引擎”。Cognition Labs(Devin的创造者)正在推动AI在编码领域解决问题能力的边界,该领域与ARC的程序式谜题相邻。

| 公司/实体 | 取得突破的可能性 | 支持证据 / 过往记录 | 潜在的架构关注点 |
|---|---|---|---|

常见问题

这次模型发布“ARC-AGI-3's Day One Leap: How 36% Rewrites the Rules of AI Reasoning”的核心内容是什么?

The public release of results from the Abstraction and Reasoning Corpus for Artificial General Intelligence, third edition (ARC-AGI-3), has delivered a seismic shock to the AI rese…

从“What is the ARC-AGI-3 benchmark and why is it important?”看,这个模型发布为什么重要?

The ARC-AGI-3 benchmark consists of a set of unique visual reasoning puzzles. Each presents a small grid of colored cells (the input) and a transformation rule that must be inferred to produce the correct output grid. Th…

围绕“Which company created the model that scored 36% on ARC-AGI-3?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。