技术深度解析
ARC-AGI-3基准测试由一系列独特的视觉推理谜题组成。每个谜题呈现一个由彩色单元格组成的小网格(输入),以及一个必须被推断出来以生成正确输出网格的转换规则。这些谜题被设计成“外星”风格——与标准训练语料库中的任何内容都不同——旨在测试AI形成和检验抽象假设的能力。36%的首次尝试得分意味着,该模型在没有预先接触的情况下,成功解决了超过三分之一的全新任务。
这一性能飞跃明确地表明,驱动因素并非纯粹的模型规模。最可能的技术解释涉及整合了不同计算形式的架构:
1. 先进的混合神经符号系统: 该模型可能在深度神经网络中嵌入了一个可微分的符号推理层。诸如DeepMind的PrediNet(一个用于关系推理的架构库)或关于神经定理证明器的研究提供了蓝图。神经组件负责从网格中处理感知和特征提取,而符号组件则操纵离散概念(例如“物体”、“对称”、“迭代”)以形成并执行基于规则的程序。突破点在于使这种集成变得无缝且可端到端训练。
2. 具备海量先验知识的程序合成: 该模型可能是一个经过微调的大型语言模型,用于生成类似Python的程序来解决ARC任务。像“ARCathon” GitHub代码库这样的项目展示了社区利用LLM为ARC进行程序合成的努力。达到36%的飞跃可能源于一个在大量精心策划的算法和推理任务语料库上进行预训练的模型,这赋予了它强大的先验能力,使其能够从少量示例中生成正确、简洁的代码。
3. 自监督世界模型学习: 受David Ha的“Transformer是一个世界模型” 等研究启发,该模型可能在一个由简单网格世界转换构成的合成宇宙中进行过预训练。通过学习预测网格在随机规则下的下一个状态,它构建了一个内部模拟引擎。当面对ARC时,它会对候选规则进行“思维模拟”,以找到符合的那一个。
一个关键的数据点是这一结果与仅仅数月前已知的最先进水平之间的性能差距。
| 模型/方法 (ARC-AGI-2时期) | 最佳报告得分 | 达到所需时间/精力 | 关键方法 |
|---|---|---|---|
| 经过微调的大型视觉语言模型 | ~32-35% | 数月的迭代调优 | 大量的提示工程与数据集整理 |
| 专用程序合成流程 | ~28-30% | 数周的流程优化 | 基于LLM的代码生成与验证器 |
| 人类平均水平 (参考) | ~85% | 不适用 | 自然认知推理 |
| 未命名模型 (ARC-AGI-3,首次尝试) | 36% | 首日 | 架构创新 (推测) |
数据启示: 上表突显了这种不连续性。新模型的*首次尝试*即等于或超过了先前需要大量人力投入的方法的*峰值性能*。这排除了渐进式优化是主要原因的可能性,并指向了能力获取方式的质的不同。
关键参与者与案例分析
虽然取得36%分数的具体模型尚属未知,但已知有几个实体正在推动抽象推理的前沿,是产生这一结果的主要候选者。
* Google DeepMind: 在强化学习和符号集成(AlphaGo, AlphaCode)方面历史悠久,拥有深厚的研究积累。其Gemini项目明确以多模态推理为目标,且内部团队很可能早期就能接触到像ARC-AGI-3这样的专有基准。ARC创建者François Chollet研究员现在就在谷歌,能提供直接见解。
* OpenAI: 对“推理”能力的追求是其公开宣称的下一前沿。OpenAI的o1模型系列预览了一种使用思维链计算的“慢思考”模式。在ARC上的突破将符合其超越下一个词预测、迈向可靠推理的战略,可能成为未来模型的关键组成部分。
* Anthropic: 其对AI安全性和可解释性的关注必然要求强大的推理能力。Claude在遵循复杂指令方面的优势暗示了其底层的组合理解能力。一种使推理步骤更加透明和可靠的混合架构,与Anthropic已发布的研究方向是一致的。
* 新兴研究实验室: 不能排除资金雄厚的初创公司或学术联盟的可能性。Adept AI正在构建能对软件界面进行推理的智能体。Midjourney的David Holz曾谈及构建“抽象引擎”。Cognition Labs(Devin的创造者)正在推动AI在编码领域解决问题能力的边界,该领域与ARC的程序式谜题相邻。
| 公司/实体 | 取得突破的可能性 | 支持证据 / 过往记录 | 潜在的架构关注点 |
|---|---|---|---|