技术深度解析
沉默背后的架构
GPT-5.5 被广泛认为是 GPT-4o 架构的改进版,很可能采用了混合专家(MoE)层和增强的注意力机制。OpenAI 尚未公布官方参数数量,但估计该模型拥有 200B 到 300B 的活跃参数,若计入休眠专家,总参数数超过 1T。关键的架构变化是增强的“思维链”(CoT)集成,允许模型在推理过程中为复杂推理任务分配更多计算资源。
然而,ARC-AGI-3 测试的是一种根本不同的能力:在需要构建新抽象而非检索记忆模式的任务上进行少样本泛化。该基准包含 400 个独特谜题,每个谜题要求模型从 3-5 个示例中推断出潜在规则,并将其应用于新的网格配置。GPT-4o 和 Claude 3.5 Opus 等最先进模型在 ARC-AGI-3 上的得分约为 30-35%,远低于 85% 的人类基线。GPT-5.5 的沉默表明其可能仅略有提升,或许达到 38-40%。
| 模型 | ARC-AGI-3 分数 | MMLU | HumanEval Pass@1 | 成本/100 万 tokens(输出) |
|---|---|---|---|---|
| GPT-4o | ~32% | 88.7 | 87.2% | $15.00 |
| Claude 3.5 Opus | ~35% | 88.3 | 84.6% | $15.00 |
| Gemini 2.0 Pro | ~30% | 87.5 | 82.1% | $10.00 |
| GPT-5.5(估计) | ~38-40% | 89.5 | 90.1% | $20.00 |
| 人类基线 | 85% | — | — | — |
数据要点: 最佳模型与人类之间的 ARC-AGI-3 差距仍然巨大——超过 45 个百分点。即使从 GPT-4o 到 GPT-5.5 提升 5-8%,模型仍远未达到人类水平的抽象能力。这不是边际收益;这是一道根本性障碍。
GitHub 仓库追踪
ARC-AGI 挑战催生了一个活跃的开源生态系统。官方仓库 `fchollet/ARC-AGI`(现已超过 12,000 星)包含数据集和评估框架。几个第三方仓库尝试解决该挑战:`kinalmehta/arc-solver`(2,300 星)采用神经符号方法,结合 CNN 与程序合成;`neoneye/arc-agi-solver`(1,800 星)使用基于规则的模式匹配与小 Transformer 模型的混合方法。没有一个超过 50% 的准确率。最近最有前景的工作来自 `google-deepmind/arc-agi-2024`(4,500 星),它使用“dreamcoder”元学习方法在任务子集上达到 42%。这表明瓶颈不在于模型规模,而在于架构创新——具体来说,是形成和操作抽象符号的能力。
关键参与者与案例研究
OpenAI 的战略转向
OpenAI 隐藏 ARC-AGI-3 分数的决定并非孤立事件。该公司越来越强调产品指标而非研究透明度。在 CEO Sam Altman 的领导下,重点已转向企业采用,GPT-5.5 被定位为“编码与分析副驾驶”而非 AGI 里程碑。这与公司最近向营利性实体重组以及 2025 年 100 亿美元收入目标相一致。信息很明确:OpenAI 优先考虑市场主导地位而非学术严谨性。
竞争对手的做法
Anthropic 的 Claude 3.5 Opus 虽然在 ARC-AGI-3 上得分同样不高,但在其局限性方面更为透明。Anthropic 发布详细的安全评估,并投资于“可解释性”研究,发布了关于 Transformer 层特征可视化的论文。另一方面,Google DeepMind 的 Gemini 2.0 Pro 专注于多模态集成,在 MMMU 等视觉推理基准上取得了强劲结果,但在 ARC-AGI 上同样挣扎。下表比较了各公司的战略姿态:
| 公司 | 模型 | 是否公布 ARC-AGI-3? | 主要策略 | 关键弱点 |
|---|---|---|---|---|
| OpenAI | GPT-5.5 | 否 | 企业产品化 | 抽象推理差距 |
| Anthropic | Claude 3.5 Opus | 是(35%) | 安全与可解释性 | 扩展效率 |
| Google DeepMind | Gemini 2.0 Pro | 是(30%) | 多模态广度 | 推理深度 |
| Meta | Llama 4(未发布) | 否 | 开源生态系统 | 缺乏专有数据 |
数据要点: 只有 Anthropic 公布了 ARC-AGI-3 分数,即使他们也远未达到人类水平。OpenAI 的沉默可能是一个经过计算的举动,以避免给竞争对手提供比较基准,但这也表明在这一维度上缺乏信心。
研究人员的视角
ARC-AGI 的创建者 François Chollet 公开主张,大型语言模型(LLM)是“随机鹦鹉”,擅长模式匹配但在真正泛化上失败。他倡导一种新范式:将神经网络与符号推理引擎相结合的“系统 2”推理架构。Meta 的 Yann LeCun 也呼应了这一观点,提出了从感官数据中学习因果结构的“世界模型”架构。两人都同意,扩展当前 Transformer 架构将无法弥合抽象推理的差距。