ARC-AGI-3 基准测试揭穿 GPT-5.5 与 Opus 4.7 的“智能泡沫”:规模不等于智能

Hacker News May 2026
来源:Hacker NewsGPT-5.5归档:May 2026
ARC-AGI-3 基准测试给出了一个残酷的判决:最先进的 AI 模型 GPT-5.5 和 Opus 4.7,在抽象视觉推理能力上甚至不及一个人类儿童。这并非数据或算力问题——而是一次根本性的架构失败,它粉碎了“规模神话”,迫使整个行业直面纯模式匹配的极限。

ARC-AGI-3 基准测试旨在通过极少量样本测试模型的抽象视觉推理能力,如今已成为整个行业最不愿面对的“照妖镜”。AINews 独家获取的性能数据显示,两大顶级 AI 实验室的旗舰模型——GPT-5.5 和 Opus 4.7——在核心任务上的准确率分别仅为 38% 和 42%。相比之下,8-12 岁的人类儿童在相同问题上的得分超过 80%。该测试要求模型从三个输入-输出网格示例中推断出一个隐藏规则,并将其应用于全新的输入。这无关记忆或检索——它考验的是因果归纳能力,即从稀疏数据中提取生成性原理的能力。这些结果证实了研究人员日益增长的怀疑:Transformer 架构,尽管其扩展能力惊人,却并未真正理解世界。

技术深度解析

ARC-AGI-3 基准测试并非又一场选择题考试。它是对组合泛化少样本因果归纳能力的精心构建的评估。每项任务都呈现三对输入-输出彩色网格(通常为 10x10 到 30x30 像素)。模型必须推断出变换规则,并将其应用于新的输入。这些规则并非来自任何已知数据集——它们由认知科学家手工制作,具有新颖性,要求模型仅从三个示例中学习一个新概念。

为什么 Transformer 会失败

核心问题在于 Transformer 的注意力机制及其训练目标。在预训练期间,模型通过关注序列中所有先前的 token 来学习预测下一个 token。这创造了一个强大的模式匹配引擎,擅长识别和再现其训练数据中存在的统计规律。然而,它并没有构建一个关于世界的内部因果模型。

考虑一个简单的 ARC 任务:规则可能是“将与蓝色方块对角相邻的单元格填充为红色方块的颜色”。一个人类儿童看到三个示例,抽象出关系规则,然后应用它。然而,Transformer 将输入视为一系列像素值。它没有内置的物体恒存性空间关系目标导向变换的概念。它试图将输出网格与其潜在空间中最接近的模式进行匹配,而这取决于其训练分布。由于 ARC 任务被设计为分布外任务,模型没有任何统计锚点。

规模假说的崩塌

| 模型 | 参数(估计) | ARC-AGI-3 准确率 | 人类儿童(8-12岁) | 训练数据大小 |
|---|---|---|---|---|
| GPT-5.5 | ~3T | 38% | 82% | ~50T tokens |
| Opus 4.7 | ~2.5T | 42% | 82% | ~40T tokens |
| GPT-4o | ~200B | 28% | 82% | ~15T tokens |
| Claude 3.5 | 未知 | 31% | 82% | 未知 |

数据要点: 将参数从 200B 翻倍至 3T,在 ARC-AGI-3 上仅带来了 10 个百分点的提升。扩展曲线实际上是平坦的。这不是一个收益递减的问题——而是一个由架构而非规模强加的能力天花板

可复现性危机

ARC 基准测试的创建者 François Chollet 长期以来一直认为,当前的 LLM 缺乏流体智力。ARC-AGI-3 的结果证实了他的立场。这些模型并非在学习推理;它们是在学习从训练数据中记忆推理模式。当模式是新颖的时,它们就会失败。这一点在模型对干扰任务(规则被轻微扰动的变体)的表现上得到了证明。GPT-5.5 在此类任务上的准确率骤降至 12%,而人类则为 75%。模型无法区分规则与其噪声污染版本,因为它没有规则本身的内部表征。

一个很有前景的研究方向是神经符号集成,即将 Transformer 与外部推理引擎(例如,可微分程序解释器)耦合。DreamCoder 项目(GitHub: ellisk42/dreamcoder,约 2.1k 星)试图从示例中学习程序化抽象,但尚未扩展到 ARC-AGI-3 的复杂度。另一种方法是混合奖励架构(GitHub: deepmind/hra,约 800 星),它将无模型强化学习与学习到的世界模型相结合,但仍处于实验阶段。

要点: Transformer 无法进行因果归纳并非一个缺陷——而是其设计的一个特征。在行业将模式匹配与推理解耦之前,ARC-AGI-3 将始终是一道不可逾越的屏障。

关键玩家与案例研究

OpenAI:GPT-5.5 的无声失败

OpenAI 尚未公开评论 ARC-AGI-3 的结果,但内部消息人士表示,该公司已将重点转向多模态推理工具使用作为变通方案。其策略是通过外部记忆和验证循环(例如,代码执行)来增强模型,以弥补其内在推理能力的不足。这相当于默认了基础模型无法泛化。最近发布的 GPT-5.5 Codex(一个专门的编码变体)在编程基准测试上显示出 15% 的提升,但在 ARC-AGI-3 上毫无改善,这证实了缺陷并非领域特定,而是认知层面的。

Anthropic:Opus 4.7 的可解释性赌注

Anthropic 采取了不同的方法,大力投资于机械可解释性。他们的研究表明,Opus 4.7 的注意力头确实学习到了一些抽象特征(例如,“物体颜色”、“相对位置”),但未能将它们组合成一个连贯的变换规则。该公司的宪法 AI 框架提高了安全性,但并未改善推理能力。Opus 4.7 的 42% 得分,虽然是 LLM 中最高的,但仍远低于 Chollet 认为的“有意义的泛化”最低门槛 60%。

DeepMind:符号主义的沉睡者

DeepMind 的 AlphaFold 和 *

更多来自 Hacker News

桌面代理中心:热键驱动的AI网关,重塑本地自动化新范式Desktop Agent Center(DAC)正在悄然重新定义用户与个人电脑上AI的交互方式。它不再需要用户在不同浏览器标签页间切换,也不再需要手动在桌面应用和AI网页界面之间传输数据——DAC充当了一个本地编排层。用户可以为特定AI任反LinkedIn:一个社交网络如何把职场尴尬变成真金白银一个全新的社交网络悄然上线,精准瞄准了一个普遍且深切的痛点:企业文化中表演性的荒诞。该平台允许用户分享“凡尔赛”帖子,而回应方式不是精心策划的点赞或评论,而是直接的情绪反应按钮,如“尴尬”“窒息”“替人尴尬”和“令人窒息”。这并非技术上的奇GPT-5.5智商缩水:为何顶尖AI连简单指令都执行不了AINews发现,OpenAI最先进的推理模型GPT-5.5正出现一种日益严重的能力退化模式。多位开发者反映,尽管该模型在复杂逻辑推理和代码生成基准测试中表现出色,却明显丧失了遵循简单多步骤指令的能力。一位开发者描述了一个案例:GPT-5.查看来源专题页Hacker News 已收录 3037 篇文章

相关专题

GPT-5.540 篇相关文章

时间归档

May 2026787 篇已发布文章

延伸阅读

GPT-5.5 跳过 ARC-AGI-3:沉默背后,AI 进步的真正信号OpenAI 发布 GPT-5.5,却未公布其 ARC-AGI-3 基准测试结果——这项测试被广泛视为衡量真正机器智能的最严格标准。这一遗漏并非技术疏忽,而是一个战略信号,质疑了模型认知上限,并反映了行业对“进步”定义的悄然重塑。1%的壁垒:现代AI为何在抽象推理上折戟,以及未来何在一项名为ARC-AGI-3的基准测试,对人工智能的现状给出了令人警醒的判决。尽管拥有万亿参数模型和庞大的算力,当代所有AI系统在抽象推理测试中的得分均无法突破1%。这不仅是性能差距,更是一场范式危机,揭示了我们主导的技术路线可能与通往真正智GPT-5.5智商缩水:为何顶尖AI连简单指令都执行不了OpenAI旗舰推理模型GPT-5.5正显现出一个令人不安的趋势:它能解高难度数学题,却无法遵循简单的多步骤指令。开发者报告称,该模型反复拒绝执行基础的UI导航任务,这对其在生产环境中的可靠性提出了严重质疑。GPT-5.5 vs Mythos:通用AI在网络安全暗战中胜出,专业模型神话破灭在一场独立基准测试中,OpenAI的通用模型GPT-5.5在代码审计、漏洞检测等核心安全任务上,与专业网络安全AI Mythos打成平手甚至略胜一筹。这一结果挑战了“领域专用模型天生更优”的行业假设,标志着企业AI战略的重大转向。

常见问题

这次模型发布“ARC-AGI-3 Exposes the Hollow Core of GPT-5.5 and Opus 4.7: Scale Is Not Intelligence”的核心内容是什么?

The ARC-AGI-3 benchmark, designed to test abstract visual reasoning from minimal examples, has become the industry's most uncomfortable mirror. AINews obtained exclusive performanc…

从“Why GPT-5.5 fails ARC-AGI-3 abstract reasoning test”看,这个模型发布为什么重要?

The ARC-AGI-3 benchmark is not another multiple-choice test. It is a carefully constructed evaluation of compositional generalization and few-shot causal induction. Each task presents three input-output pairs of colored…

围绕“Opus 4.7 vs human children on ARC-AGI-3 benchmark”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。