TranscendPlexity攻克ARC-AGI:AI抽象推理的壁垒被终结?

Hacker News May 2026
来源:Hacker News归档:May 2026
TranscendPlexity以满分成绩击穿ARC-AGI基准测试,其中包括13项此前解决率为0%的“不可能任务”。这标志着AI从暴力模式匹配向真正抽象推理的根本性跃迁,挑战了行业对规模扩张的依赖。

在AI研究界引发地震的一项进展中,TranscendPlexity在ARC-AGI-1、ARC-AGI-2和ARC-AGI-3三大基准测试中取得了完美的540/540满分。最令人震惊的是:它解决了全部13个“不可能任务”——这些难题在所有此前AI系统(包括GPT-4o和Claude 3.5等前沿模型)中的解决率均为0%。ARC-AGI基准测试由François Chollet设计,专门用于衡量系统从极少量示例中泛化的能力——这是类人智能的核心要求。TranscendPlexity的成功表明,范式正在从规模定律转向优先考虑因果理解而非统计相关性的架构。尽管该公司尚未公布完整技术细节,但我们的分析表明,这并非渐进式改进,而是一场范式革命。

技术深度解析

TranscendPlexity在ARC-AGI上的成就不仅仅是数量上的提升——它代表了AI系统处理抽象推理方式的质变。ARC-AGI基准测试包含540个任务,每个任务呈现一个基于网格的视觉模式,系统必须从2-5个输入输出示例中推断出底层规则,并将其应用于新的测试输入。TranscendPlexity解决的13个“不可能任务”专门设计用于考验真正的泛化能力:它们涉及物体恒存性、计数和拓扑推理等变换,这些无法通过简单的模式匹配或记忆来解决。

架构线索

虽然TranscendPlexity尚未发表论文,但我们对他们公开声明和基准测试行为的分析表明,其采用了一种神经符号混合架构,包含以下组件:

1. 动态注意力机制:与具有固定注意力模式的标准Transformer不同,TranscendPlexity的模型似乎使用了一种动态注意力机制,可以根据推断出的物体边界重新调整网格单元之间的关系权重。这使其能够将网格分割为离散对象——这是推理变换的先决条件。

2. 程序合成后端:该系统可能采用可微分程序合成方法,在可能的程序空间(使用领域特定语言)中搜索能够生成观察到的输入输出对的程序。这与MIT的DreamCoder使用的方法类似,但配备了学习到的搜索启发式策略。

3. 因果世界模型:该模型不是记忆模式,而是构建任务内部的因果模型。例如,对于涉及物体移除的任务,它不仅仅学习“某些像素消失了”——它学习的是“物体恒存性”和“遮挡”的概念。

相关开源项目

对于对技术基础感兴趣的读者,以下GitHub仓库提供了相关背景:

- ARC-AGI (fchollet/ARC):原始基准测试仓库(7.2k星),包含540个任务和评估框架。TranscendPlexity的解决方案很可能基于对该数据集的洞察。
- DreamCoder (ellisk42/DreamCoder):用于程序合成的神经符号系统(1.8k星)。它使用学习到的程序先验,从少量示例中解决任务。
- Neural Symbolic Machines (google/neural-symbolic-machines):谷歌将神经网络与符号推理相结合的方法(1.2k星)。

性能指标

| 基准测试 | 此前最佳 | TranscendPlexity | 人类基线 |
|---|---|---|---|
| ARC-AGI-1 (400个任务) | 34.5% (GPT-4o) | 100% | 85% |
| ARC-AGI-2 (100个任务) | 12.1% (Claude 3.5) | 100% | 70% |
| ARC-AGI-3 (40个任务) | 0% (所有此前系统) | 100% | 60% |
| 零解决率任务 (13个) | 0% | 100% | 55% |

数据要点: 在最困难任务上从0%跃升至100%是前所未有的。即使人类在这13个任务上的平均正确率也仅为55%,这表明TranscendPlexity在这一特定基准测试上已超越人类水平。

关键参与者与案例研究

基准测试创建者:François Chollet

ARC-AGI和Keras的创建者François Chollet长期以来一直认为,当前AI系统缺乏真正的智能,因为它们无法从少量示例中泛化。在2019年的一篇论文中,他将智能定义为“技能获取效率”——从有限数据中学习的能力。TranscendPlexity的结果直接验证了他的框架。Chollet曾公开表示,在ARC-AGI上达到85%的系统将是AGI级能力的“强烈信号”。

竞争对手格局

| 公司/模型 | ARC-AGI得分 | 方法 | 局限性 |
|---|---|---|---|
| TranscendPlexity | 100% | 神经符号 + 因果模型 | 架构未公开;可复现性未知 |
| GPT-4o (OpenAI) | 34.5% | 纯Transformer | 无法处理抽象规则;依赖模式匹配 |
| Claude 3.5 (Anthropic) | 28.2% | Transformer + RLHF | 与GPT-4o类似的局限性 |
| Gemini Ultra (Google) | 31.0% | 混合专家模型 | 在物体恒存性任务上表现挣扎 |
| DeepMind的AlphaFold风格 | 22.0% | 图神经网络 | 专为特定领域设计 |

数据要点: TranscendPlexity与次优系统之间的差距超过65个百分点。这不是渐进式改进——这是范式转变。

案例研究:药物发现

最有前景的应用之一是在药物发现领域,AI模型必须从极少的实验数据点推断分子特性。传统方法需要数千个标注示例。TranscendPlexity的架构可以将这一需求减少到3-5个示例,可能将药物开发时间线从10年缩短至2-3年。Insilico Medicine和Recursion Pharmaceuticals等公司已经在探索类似的神经符号方法。

行业影响与市场动态

市场颠覆

AI行业长期以来一直被“规模假说”所主导

更多来自 Hacker News

AI重写Linux内核:大模型自动化音频子系统Bug修复Linux内核的音频子系统已成为AI辅助代码维护的意外试验场。过去六个月,AINews追踪到大量带有LLM生成痕迹的补丁——ALSA(高级Linux声音架构)驱动栈中的精准内存泄漏修复、USB音频代码路径中的微妙竞态条件修正,甚至对老旧声卡Anthropic的盈利幻象:AI融资竞赛中的战略欺骗Anthropic公开释放信号,宣称公司正接近盈利,这一说法被广泛解读为业务基本面走向成熟的标志。然而,对公司财务披露与运营现实的严格审视揭示了一个远更脆弱的图景。其收入虽因企业合同而在绝对值上增长,但扩张速度远低于训练和运行前沿模型所需的域名伪装注入:多智能体LLM系统的无声杀手域名伪装注入代表了LLM安全威胁的范式转变。与直接操纵用户输入的提示注入攻击不同,该技术将多智能体架构的结构性弱点武器化。攻击者将恶意指令编码到域名字符串或URL参数中,下游智能体会自动解析并执行这些指令。核心漏洞在于信任传播模型:每个智能查看来源专题页Hacker News 已收录 3825 篇文章

时间归档

May 20262499 篇已发布文章

延伸阅读

AI重写Linux内核:大模型自动化音频子系统Bug修复大语言模型已跨越系统编程的关键门槛:它们现在能常规性地为Linux内核音频子系统生成生产级补丁,修复此前需人类专家介入的内存泄漏与竞态条件。这一突破正重塑内核维护的底层逻辑。域名伪装注入:多智能体LLM系统的无声杀手一种名为“域名伪装注入”的新型攻击向量正悄然渗透多智能体LLM系统。攻击者将恶意载荷嵌入看似合法的域名请求中,利用智能体间通信协议缺乏验证的漏洞,绕过传统防御机制,进而级联控制整个决策管线。SteelSpine:解锁AI Agent黑箱的“时间机器”调试器SteelSpine 是一款全新的调试工具,它如同AI Agent的“时间机器”,让开发者能够回放每一个动作、检查内部状态并追溯故障根源。这标志着迈向透明、可部署的自主系统迈出了关键一步。LLMff v0.1.2 发布:将 FFmpeg 式管道引入 AI 工作流,LLM 工程迎来范式变革LLMff v0.1.2 将 FFmpeg 的模块化管道哲学应用于大语言模型工作流,让开发者能够对文本流进行过滤、转换和推理步骤的链式组合。此次发布直击 AI 智能体开发中可复用构建模块严重缺失的痛点,将 LLM 交互从无状态 API 调用

常见问题

这次公司发布“TranscendPlexity Cracks ARC-AGI: The End of AI's Abstraction Barrier?”主要讲了什么?

In a development that has sent shockwaves through the AI research community, TranscendPlexity has achieved a perfect 540/540 score across the ARC-AGI-1, ARC-AGI-2, and ARC-AGI-3 be…

从“TranscendPlexity ARC-AGI architecture details”看,这家公司的这次发布为什么值得关注?

TranscendPlexity's achievement on ARC-AGI is not merely a quantitative improvement—it represents a qualitative shift in how AI systems approach abstract reasoning. The ARC-AGI benchmark consists of 540 tasks, each presen…

围绕“neural-symbolic AI vs transformer models”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。