技术深度解析
TranscendPlexity在ARC-AGI上的成就不仅仅是数量上的提升——它代表了AI系统处理抽象推理方式的质变。ARC-AGI基准测试包含540个任务,每个任务呈现一个基于网格的视觉模式,系统必须从2-5个输入输出示例中推断出底层规则,并将其应用于新的测试输入。TranscendPlexity解决的13个“不可能任务”专门设计用于考验真正的泛化能力:它们涉及物体恒存性、计数和拓扑推理等变换,这些无法通过简单的模式匹配或记忆来解决。
架构线索
虽然TranscendPlexity尚未发表论文,但我们对他们公开声明和基准测试行为的分析表明,其采用了一种神经符号混合架构,包含以下组件:
1. 动态注意力机制:与具有固定注意力模式的标准Transformer不同,TranscendPlexity的模型似乎使用了一种动态注意力机制,可以根据推断出的物体边界重新调整网格单元之间的关系权重。这使其能够将网格分割为离散对象——这是推理变换的先决条件。
2. 程序合成后端:该系统可能采用可微分程序合成方法,在可能的程序空间(使用领域特定语言)中搜索能够生成观察到的输入输出对的程序。这与MIT的DreamCoder使用的方法类似,但配备了学习到的搜索启发式策略。
3. 因果世界模型:该模型不是记忆模式,而是构建任务内部的因果模型。例如,对于涉及物体移除的任务,它不仅仅学习“某些像素消失了”——它学习的是“物体恒存性”和“遮挡”的概念。
相关开源项目
对于对技术基础感兴趣的读者,以下GitHub仓库提供了相关背景:
- ARC-AGI (fchollet/ARC):原始基准测试仓库(7.2k星),包含540个任务和评估框架。TranscendPlexity的解决方案很可能基于对该数据集的洞察。
- DreamCoder (ellisk42/DreamCoder):用于程序合成的神经符号系统(1.8k星)。它使用学习到的程序先验,从少量示例中解决任务。
- Neural Symbolic Machines (google/neural-symbolic-machines):谷歌将神经网络与符号推理相结合的方法(1.2k星)。
性能指标
| 基准测试 | 此前最佳 | TranscendPlexity | 人类基线 |
|---|---|---|---|
| ARC-AGI-1 (400个任务) | 34.5% (GPT-4o) | 100% | 85% |
| ARC-AGI-2 (100个任务) | 12.1% (Claude 3.5) | 100% | 70% |
| ARC-AGI-3 (40个任务) | 0% (所有此前系统) | 100% | 60% |
| 零解决率任务 (13个) | 0% | 100% | 55% |
数据要点: 在最困难任务上从0%跃升至100%是前所未有的。即使人类在这13个任务上的平均正确率也仅为55%,这表明TranscendPlexity在这一特定基准测试上已超越人类水平。
关键参与者与案例研究
基准测试创建者:François Chollet
ARC-AGI和Keras的创建者François Chollet长期以来一直认为,当前AI系统缺乏真正的智能,因为它们无法从少量示例中泛化。在2019年的一篇论文中,他将智能定义为“技能获取效率”——从有限数据中学习的能力。TranscendPlexity的结果直接验证了他的框架。Chollet曾公开表示,在ARC-AGI上达到85%的系统将是AGI级能力的“强烈信号”。
竞争对手格局
| 公司/模型 | ARC-AGI得分 | 方法 | 局限性 |
|---|---|---|---|
| TranscendPlexity | 100% | 神经符号 + 因果模型 | 架构未公开;可复现性未知 |
| GPT-4o (OpenAI) | 34.5% | 纯Transformer | 无法处理抽象规则;依赖模式匹配 |
| Claude 3.5 (Anthropic) | 28.2% | Transformer + RLHF | 与GPT-4o类似的局限性 |
| Gemini Ultra (Google) | 31.0% | 混合专家模型 | 在物体恒存性任务上表现挣扎 |
| DeepMind的AlphaFold风格 | 22.0% | 图神经网络 | 专为特定领域设计 |
数据要点: TranscendPlexity与次优系统之间的差距超过65个百分点。这不是渐进式改进——这是范式转变。
案例研究:药物发现
最有前景的应用之一是在药物发现领域,AI模型必须从极少的实验数据点推断分子特性。传统方法需要数千个标注示例。TranscendPlexity的架构可以将这一需求减少到3-5个示例,可能将药物开发时间线从10年缩短至2-3年。Insilico Medicine和Recursion Pharmaceuticals等公司已经在探索类似的神经符号方法。
行业影响与市场动态
市场颠覆
AI行业长期以来一直被“规模假说”所主导