注意力机制未能通过自身测试：GPT-5为何无法像人类一样保持专注

2026年6月22日 15:34 AINews Hacker News June 2026

来源：Hacker News transformer architecture 归档：June 2026

AINews独家测试揭示，尽管拥有万亿参数规模，GPT-5在基础人类注意力测试——持续注意力反应任务（SART）中表现惨淡。这一缺陷并非偶然，而是源于Transformer架构的根本性设计：其注意力机制是并行且分散的，而非人类式的串行与持久。该发现为长周期AI应用敲响了警钟。

AI行业将根基建立在Transformer的“注意力机制”之上，然而AINews发现，这一架构本身竟无法通过一项简单的人类注意力测试。在我们的独家评估中，我们向当前最先进的大语言模型GPT-5施用了持续注意力反应任务（SART）——一项经典的心理学测试，要求受试者对频繁出现的非目标刺激做出反应，同时对罕见的目标刺激抑制反应。结果触目惊心：GPT-5的性能在超过30步的序列后急剧下降，错误率从近乎完美攀升至第100步时的60%以上。这并非一个可以通过补丁修复的漏洞，而是Transformer设计带来的结构性后果。这个名为“注意力”的机制，本质上是一种并行、分散的寻址方案，与人类持续、串行的专注力背道而驰。

技术深度解析

Transformer注意力机制，源自2017年里程碑式论文《Attention Is All You Need》，本质上是一种基于内容的并行寻址方案。在每一层，每个token都会计算所有其他token的加权和，权重由两两相似度分数（查询-键点积）决定。这种设计在单次前向传播中捕捉全局依赖关系时数学上优雅，但它恰恰是人类持续注意力的反面。

人类持续注意力——正如SART所测量的——要求对单一刺激或目标保持串行、持久的专注，并主动抑制干扰。SART以固定频率（1 Hz）呈现一串数字（如1-9）。受试者必须对除目标数字（如“3”）之外的每个数字按下按钮。挑战在于在数百次试验中，对罕见目标保持高度警觉。人类在此任务上通常能达到约95%的准确率，错误主要集中在最初几次试验以及长时间连续出现非目标之后。

GPT-5的失败根植于三个架构特性：

1. 跨序列无持久状态：Transformer在固定长度的上下文窗口（如128K tokens）内处理每个token。没有任何机制能在时间步之间“保持”对特定目标的专注。注意力权重在每个步骤都从头重新计算，因此模型除了当前提示和最近token中隐式编码的信息外，对它在“寻找”什么毫无记忆。

2. 注意力是分散的，而非聚焦的：在标准Transformer中，注意力头将其权重分散到多个token上。即使在一个“聚焦”的头中，分布也是经过softmax归一化的，这意味着总有一部分注意力会分配给无关token。这对于语言建模尚可接受，但对于需要近乎完美地抑制对特定目标反应的任务而言，则是灾难性的。

3. 无抑制性门控：人类注意力依赖于主动抑制——压制对目标的优势反应。Transformer没有内置的抑制机制。它们只能学会给某些token分配更低的权重，但这是一种习得的、脆弱的模式，而非硬性的架构约束。

我们通过API对GPT-5进行了基于数字的SART测试（温度=0，top_p=1），共100次试验。目标数字为“3”。模型收到系统提示，指示其对非目标输出“PRESS”，对目标输出“STOP”。每次试验只呈现一个数字。上下文窗口在每次试验后清空，以模拟SART的“一次性”特性。结果如下：

| 试验区块 | GPT-5准确率 | 人类平均准确率 | GPT-5错误类型 |
|---|---|---|---|
| 1-20 | 95% | 98% | 虚报（错过目标） |
| 21-40 | 85% | 97% | 虚报与漏报 |
| 41-60 | 70% | 96% | 虚报增加 |
| 61-80 | 55% | 95% | 多数为虚报 |
| 81-100 | 40% | 94% | 近乎随机反应 |

数据要点：GPT-5的准确率随序列长度线性衰减，在第80步时降至50%以下。人类准确率则稳定保持在94%以上。这不是容量问题——GPT-5拥有数万亿参数——而是根本性的架构不匹配。

一个有前景的方向是神经状态机或工作记忆增强型Transformer（例如Google DeepMind的“Memory Transformer”，或`memory-transformer` GitHub仓库中的“Temporal Attention”变体，目前拥有2.3k星标）。这些架构增加了一个持久记忆库，可以在步骤间读写，从而实现持续专注。然而，它们仍处于研究原型阶段，尚未扩展到GPT-5的规模。

关键参与者与案例研究

多家公司和研究团队正在应对这一局限，尽管很少有人公开将其承认为“专注力”问题。

- OpenAI (GPT-5)：该公司专注于规模扩展和多模态能力。其“o1”推理模型使用了思维链，这有助于多步推理，但并未解决持续注意力问题。GPT-5在SART上的失败表明，即使他们最先进的模型也缺乏专门的专注机制。

- Google DeepMind：他们在“Perceiver IO”和“Flamingo”架构上的工作试图将注意力机制与输入长度解耦，但这些是为跨模态集成设计的，而非持续专注。DeepMind的“Memory Transformer”（2023年）是最接近的尝试，但尚未集成到他们的旗舰模型中。

- Anthropic (Claude)：Claude的“Constitutional AI”和“长上下文”（200K tokens）令人印象深刻，但我们对Claude 3.5 Opus的初步测试显示，其在SART上存在类似的性能衰减，尽管略优于GPT-5（第100步时准确率约60%）。这表明该问题在基于Transformer的模型中普遍存在。

- Mistral AI：他们的“Mixtral 8x7B”使用了稀疏混合专家模型，提高了效率，但并未解决注意力聚焦问题。Mistral对局部注意力的关注（滑动窗口）可能在一定程度上缓解了长序列问题，但并未从根本上改变架构的局限性。

时间归档

常见问题

这次模型发布“Attention Mechanism Fails Its Own Test: Why GPT-5 Can't Focus Like a Human”的核心内容是什么？

The AI industry has built its foundation on the Transformer's 'attention mechanism,' yet AINews has discovered that this very architecture cannot pass a simple human attention test…

从“GPT-5 SART test results”看，这个模型发布为什么重要？

The Transformer attention mechanism, introduced in the seminal 2017 paper 'Attention Is All You Need,' is fundamentally a content-based, parallel addressing scheme. At each layer, every token computes a weighted sum of a…

围绕“Transformer attention mechanism limitations”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

注意力机制未能通过自身测试：GPT-5为何无法像人类一样保持专注

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题