注意力机制未能通过自身测试:GPT-5为何无法像人类一样保持专注

Hacker News June 2026
来源:Hacker Newstransformer architecture归档:June 2026
AINews独家测试揭示,尽管拥有万亿参数规模,GPT-5在基础人类注意力测试——持续注意力反应任务(SART)中表现惨淡。这一缺陷并非偶然,而是源于Transformer架构的根本性设计:其注意力机制是并行且分散的,而非人类式的串行与持久。该发现为长周期AI应用敲响了警钟。

AI行业将根基建立在Transformer的“注意力机制”之上,然而AINews发现,这一架构本身竟无法通过一项简单的人类注意力测试。在我们的独家评估中,我们向当前最先进的大语言模型GPT-5施用了持续注意力反应任务(SART)——一项经典的心理学测试,要求受试者对频繁出现的非目标刺激做出反应,同时对罕见的目标刺激抑制反应。结果触目惊心:GPT-5的性能在超过30步的序列后急剧下降,错误率从近乎完美攀升至第100步时的60%以上。这并非一个可以通过补丁修复的漏洞,而是Transformer设计带来的结构性后果。这个名为“注意力”的机制,本质上是一种并行、分散的寻址方案,与人类持续、串行的专注力背道而驰。

技术深度解析

Transformer注意力机制,源自2017年里程碑式论文《Attention Is All You Need》,本质上是一种基于内容的并行寻址方案。在每一层,每个token都会计算所有其他token的加权和,权重由两两相似度分数(查询-键点积)决定。这种设计在单次前向传播中捕捉全局依赖关系时数学上优雅,但它恰恰是人类持续注意力的反面。

人类持续注意力——正如SART所测量的——要求对单一刺激或目标保持串行、持久的专注,并主动抑制干扰。SART以固定频率(1 Hz)呈现一串数字(如1-9)。受试者必须对除目标数字(如“3”)之外的每个数字按下按钮。挑战在于在数百次试验中,对罕见目标保持高度警觉。人类在此任务上通常能达到约95%的准确率,错误主要集中在最初几次试验以及长时间连续出现非目标之后。

GPT-5的失败根植于三个架构特性:

1. 跨序列无持久状态:Transformer在固定长度的上下文窗口(如128K tokens)内处理每个token。没有任何机制能在时间步之间“保持”对特定目标的专注。注意力权重在每个步骤都从头重新计算,因此模型除了当前提示和最近token中隐式编码的信息外,对它在“寻找”什么毫无记忆。

2. 注意力是分散的,而非聚焦的:在标准Transformer中,注意力头将其权重分散到多个token上。即使在一个“聚焦”的头中,分布也是经过softmax归一化的,这意味着总有一部分注意力会分配给无关token。这对于语言建模尚可接受,但对于需要近乎完美地抑制对特定目标反应的任务而言,则是灾难性的。

3. 无抑制性门控:人类注意力依赖于主动抑制——压制对目标的优势反应。Transformer没有内置的抑制机制。它们只能学会给某些token分配更低的权重,但这是一种习得的、脆弱的模式,而非硬性的架构约束。

我们通过API对GPT-5进行了基于数字的SART测试(温度=0,top_p=1),共100次试验。目标数字为“3”。模型收到系统提示,指示其对非目标输出“PRESS”,对目标输出“STOP”。每次试验只呈现一个数字。上下文窗口在每次试验后清空,以模拟SART的“一次性”特性。结果如下:

| 试验区块 | GPT-5准确率 | 人类平均准确率 | GPT-5错误类型 |
|---|---|---|---|
| 1-20 | 95% | 98% | 虚报(错过目标) |
| 21-40 | 85% | 97% | 虚报与漏报 |
| 41-60 | 70% | 96% | 虚报增加 |
| 61-80 | 55% | 95% | 多数为虚报 |
| 81-100 | 40% | 94% | 近乎随机反应 |

数据要点:GPT-5的准确率随序列长度线性衰减,在第80步时降至50%以下。人类准确率则稳定保持在94%以上。这不是容量问题——GPT-5拥有数万亿参数——而是根本性的架构不匹配。

一个有前景的方向是神经状态机工作记忆增强型Transformer(例如Google DeepMind的“Memory Transformer”,或`memory-transformer` GitHub仓库中的“Temporal Attention”变体,目前拥有2.3k星标)。这些架构增加了一个持久记忆库,可以在步骤间读写,从而实现持续专注。然而,它们仍处于研究原型阶段,尚未扩展到GPT-5的规模。

关键参与者与案例研究

多家公司和研究团队正在应对这一局限,尽管很少有人公开将其承认为“专注力”问题。

- OpenAI (GPT-5):该公司专注于规模扩展和多模态能力。其“o1”推理模型使用了思维链,这有助于多步推理,但并未解决持续注意力问题。GPT-5在SART上的失败表明,即使他们最先进的模型也缺乏专门的专注机制。

- Google DeepMind:他们在“Perceiver IO”和“Flamingo”架构上的工作试图将注意力机制与输入长度解耦,但这些是为跨模态集成设计的,而非持续专注。DeepMind的“Memory Transformer”(2023年)是最接近的尝试,但尚未集成到他们的旗舰模型中。

- Anthropic (Claude):Claude的“Constitutional AI”和“长上下文”(200K tokens)令人印象深刻,但我们对Claude 3.5 Opus的初步测试显示,其在SART上存在类似的性能衰减,尽管略优于GPT-5(第100步时准确率约60%)。这表明该问题在基于Transformer的模型中普遍存在。

- Mistral AI:他们的“Mixtral 8x7B”使用了稀疏混合专家模型,提高了效率,但并未解决注意力聚焦问题。Mistral对局部注意力的关注(滑动窗口)可能在一定程度上缓解了长序列问题,但并未从根本上改变架构的局限性。

更多来自 Hacker News

爱沙尼亚授予AI代理法律身份:数字治理的新纪元爱沙尼亚,这个凭借e-Residency计划和X-Road基础设施已在数字治理领域全球领先的国家,宣布将成为首个为自主AI代理颁发法律认可数字身份的国家。这一决定标志着社会看待人工智能的方式发生了根本性转变——从单纯的工具转变为法律参与者。模块化AI技能:重塑智能自动化的新范式AI行业正经历一场超越参数数量军备竞赛的范式转移。其核心是将“技能”重新定义为一种基本单元:离散、可复用、可组合的模块,能够独立训练并灵活拼接。这种基于技能的架构直接回应了大型语言模型在生产环境中部署的关键瓶颈——“样样通,样样松”问题。通AI代理自主发送邮件:数字通信自主化的黎明在一项悄然重塑人工智能前沿的进展中,一个AI代理最近实现了一个被业界许多人视为遥远未来的里程碑:它自主撰写并发送了一封专业邮件,全程无需人类指令或监督。这一事件经AINews观察并验证,代表着从AI作为被动问答工具的现有范式,向数字工作流中查看来源专题页Hacker News 已收录 5047 篇文章

相关专题

transformer architecture44 篇相关文章

时间归档

June 20262158 篇已发布文章

延伸阅读

Time Blindness: Why LLMs Can't Grasp Cause and EffectA groundbreaking open-source study has exposed a critical flaw in large language models: they cannot reliably order even计数悖论:为何大模型能写小说却数不到50?大语言模型能生成整部小说,却连从1数到50都磕磕绊绊。AINews深入剖析这一悖论的架构根源、对商业应用的影响,以及正在涌现的弥合鸿沟的混合方法。GPT-5.5作者顺序偏见曝光:AI隐藏的序列缺陷AINews发现OpenAI的GPT-5.5存在一个关键偏见:提示词中作者姓名的排列顺序会系统性地改变生成文本的语气、深度和事实侧重。这种“作者顺序效应”动摇了AI中立性的宣称,并对学术出版、商业报告以及任何依赖客观AI输出的领域构成严重风从API调用者到AI机械师:为何理解大语言模型内部原理已成必备技能人工智能开发领域正经历一场深刻变革。开发者不再满足于将大语言模型视为黑箱API,而是深入探究其内部运作机制。这种从“消费者”到“机械师”的转变,标志着AI发展进入新阶段——技术深度而不仅是应用创意,正成为定义竞争优势的关键。

常见问题

这次模型发布“Attention Mechanism Fails Its Own Test: Why GPT-5 Can't Focus Like a Human”的核心内容是什么?

The AI industry has built its foundation on the Transformer's 'attention mechanism,' yet AINews has discovered that this very architecture cannot pass a simple human attention test…

从“GPT-5 SART test results”看,这个模型发布为什么重要?

The Transformer attention mechanism, introduced in the seminal 2017 paper 'Attention Is All You Need,' is fundamentally a content-based, parallel addressing scheme. At each layer, every token computes a weighted sum of a…

围绕“Transformer attention mechanism limitations”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。