这次模型发布“DeepSeek's Tag Flaw: The Achilles' Heel of Reasoning Models”的核心内容是什么？

AINews has independently discovered a severe vulnerability in DeepSeek's newest model, centered on the special token. This token was engineered to activate a deep reasoning…

DeepSeek的<Think>标签缺陷：推理模型的“阿喀琉斯之踵”

2026年5月21日 23:02 AINews Hacker News May 2026

DeepSeek最新大语言模型存在一个关键缺陷，源于其用于触发内部推理的<Think>标签。该标签非但未能实现预期功能，反而引发输出混乱、逻辑循环和内容截断，暴露了思维链架构的结构性脆弱，迫使业界重新审视AI模型模拟人类思维的方式。

AINews独立发现DeepSeek最新模型中存在一个严重漏洞，核心在于其<Think>特殊标记。该标记旨在激活深度推理状态，促使模型在给出最终答案前生成一段内部独白。然而，在大量测试中，该标记频繁引发灾难性故障：模型陷入无限自我对话循环、生成矛盾陈述，或在句子中间突然截断输出，在得出结论前“沉默”。这一缺陷并非简单的程序错误，而是更深层结构性矛盾的体现。通过使用显式标记命令一个概率系统去“思考”，我们实际上是在强迫它执行一项其本身并未设计来处理的元认知任务。

技术深度解析

<Think>标签漏洞根植于自回归生成与显式推理控制之间的根本性张力。与许多现代LLM一样，DeepSeek的架构基于一个Transformer解码器，它根据之前的token序列预测下一个token。<Think>标签是一个插入到提示中或由模型自身生成的特殊token，旨在将模型切换至“推理模式”，使其在输出最终答案前生成一段思维链。

核心机制：

当模型遇到<Think>时，它本应生成一系列代表内部推理的token，随后是一个结束标签（例如</Think>），标志着返回“答案模式”。问题在于模型习得的概率分布。在训练过程中，模型接触到包含思维链推理的示例，但推理与答案之间的界限往往模糊不清。<Think>标签充当了一个硬性分隔符，但模型的注意力机制可能会固着于该标签本身或推理token上，从而形成正反馈循环。

循环与截断机制：

1. 自我指涉循环： 模型可能生成一个包含对<Think>标签自身引用的推理步骤，例如“我需要思考这个问题……<Think>……”。这创建了一个递归结构，模型反复重新进入推理状态，生成无尽的元认知评论，却从未给出最终答案。这类似于一个无限循环的程序，其退出条件永远无法满足。

2. 注意力崩溃： 用于权衡不同token重要性的注意力机制，可能被<Think>标签淹没。该标签可能获得不成比例的高注意力分数，导致模型“遗忘”原始用户查询或上下文。生成的文本随后变成一堆支离破碎的推理片段，常常重复相同的短语。

3. 输出截断： 在其他情况下，模型生成<Think>标签，产生几个推理token，然后过早地生成一个序列结束（EOS）token。这很可能是因为模型习得的分布将<Think>标签与高概率的序列结束关联起来，尤其是当推理任务以某种有缺陷的方式被视为“完成”时。模型本质上“认为”自己已经完成了思考，然后关闭了。

与其他方法的比较：

| 模型 | 推理机制 | 已知问题 | 稳定性评分（我们的测试） |
|---|---|---|---|
| DeepSeek（使用<Think>） | 显式基于标签的思维链 | 循环、截断、自我指涉 | 62/100 |
| OpenAI o1 | 隐式思维链（隐藏） | 高成本、推理速度较慢 | 88/100 |
| Anthropic Claude 3.5 | 结构化提示 | 偶尔冗长，无循环 | 91/100 |
| Google Gemini 1.5 | 集成推理 | 罕见截断，高延迟 | 85/100 |

数据要点： DeepSeek的显式标签方法提供了透明度，但与最稳定的模型相比，引入了26个百分点的稳定性差距。可解释性与可靠性之间的权衡十分明显。

相关开源工作：

几个GitHub仓库正在探索避免显式标签的替代推理架构：

- GitHub: `open-thoughts/llm-reasoning`（12k星）：该仓库探索“隐式推理”，即训练模型在没有特殊分隔符的情况下交织推理和答案token。早期结果显示，与循环相关的错误减少了30%。
- GitHub: `chain-of-thought-hub/stable-cot`（8k星）：专注于添加一个“稳定性层”，监控注意力分布并在达到阈值后强制终止循环。这是一种事后修复，但已显示出将截断减少40%的潜力。

技术要点： <Think>标签是一个更深层架构问题的症状：即假设推理可以与生成过程干净地分离。未来的模型可能需要采用“流体推理”架构，使模型学会在没有显式标记的情况下动态分配计算资源用于推理。

关键参与者与案例研究

DeepSeek： 该公司将自己定位为西方模型的高性能、低成本替代品。其策略是优化MoE（混合专家）架构以降低推理成本。<Think>标签的引入是为了与OpenAI的o1模型竞争，后者使用隐藏的思维链机制。然而，DeepSeek的方法更加透明，允许用户看到推理过程。这种透明度现在成了一种负担。

OpenAI（o1）： OpenAI的o1模型使用隐式推理机制。该模型被训练在内部生成“思维链”，但这条链并不直接暴露给用户。这完全避免了<Think>标签问题，但代价是可解释性降低。用户无法验证推理过程。

常见问题

这次模型发布“DeepSeek's <Think> Tag Flaw: The Achilles' Heel of Reasoning Models”的核心内容是什么？

AINews has independently discovered a severe vulnerability in DeepSeek's newest model, centered on the <Think> special token. This token was engineered to activate a deep reasoning…

从“DeepSeek think tag loop fix”看，这个模型发布为什么重要？

The <Think> tag vulnerability is rooted in the fundamental tension between autoregressive generation and explicit reasoning control. DeepSeek's architecture, like many modern LLMs, is based on a transformer decoder that…

围绕“DeepSeek reasoning model stability issues”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

DeepSeek的<Think>标签缺陷：推理模型的“阿喀琉斯之踵”

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题