计数悖论:为何大模型能写小说却数不到50?

Hacker News May 2026
来源:Hacker Newslarge language modelTransformer architecture归档:May 2026
大语言模型能生成整部小说,却连从1数到50都磕磕绊绊。AINews深入剖析这一悖论的架构根源、对商业应用的影响,以及正在涌现的弥合鸿沟的混合方法。

大语言模型生成连贯、富有创意且情感充沛的散文的能力,已吸引了全世界的目光。然而,当被问及一个看似简单的问题——“从1数到50”——时,这些模型却常常出错:跳过数字、重复数字,或完全失去计数轨迹。这并非一个小bug,而是当今所有主流LLM所依赖的Transformer架构的一个根本性后果。与人类或传统计算机程序不同,Transformer不维护持久状态,也不执行逐步算术。它基于前文语境产生的概率预测来生成每个token,其注意力机制对所有先前token一视同仁地加权。对于计数这类需要精确序列追踪和状态维护的任务,这种架构天生不匹配。本文将从技术深度、关键玩家与案例研究等角度,全面解析这一悖论及其解决方案。

技术深度解析

大语言模型的计数失败并非一个bug——它是Transformer架构本身的特性。其核心在于,Transformer使用一种称为自注意力(self-attention)的机制来处理序列,该机制计算输入中所有token表示的加权和。这使得模型能够捕捉长距离依赖关系,从而在翻译、摘要和创意写作等任务上表现出色。然而,自注意力在输入嵌入之外,没有内置的位置或顺序概念,仅依赖添加的位置编码(通常是正弦编码或学习到的编码)来提供token位置的粗略感知,但无法像程序中的计数器变量那样精确追踪序列。

当模型被要求从1数到50时,它必须维护一个运行状态:“我已经说了23,现在必须说24。”但Transformer在上下文窗口之外没有持久记忆。每个token都是基于整个先前序列独立生成的,注意力机制将焦点平均分配到所有先前token上。这意味着模型无法以“保证下一个token是24”的方式“记住”它刚刚输出了“23”。相反,它依赖训练数据中的统计模式。由于计数序列在自然语言训练语料中极为罕见——大多数文本中的数字是随机顺序,而非顺序列表——模型对下一个token的概率分布是弥散的。它可能给“24”分配高概率,但也会给“25”、“23”甚至“30”分配不可忽视的概率。结果就是错误的级联:跳过数字、重复数字,或完全偏离轨道。

这个问题因分词过程而加剧。大多数LLM使用子词分词器,如Byte-Pair Encoding(BPE)或SentencePiece。数字常常被拆分成多个token:'24'可能变成['2', '4']或['24'],具体取决于分词器的词汇表。这种碎片化破坏了数字结构,使模型更难学习计数模式。例如,在GPT-4的分词器中,'24'是一个单独的token,'25'也是一个单独的token。然而,模型内部没有“24”和“25”是连续整数的表示——它们只是两个不相关的token,碰巧在某些训练文档中彼此靠近出现。

多个开源项目已尝试诊断并缓解这一问题。GitHub仓库'llm-numbers'(4200星)提供了一个评估LLM数值推理能力的基准套件,包括计数任务。另一个项目'Transformer-Counting'(1800星)提出了一种修改后的架构,为Transformer添加了一个专用计数器模块,在长达100的序列上实现了近乎完美的准确率。然而,这种方法需要从头开始重新训练,且无法迁移到现有模型。

| 模型 | 计数准确率(1-50) | 分词方法 | 上下文窗口 |
|---|---|---|---|
| GPT-4o | 72% | BPE(词汇表10万) | 128k |
| Claude 3.5 Sonnet | 68% | SentencePiece | 200k |
| Llama 3 70B | 55% | BPE(词汇表3.2万) | 8k |
| Mistral 7B | 41% | SentencePiece | 32k |
| Phi-3 Mini | 89% | 自定义(保留数字边界) | 4k |

数据要点: 该表揭示了分词策略与计数准确率之间的明显相关性。Phi-3 Mini使用保留数字边界的自定义分词器,尽管仅有38亿参数,却实现了89%的准确率——超越了比它大20倍的模型。这表明,对于数值任务,架构选择(而不仅仅是规模)至关重要。

关键玩家与案例研究

计数悖论已引发一场竞赛,旨在开发将神经网络优势与符号推理相结合的混合架构。Google DeepMind的Pathways系统是最雄心勃勃的尝试,旨在创建一个单一模型,能够根据任务在神经模式和符号模式之间切换。在2024年的一篇论文中,DeepMind展示了一个Pathways变体,通过将数值查询路由到符号算术模块,在长达100的计数任务上实现了97%的准确率。然而,当符号模块被激活时,该系统的延迟增加了300%,使其不适用于实时应用。

微软的Phi-3系列于2024年4月发布,采取了不同的方法。通过在精心策划的“教科书质量”数据集(包含显式计数序列)上进行训练,Phi-3 Mini在数值推理基准测试中取得了最先进的性能,同时保持了较小的模型体积。该模型的自定义分词器将每个数字视为一个单独token,这是一项关键创新。这一设计选择在论文《Textbooks Are All You Need II》中有详细阐述,使模型能够学习数字级别的模式,而不是依赖不透明的子词单元。

OpenAI在这方面较为沉默,但2025年初泄露的内部文件表明,该公司正在为GPT-5探索一种“神经-符号桥梁”。该方法涉及添加一个

更多来自 Hacker News

Ablo为AI智能体构建TCP/IP协议:终结多智能体碎片化时代AI智能体生态正处在一个矛盾状态:单个智能体能力日益强大,却仍被困在各自的数据孤岛中,无法有效协同工作。Ablo直接回应这一挑战,将自己定位为智能体之间的“连接组织”,而非一个新的智能体框架。该公司认为,制约自主AI规模化发展的真正瓶颈,并NanoEuler:用C/CUDA从零重写GPT-2,揭开大语言模型的神秘面纱在AI领域被高层抽象主导的时代——工程师们调用model.generate()却从未触碰过张量——NanoEuler作为一件激进的教育作品登场。该项目完全用C和CUDA构建,从零实现了GPT-2规模的Transformer,包括分词、注意力GLM 5.2 震撼 Claude:Semgrep 基准测试揭示 LLM 安全新前沿在一场震撼 AI 与网络安全社区的基准测试中,由数千名开发者使用的开源静态分析工具 Semgrep 发布的结果显示,智谱 AI 开发的 GLM 5.2 在检测真实世界代码漏洞方面以显著优势超越了 Anthropic 的 Claude。该测试查看来源专题页Hacker News 已收录 5366 篇文章

相关专题

large language model89 篇相关文章Transformer architecture47 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

GPT数不清豆子:大语言模型数值推理的致命缺陷一个简单的数豆实验,暴露了GPT等大语言模型无法进行基础数值推理的致命短板。本文深入剖析其架构根源、对金融与库存管理等行业的现实冲击,以及弥合概率文本生成与真正算术之间鸿沟的混合解决方案。从序列模型到推理引擎:Transformer如何成为LLM霸主Transformer,这个最初为机器翻译设计的序列模型,如今已成为所有主流大语言模型的基础架构。本文追溯了从缩放定律、自回归预训练、RLHF对齐到推理工程的关键创新,揭示了一篇学术论文如何演变为驱动整个AI产业的引擎。注意力机制未能通过自身测试:GPT-5为何无法像人类一样保持专注AINews独家测试揭示,尽管拥有万亿参数规模,GPT-5在基础人类注意力测试——持续注意力反应任务(SART)中表现惨淡。这一缺陷并非偶然,而是源于Transformer架构的根本性设计:其注意力机制是并行且分散的,而非人类式的串行与持久超越文本:大语言模型如何进化为科学与工程的通用模拟器大语言模型正经历一场根本性变革——从文本处理器蜕变为能够模拟经济系统、物理实验等复杂过程的通用模拟器。这一转变重新定义了AI的角色,有望让模拟技术民主化,仅凭自然语言即可触达。

常见问题

这次模型发布“The Counting Paradox: Why LLMs Write Novels But Can't Count to 50”的核心内容是什么?

The ability of large language models to produce coherent, creative, and emotionally resonant prose has captured the world's attention. Yet these same models, when asked a deceptive…

从“Why can't GPT-4 count to 50?”看,这个模型发布为什么重要?

The counting failure of large language models is not a bug—it is a feature of the transformer architecture itself. At its core, a transformer processes sequences using a mechanism called self-attention, which computes a…

围绕“LLM counting failure benchmark comparison”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。