计数悖论:为何大模型能写小说却数不到50?

Hacker News May 2026
来源:Hacker Newslarge language modeltransformer architecture归档:May 2026
大语言模型能生成整部小说,却连从1数到50都磕磕绊绊。AINews深入剖析这一悖论的架构根源、对商业应用的影响,以及正在涌现的弥合鸿沟的混合方法。

大语言模型生成连贯、富有创意且情感充沛的散文的能力,已吸引了全世界的目光。然而,当被问及一个看似简单的问题——“从1数到50”——时,这些模型却常常出错:跳过数字、重复数字,或完全失去计数轨迹。这并非一个小bug,而是当今所有主流LLM所依赖的Transformer架构的一个根本性后果。与人类或传统计算机程序不同,Transformer不维护持久状态,也不执行逐步算术。它基于前文语境产生的概率预测来生成每个token,其注意力机制对所有先前token一视同仁地加权。对于计数这类需要精确序列追踪和状态维护的任务,这种架构天生不匹配。本文将从技术深度、关键玩家与案例研究等角度,全面解析这一悖论及其解决方案。

技术深度解析

大语言模型的计数失败并非一个bug——它是Transformer架构本身的特性。其核心在于,Transformer使用一种称为自注意力(self-attention)的机制来处理序列,该机制计算输入中所有token表示的加权和。这使得模型能够捕捉长距离依赖关系,从而在翻译、摘要和创意写作等任务上表现出色。然而,自注意力在输入嵌入之外,没有内置的位置或顺序概念,仅依赖添加的位置编码(通常是正弦编码或学习到的编码)来提供token位置的粗略感知,但无法像程序中的计数器变量那样精确追踪序列。

当模型被要求从1数到50时,它必须维护一个运行状态:“我已经说了23,现在必须说24。”但Transformer在上下文窗口之外没有持久记忆。每个token都是基于整个先前序列独立生成的,注意力机制将焦点平均分配到所有先前token上。这意味着模型无法以“保证下一个token是24”的方式“记住”它刚刚输出了“23”。相反,它依赖训练数据中的统计模式。由于计数序列在自然语言训练语料中极为罕见——大多数文本中的数字是随机顺序,而非顺序列表——模型对下一个token的概率分布是弥散的。它可能给“24”分配高概率,但也会给“25”、“23”甚至“30”分配不可忽视的概率。结果就是错误的级联:跳过数字、重复数字,或完全偏离轨道。

这个问题因分词过程而加剧。大多数LLM使用子词分词器,如Byte-Pair Encoding(BPE)或SentencePiece。数字常常被拆分成多个token:'24'可能变成['2', '4']或['24'],具体取决于分词器的词汇表。这种碎片化破坏了数字结构,使模型更难学习计数模式。例如,在GPT-4的分词器中,'24'是一个单独的token,'25'也是一个单独的token。然而,模型内部没有“24”和“25”是连续整数的表示——它们只是两个不相关的token,碰巧在某些训练文档中彼此靠近出现。

多个开源项目已尝试诊断并缓解这一问题。GitHub仓库'llm-numbers'(4200星)提供了一个评估LLM数值推理能力的基准套件,包括计数任务。另一个项目'Transformer-Counting'(1800星)提出了一种修改后的架构,为Transformer添加了一个专用计数器模块,在长达100的序列上实现了近乎完美的准确率。然而,这种方法需要从头开始重新训练,且无法迁移到现有模型。

| 模型 | 计数准确率(1-50) | 分词方法 | 上下文窗口 |
|---|---|---|---|
| GPT-4o | 72% | BPE(词汇表10万) | 128k |
| Claude 3.5 Sonnet | 68% | SentencePiece | 200k |
| Llama 3 70B | 55% | BPE(词汇表3.2万) | 8k |
| Mistral 7B | 41% | SentencePiece | 32k |
| Phi-3 Mini | 89% | 自定义(保留数字边界) | 4k |

数据要点: 该表揭示了分词策略与计数准确率之间的明显相关性。Phi-3 Mini使用保留数字边界的自定义分词器,尽管仅有38亿参数,却实现了89%的准确率——超越了比它大20倍的模型。这表明,对于数值任务,架构选择(而不仅仅是规模)至关重要。

关键玩家与案例研究

计数悖论已引发一场竞赛,旨在开发将神经网络优势与符号推理相结合的混合架构。Google DeepMind的Pathways系统是最雄心勃勃的尝试,旨在创建一个单一模型,能够根据任务在神经模式和符号模式之间切换。在2024年的一篇论文中,DeepMind展示了一个Pathways变体,通过将数值查询路由到符号算术模块,在长达100的计数任务上实现了97%的准确率。然而,当符号模块被激活时,该系统的延迟增加了300%,使其不适用于实时应用。

微软的Phi-3系列于2024年4月发布,采取了不同的方法。通过在精心策划的“教科书质量”数据集(包含显式计数序列)上进行训练,Phi-3 Mini在数值推理基准测试中取得了最先进的性能,同时保持了较小的模型体积。该模型的自定义分词器将每个数字视为一个单独token,这是一项关键创新。这一设计选择在论文《Textbooks Are All You Need II》中有详细阐述,使模型能够学习数字级别的模式,而不是依赖不透明的子词单元。

OpenAI在这方面较为沉默,但2025年初泄露的内部文件表明,该公司正在为GPT-5探索一种“神经-符号桥梁”。该方法涉及添加一个

更多来自 Hacker News

三行代码:AG2 与 GPT Realtime 2 开启零摩擦语音 AI 时代AI 开发领域正经历一场范式转变。开源多智能体框架 AG2 宣布与 OpenAI 的 GPT Realtime 2 模型深度集成,将原本需要数周的工程工作压缩为三行代码。该集成抽象掉了自动语音识别(ASR)、自然语言理解(NLU)和文本转语无标题OracleGPT represents the ultimate limit of the AI-as-tool paradigm: an executive-level AI system designed to make high-sAI代理的铁笼:沙箱为何成为最后防线部署自主AI代理的竞赛已抵达一个关键转折点。当整个行业痴迷于推理基准测试与工具调用广度时,一场更安静却影响深远的战斗正在内核空间悄然展开。一份新发布的技术实践指南——汲取了多年容器安全演进的精华——提出了一套全面策略,利用Linux用户命名查看来源专题页Hacker News 已收录 3403 篇文章

相关专题

large language model47 篇相关文章transformer architecture28 篇相关文章

时间归档

May 20261538 篇已发布文章

延伸阅读

GPT数不清豆子:大语言模型数值推理的致命缺陷一个简单的数豆实验,暴露了GPT等大语言模型无法进行基础数值推理的致命短板。本文深入剖析其架构根源、对金融与库存管理等行业的现实冲击,以及弥合概率文本生成与真正算术之间鸿沟的混合解决方案。超越“下一个词预测”:大语言模型远非自动补全引擎将大语言模型称作“下一个词预测器”,就像把国际象棋大师称为“棋子移动者”——技术上没错,却极具误导性。AINews深入探究这一功能描述如何限制我们的想象力,以及业界为何必须正视其表面之下涌现的智能。1%的壁垒:现代AI为何在抽象推理上折戟,以及未来何在一项名为ARC-AGI-3的基准测试,对人工智能的现状给出了令人警醒的判决。尽管拥有万亿参数模型和庞大的算力,当代所有AI系统在抽象推理测试中的得分均无法突破1%。这不仅是性能差距,更是一场范式危机,揭示了我们主导的技术路线可能与通往真正智大模型幻灭时刻:为何AI的通用智能承诺依然落空一股清醒反思的浪潮正在冲击AI炒作周期。当图像与视频生成器令人目眩时,大型语言模型却在推理与现实交互中暴露出深刻局限。这种日益增长的幻灭感,揭示了当今模式匹配引擎与承诺中的人工通用智能黎明之间的根本鸿沟。

常见问题

这次模型发布“The Counting Paradox: Why LLMs Write Novels But Can't Count to 50”的核心内容是什么?

The ability of large language models to produce coherent, creative, and emotionally resonant prose has captured the world's attention. Yet these same models, when asked a deceptive…

从“Why can't GPT-4 count to 50?”看,这个模型发布为什么重要?

The counting failure of large language models is not a bug—it is a feature of the transformer architecture itself. At its core, a transformer processes sequences using a mechanism called self-attention, which computes a…

围绕“LLM counting failure benchmark comparison”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。