大模型为何算不清23个数相加?算术盲区正威胁AI可靠性

Hacker News April 2026
来源:Hacker NewsAI reliability归档:April 2026
一位开发者让本地大语言模型计算23个数字之和,模型却给出了七种不同的错误答案。这一看似微不足道的失败,暴露了LLM根本性的架构局限:它们是概率性的文本生成器,而非可靠的计算机。该事件对在金融、库存和税务等精度关键领域部署此类模型提出了紧迫质疑。

一位开发者在测试本地运行的大语言模型时发现,当要求模型计算23个简单数字之和时,它产生了七种截然不同的错误结果。这并非孤立的程序缺陷,而是根植于Transformer架构本身的系统性弱点。LLM基于训练数据模式预测下一个最可能的词元,而非执行逻辑或数学运算。对于参数低于700亿的模型,多位数字加法任务的错误率可超过20%;即便是GPT-4o和Claude 3.5 Sonnet等前沿模型,在处理超过10项的算术序列时也表现出不可忽视的失败率。其影响十分严峻:企业在财务对账、供应链分析或自动报税中部署LLM,将面临级联错误的风险,从而侵蚀用户信任并引发监管担忧。

技术深度解析

LLM算术失败的根源在于Transformer的注意力机制和自回归解码方式。当模型处理像"23 + 45 + 67"这样的序列时,它并不执行加法运算。相反,它会根据输入和之前输出的词元,计算所有可能下一个词元的概率分布。模型学会了训练语料中某些输入模式与输出之间的统计相关性,但它没有对数量或算术规则的内部表征。

考虑数学运算:对于N个数的求和,模型必须在多个解码步骤中维持一个累加总数。每一步都会引入误差累积,因为模型的下一个词元预测本质上是概率性的。对于Llama 3.1-8B这样的70亿参数模型,正确预测一个4位数和的第一位数字的概率可能为0.95,但依次正确预测所有四位数字的概率会降至约0.95^4 = 0.81。对于23个数的求和,模型可能需要生成5-7位数字,完全正确回答的累积概率可能低于0.5。

来自"MathGLM"项目和开源仓库"Goat"(github.com/liutianlin0121/Goat,1.2k星标)的最新研究尝试通过添加专门的训练数据和思维链提示来微调LLM以进行算术运算。Goat通过将问题分解为逐步进位操作,在4位数加法上达到了98%的准确率,但在6位数求和时准确率降至85%。一种更稳健的方法是"Toolformer"范式,即模型学习调用外部计算器API。Meta的Toolformer论文表明,配备计算器工具的模型在算术任务上无论输入长度如何,都能达到接近100%的准确率。

算术任务基准性能

| 模型 | 参数规模 | 10个数求和准确率 | 23个数求和准确率 | 5位数乘法准确率 |
|---|---|---|---|---|
| Llama 3.1-8B | 8B | 72% | 41% | 12% |
| Mistral 7B v0.3 | 7B | 68% | 35% | 8% |
| Qwen2.5-14B | 14B | 81% | 53% | 21% |
| GPT-4o (API) | ~200B (估计) | 94% | 78% | 45% |
| Claude 3.5 Sonnet | — | 92% | 74% | 39% |
| Toolformer (7B + 计算器) | 7B + 工具 | 99.5% | 99.2% | 98.7% |

数据要点: 该表显示了模型规模与算术准确率之间的明显相关性,但即使是最大的模型在23个数求和上仍有约20-25%的失败率。Toolformer方法将语言生成与计算解耦,无论模型大小如何,都能实现近乎完美的准确率。这表明仅靠扩大规模是不够的,需要进行架构变革。

关键参与者与案例研究

多家公司和研究机构正在积极解决这一可靠性差距。OpenAI已在其ChatGPT中集成了一个代码解释器(现称为高级数据分析),将数学运算委托给Python沙箱。这有效地解决了托管服务用户的算术问题,但底层的GPT-4模型在未调用解释器时仍会出错。同样,Anthropic的Claude 3.5 Sonnet为Pro用户内置了一个计算器工具,但默认行为仍然依赖LLM的概率性输出。

在开源方面,"OpenHermes-2.5-Mistral-7B"模型(github.com/teknium/OpenHermes-2.5-Mistral-7B,3.4k星标)引入了一个系统提示,指示模型对任何数值运算使用计算器。这在内部测试中将算术错误减少了60%,但模型偶尔仍会"忘记"调用该工具。"Gorilla"项目(github.com/ShishirPatil/gorilla,10k+星标)采取了不同的方法:它微调LLM以生成对外部工具(包括数学引擎)的API调用。Gorilla通过强制模型输出结构化的API调用而非直接答案,在复杂算术上达到了95%的准确率。

可靠性解决方案对比

| 解决方案 | 方法 | 算术准确率 | 延迟开销 | 实现复杂度 |
|---|---|---|---|---|
| 提示工程 | 思维链 + "使用计算器"指令 | 70-85% | 极低 | 低 |
| Toolformer / API调用 | 模型生成工具调用,外部引擎计算 | 99%+ | 中等(API往返) | 中等 |
| 代码解释器沙箱 | 在隔离环境中执行Python代码 | 99.9%+ | 高(代码执行+解析) | 高 |
| 符号验证层 | 事后根据规则检查数值输出 | 99.5%+ | 低(基于规则) | 中等 |
| 混合微调 | 训练模型输出结构化计算轨迹 | 90-95% | 极低 | 高 |

数据要点: 对于实时应用,符号验证层在准确率和延迟之间提供了最佳平衡。它不需要修改LLM本身,因此可以立即部署。然而,它无法纠正那些语义上看似合理但数值上错误的错误——例如,一个总和

更多来自 Hacker News

Claude Fable 5 Ultracode:AI诊断进入代码级推理时代,“逻辑医生”降临Claude Fable 5 Ultracode 代表了 AI 辅助医疗诊断领域的一次根本性范式转移。传统大语言模型如同黑箱——它们生成概率性的文本输出,却不揭示背后的推理过程,这在信任与可验证性至关重要的高风险医疗场景中是一个致命缺陷。UNucleus:用 Rust 打造的无守护进程容器运行时,重新定义 AI 智能体沙箱Nucleus 代表了与 Docker 和 containerd 等传统容器运行时的彻底决裂。它完全用 Rust 构建,无需后台守护进程即可运行,剥离了支撑现代容器生态系统的 Dockerfile、镜像层、镜像仓库和持久化存储。取而代之的是KnowledgeMCP:零LLM调用的文档查询,重新定义AI代理基础设施KnowledgeMCP,一款近期发布的开源工具,重新构想了AI代理访问文档知识的方式。它并非为每次查询都将文档喂给大语言模型(LLM),而是预先处理文档——包括PDF、Markdown文件、代码仓库或网页——将其转化为一个结构化、索引化的查看来源专题页Hacker News 已收录 4427 篇文章

相关专题

AI reliability57 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

AI智能体不是骗局,但炒作正在制造危险:深度剖析AI行业正从聊天机器人转向自主智能体,但越来越多的批评者认为这股热潮是一场精心包装的骗局。AINews深入调查了这些宣称背后的技术现实,发现脆弱系统在真实环境中频频崩溃,而商业模式可能正在消耗用户的信任。20万令牌幻影:长上下文AI模型为何会遗忘初始指令长上下文AI模型正面临一个隐秘缺陷。我们的调查发现,当对话持续进行时,拥有20万以上令牌窗口的模型会系统性地遗忘或扭曲初始指令。这种‘指令衰减’现象,正威胁着扩展上下文处理在复杂推理任务中的核心价值。The $47K Daylight Saving Time Bug: How AI Agents Fail at Real-World State AwarenessA $47,000 loss caused by a 47-minute timezone confusion exposes a critical blind spot in autonomous AI agents: state awaAspen本地AI模型:终于会说人话的离线聊天机器人一款名为Aspen的新型本地大语言模型正在挑战云端主导的AI范式。它专为非技术用户设计,完全离线运行于消费级硬件,无需订阅,并承诺提供自然而非机械的对话体验。

常见问题

这次模型发布“Why LLMs Can't Add 23 Numbers: Arithmetic Blind Spots Threaten AI Reliability”的核心内容是什么?

A developer testing a locally run large language model discovered that it produced seven distinct incorrect sums when asked to add 23 simple numbers. This is not an isolated bug bu…

从“local LLM arithmetic errors fix”看,这个模型发布为什么重要?

The root cause of LLM arithmetic failures lies in the transformer's attention mechanism and autoregressive decoding. When a model processes a sequence like "23 + 45 + 67", it does not perform addition. Instead, it comput…

围绕“LLM calculator integration tutorial”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。