大模型为何算不清23个数相加？算术盲区正威胁AI可靠性

2026年4月26日 13:02 AINews Hacker News April 2026

来源：Hacker News AI reliability 归档：April 2026

一位开发者让本地大语言模型计算23个数字之和，模型却给出了七种不同的错误答案。这一看似微不足道的失败，暴露了LLM根本性的架构局限：它们是概率性的文本生成器，而非可靠的计算机。该事件对在金融、库存和税务等精度关键领域部署此类模型提出了紧迫质疑。

一位开发者在测试本地运行的大语言模型时发现，当要求模型计算23个简单数字之和时，它产生了七种截然不同的错误结果。这并非孤立的程序缺陷，而是根植于Transformer架构本身的系统性弱点。LLM基于训练数据模式预测下一个最可能的词元，而非执行逻辑或数学运算。对于参数低于700亿的模型，多位数字加法任务的错误率可超过20%；即便是GPT-4o和Claude 3.5 Sonnet等前沿模型，在处理超过10项的算术序列时也表现出不可忽视的失败率。其影响十分严峻：企业在财务对账、供应链分析或自动报税中部署LLM，将面临级联错误的风险，从而侵蚀用户信任并引发监管担忧。

技术深度解析

LLM算术失败的根源在于Transformer的注意力机制和自回归解码方式。当模型处理像"23 + 45 + 67"这样的序列时，它并不执行加法运算。相反，它会根据输入和之前输出的词元，计算所有可能下一个词元的概率分布。模型学会了训练语料中某些输入模式与输出之间的统计相关性，但它没有对数量或算术规则的内部表征。

考虑数学运算：对于N个数的求和，模型必须在多个解码步骤中维持一个累加总数。每一步都会引入误差累积，因为模型的下一个词元预测本质上是概率性的。对于Llama 3.1-8B这样的70亿参数模型，正确预测一个4位数和的第一位数字的概率可能为0.95，但依次正确预测所有四位数字的概率会降至约0.95^4 = 0.81。对于23个数的求和，模型可能需要生成5-7位数字，完全正确回答的累积概率可能低于0.5。

来自"MathGLM"项目和开源仓库"Goat"（github.com/liutianlin0121/Goat，1.2k星标）的最新研究尝试通过添加专门的训练数据和思维链提示来微调LLM以进行算术运算。Goat通过将问题分解为逐步进位操作，在4位数加法上达到了98%的准确率，但在6位数求和时准确率降至85%。一种更稳健的方法是"Toolformer"范式，即模型学习调用外部计算器API。Meta的Toolformer论文表明，配备计算器工具的模型在算术任务上无论输入长度如何，都能达到接近100%的准确率。

算术任务基准性能

| 模型 | 参数规模 | 10个数求和准确率 | 23个数求和准确率 | 5位数乘法准确率 |
|---|---|---|---|---|
| Llama 3.1-8B | 8B | 72% | 41% | 12% |
| Mistral 7B v0.3 | 7B | 68% | 35% | 8% |
| Qwen2.5-14B | 14B | 81% | 53% | 21% |
| GPT-4o (API) | ~200B (估计) | 94% | 78% | 45% |
| Claude 3.5 Sonnet | — | 92% | 74% | 39% |
| Toolformer (7B + 计算器) | 7B + 工具 | 99.5% | 99.2% | 98.7% |

数据要点： 该表显示了模型规模与算术准确率之间的明显相关性，但即使是最大的模型在23个数求和上仍有约20-25%的失败率。Toolformer方法将语言生成与计算解耦，无论模型大小如何，都能实现近乎完美的准确率。这表明仅靠扩大规模是不够的，需要进行架构变革。

关键参与者与案例研究

多家公司和研究机构正在积极解决这一可靠性差距。OpenAI已在其ChatGPT中集成了一个代码解释器（现称为高级数据分析），将数学运算委托给Python沙箱。这有效地解决了托管服务用户的算术问题，但底层的GPT-4模型在未调用解释器时仍会出错。同样，Anthropic的Claude 3.5 Sonnet为Pro用户内置了一个计算器工具，但默认行为仍然依赖LLM的概率性输出。

在开源方面，"OpenHermes-2.5-Mistral-7B"模型（github.com/teknium/OpenHermes-2.5-Mistral-7B，3.4k星标）引入了一个系统提示，指示模型对任何数值运算使用计算器。这在内部测试中将算术错误减少了60%，但模型偶尔仍会"忘记"调用该工具。"Gorilla"项目（github.com/ShishirPatil/gorilla，10k+星标）采取了不同的方法：它微调LLM以生成对外部工具（包括数学引擎）的API调用。Gorilla通过强制模型输出结构化的API调用而非直接答案，在复杂算术上达到了95%的准确率。

可靠性解决方案对比

| 解决方案 | 方法 | 算术准确率 | 延迟开销 | 实现复杂度 |
|---|---|---|---|---|
| 提示工程 | 思维链 + "使用计算器"指令 | 70-85% | 极低 | 低 |
| Toolformer / API调用 | 模型生成工具调用，外部引擎计算 | 99%+ | 中等（API往返） | 中等 |
| 代码解释器沙箱 | 在隔离环境中执行Python代码 | 99.9%+ | 高（代码执行+解析） | 高 |
| 符号验证层 | 事后根据规则检查数值输出 | 99.5%+ | 低（基于规则） | 中等 |
| 混合微调 | 训练模型输出结构化计算轨迹 | 90-95% | 极低 | 高 |

数据要点： 对于实时应用，符号验证层在准确率和延迟之间提供了最佳平衡。它不需要修改LLM本身，因此可以立即部署。然而，它无法纠正那些语义上看似合理但数值上错误的错误——例如，一个总和

时间归档

常见问题

这次模型发布“Why LLMs Can't Add 23 Numbers: Arithmetic Blind Spots Threaten AI Reliability”的核心内容是什么？

A developer testing a locally run large language model discovered that it produced seven distinct incorrect sums when asked to add 23 simple numbers. This is not an isolated bug bu…

从“local LLM arithmetic errors fix”看，这个模型发布为什么重要？

The root cause of LLM arithmetic failures lies in the transformer's attention mechanism and autoregressive decoding. When a model processes a sequence like "23 + 45 + 67", it does not perform addition. Instead, it comput…

围绕“LLM calculator integration tutorial”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

大模型为何算不清23个数相加？算术盲区正威胁AI可靠性

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题