大模型为何算不清23个数相加?算术盲区正威胁AI可靠性

Hacker News April 2026
来源:Hacker NewsAI reliability归档:April 2026
一位开发者让本地大语言模型计算23个数字之和,模型却给出了七种不同的错误答案。这一看似微不足道的失败,暴露了LLM根本性的架构局限:它们是概率性的文本生成器,而非可靠的计算机。该事件对在金融、库存和税务等精度关键领域部署此类模型提出了紧迫质疑。

一位开发者在测试本地运行的大语言模型时发现,当要求模型计算23个简单数字之和时,它产生了七种截然不同的错误结果。这并非孤立的程序缺陷,而是根植于Transformer架构本身的系统性弱点。LLM基于训练数据模式预测下一个最可能的词元,而非执行逻辑或数学运算。对于参数低于700亿的模型,多位数字加法任务的错误率可超过20%;即便是GPT-4o和Claude 3.5 Sonnet等前沿模型,在处理超过10项的算术序列时也表现出不可忽视的失败率。其影响十分严峻:企业在财务对账、供应链分析或自动报税中部署LLM,将面临级联错误的风险,从而侵蚀用户信任并引发监管担忧。

技术深度解析

LLM算术失败的根源在于Transformer的注意力机制和自回归解码方式。当模型处理像"23 + 45 + 67"这样的序列时,它并不执行加法运算。相反,它会根据输入和之前输出的词元,计算所有可能下一个词元的概率分布。模型学会了训练语料中某些输入模式与输出之间的统计相关性,但它没有对数量或算术规则的内部表征。

考虑数学运算:对于N个数的求和,模型必须在多个解码步骤中维持一个累加总数。每一步都会引入误差累积,因为模型的下一个词元预测本质上是概率性的。对于Llama 3.1-8B这样的70亿参数模型,正确预测一个4位数和的第一位数字的概率可能为0.95,但依次正确预测所有四位数字的概率会降至约0.95^4 = 0.81。对于23个数的求和,模型可能需要生成5-7位数字,完全正确回答的累积概率可能低于0.5。

来自"MathGLM"项目和开源仓库"Goat"(github.com/liutianlin0121/Goat,1.2k星标)的最新研究尝试通过添加专门的训练数据和思维链提示来微调LLM以进行算术运算。Goat通过将问题分解为逐步进位操作,在4位数加法上达到了98%的准确率,但在6位数求和时准确率降至85%。一种更稳健的方法是"Toolformer"范式,即模型学习调用外部计算器API。Meta的Toolformer论文表明,配备计算器工具的模型在算术任务上无论输入长度如何,都能达到接近100%的准确率。

算术任务基准性能

| 模型 | 参数规模 | 10个数求和准确率 | 23个数求和准确率 | 5位数乘法准确率 |
|---|---|---|---|---|
| Llama 3.1-8B | 8B | 72% | 41% | 12% |
| Mistral 7B v0.3 | 7B | 68% | 35% | 8% |
| Qwen2.5-14B | 14B | 81% | 53% | 21% |
| GPT-4o (API) | ~200B (估计) | 94% | 78% | 45% |
| Claude 3.5 Sonnet | — | 92% | 74% | 39% |
| Toolformer (7B + 计算器) | 7B + 工具 | 99.5% | 99.2% | 98.7% |

数据要点: 该表显示了模型规模与算术准确率之间的明显相关性,但即使是最大的模型在23个数求和上仍有约20-25%的失败率。Toolformer方法将语言生成与计算解耦,无论模型大小如何,都能实现近乎完美的准确率。这表明仅靠扩大规模是不够的,需要进行架构变革。

关键参与者与案例研究

多家公司和研究机构正在积极解决这一可靠性差距。OpenAI已在其ChatGPT中集成了一个代码解释器(现称为高级数据分析),将数学运算委托给Python沙箱。这有效地解决了托管服务用户的算术问题,但底层的GPT-4模型在未调用解释器时仍会出错。同样,Anthropic的Claude 3.5 Sonnet为Pro用户内置了一个计算器工具,但默认行为仍然依赖LLM的概率性输出。

在开源方面,"OpenHermes-2.5-Mistral-7B"模型(github.com/teknium/OpenHermes-2.5-Mistral-7B,3.4k星标)引入了一个系统提示,指示模型对任何数值运算使用计算器。这在内部测试中将算术错误减少了60%,但模型偶尔仍会"忘记"调用该工具。"Gorilla"项目(github.com/ShishirPatil/gorilla,10k+星标)采取了不同的方法:它微调LLM以生成对外部工具(包括数学引擎)的API调用。Gorilla通过强制模型输出结构化的API调用而非直接答案,在复杂算术上达到了95%的准确率。

可靠性解决方案对比

| 解决方案 | 方法 | 算术准确率 | 延迟开销 | 实现复杂度 |
|---|---|---|---|---|
| 提示工程 | 思维链 + "使用计算器"指令 | 70-85% | 极低 | 低 |
| Toolformer / API调用 | 模型生成工具调用,外部引擎计算 | 99%+ | 中等(API往返) | 中等 |
| 代码解释器沙箱 | 在隔离环境中执行Python代码 | 99.9%+ | 高(代码执行+解析) | 高 |
| 符号验证层 | 事后根据规则检查数值输出 | 99.5%+ | 低(基于规则) | 中等 |
| 混合微调 | 训练模型输出结构化计算轨迹 | 90-95% | 极低 | 高 |

数据要点: 对于实时应用,符号验证层在准确率和延迟之间提供了最佳平衡。它不需要修改LLM本身,因此可以立即部署。然而,它无法纠正那些语义上看似合理但数值上错误的错误——例如,一个总和

更多来自 Hacker News

当AI撰写新闻:OpenAI超级政治行动委员会资助的全自动宣传机器曝光一项调查揭露,一家由与OpenAI有直接关联的超级政治行动委员会(Super PAC)资助的政治新闻网站,竟无一名人类记者在职。该网站每日发布数百篇文章,全部由大型语言模型(LLM)生成。这一运作模式代表了政治宣传的范式转变:廉价、快速且可Airprompt:把手机变成Mac的AI终端,移动智能体时代的真正开端Airprompt是一个开源项目,旨在弥合移动便利性与本地AI算力之间的鸿沟。它不再依赖云端API处理每一次交互,而是让用户从手机通过SSH连接Mac,直接向本地运行的大语言模型(LLM)和智能体框架发送提示词。该工具利用已有数十年历史的SDeepSeek-V4重写LLM规则:速度与形式化验证的规模化融合DeepSeek-V4并非一次常规更新——它是对大语言模型如何平衡速度与可靠性的根本性重构。在发布首日,该模型展示了两项突破性能力:首先,与高性能推理引擎SGLang的集成,实现了近乎零延迟的实时对话与代码生成响应;其次,更为关键的是Mil查看来源专题页Hacker News 已收录 2490 篇文章

相关专题

AI reliability35 篇相关文章

时间归档

April 20262514 篇已发布文章

延伸阅读

20万令牌幻影:长上下文AI模型为何会遗忘初始指令长上下文AI模型正面临一个隐秘缺陷。我们的调查发现,当对话持续进行时,拥有20万以上令牌窗口的模型会系统性地遗忘或扭曲初始指令。这种‘指令衰减’现象,正威胁着扩展上下文处理在复杂推理任务中的核心价值。The $47K Daylight Saving Time Bug: How AI Agents Fail at Real-World State AwarenessA $47,000 loss caused by a 47-minute timezone confusion exposes a critical blind spot in autonomous AI agents: state awa记忆即新护城河:AI智能体为何失忆,以及为何这至关重要AI行业对参数规模的痴迷,正使其忽视一场更深层的危机:记忆缺失。没有持久、结构化的记忆,即便最强大的LLM也不过是高级的复制粘贴机器。本文认为,决定哪些智能体能成为值得信赖的数字员工的,不是模型规模,而是记忆架构。AI智能体未能通过商业分析师测试:“读懂人心”仍是最大难题一位资深商业分析师对当前主流AI智能体进行了严苛的实地测试。结论是:它们在数据提取和模板生成上表现优异,却完全错过了商业分析的核心——情境直觉与利益相关者谈判。AINews认为,这暴露了企业AI领域一个根本性的盲区。

常见问题

这次模型发布“Why LLMs Can't Add 23 Numbers: Arithmetic Blind Spots Threaten AI Reliability”的核心内容是什么?

A developer testing a locally run large language model discovered that it produced seven distinct incorrect sums when asked to add 23 simple numbers. This is not an isolated bug bu…

从“local LLM arithmetic errors fix”看,这个模型发布为什么重要?

The root cause of LLM arithmetic failures lies in the transformer's attention mechanism and autoregressive decoding. When a model processes a sequence like "23 + 45 + 67", it does not perform addition. Instead, it comput…

围绕“LLM calculator integration tutorial”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。