GPT数不清豆子:大语言模型数值推理的致命缺陷

Hacker News April 2026
来源:Hacker Newslarge language model归档:April 2026
一个简单的数豆实验,暴露了GPT等大语言模型无法进行基础数值推理的致命短板。本文深入剖析其架构根源、对金融与库存管理等行业的现实冲击,以及弥合概率文本生成与真正算术之间鸿沟的混合解决方案。

一项直截了当的实验——让GPT数清罐子里的豆子数量——揭示了大语言模型一个根本性弱点:它们无法可靠地执行精确的数值推理。GPT能流畅描述豆子的概念,甚至估算数量,但在维持累加计数这一最原始的算术操作上彻底失败。这一缺陷并非漏洞,而是底层架构的固有特征:LLM本质上是概率文本生成器,根据统计模式预测下一个词元,而非执行确定性算法的计算器。对于任何要求数值精度的行业——财务审计、库存管理、药物剂量、科学计算——其影响都极为严重。我们的分析表明,单纯扩大模型规模无法解决这一根本问题。

技术深度剖析

大语言模型数不清豆子,并非表面上的小故障——它是Transformer架构的直接后果。GPT-4、Claude、Gemini等LLM的核心是下一个词元预测机器。它们处理输入文本,计算词元间的注意力模式,输出一个覆盖整个词表的概率分布。模型选择最可能的下一个词元,而非数学上正确的那个。这种概率机制在语言生成上表现出色,因为自然语言本质上是模糊且依赖上下文的。但算术恰恰相反:它要求精确性。2+2必须永远等于4,而不是以95%置信度等于3.999。

当被要求数豆子时,模型并不会逐个遍历豆子并递增计数器。相反,它依赖训练数据中学到的模式:带有“500颗豆子”标签的罐子图片,或写着“这个罐子里大约有300颗豆子”的文本片段。模型在近似、在估算、在猜测——但它从未执行顺序的、确定性的计数操作。这就是为什么LLM有时能给出看似合理的数字,却在简单变体上灾难性失败,比如数不同颜色的豆子或部分被遮挡的豆子。

2024年,来自苹果公司和加州大学伯克利分校的研究人员对多个模型进行了这一现象的分析。他们发现,在简单的计数任务(例如“数出字符串'ABACADABRA'中字母A的个数”)上,准确率从短字符串的接近完美,骤降至超过20个字符字符串的低于50%。这些模型表现出一个清晰的模式:当答案是常见数字(如3或5)时它们能数对,但在非标准计数(如7或11)上失败。这是因为常见数字在训练数据中出现频率更高,给了模型一条统计捷径。

| 模型 | 计数准确率(10项) | 计数准确率(50项) | 计数准确率(100项) |
|---|---|---|---|
| GPT-4o | 92% | 68% | 41% |
| Claude 3.5 Sonnet | 89% | 62% | 35% |
| Gemini 1.5 Pro | 85% | 55% | 28% |
| Llama 3 70B | 78% | 48% | 22% |
| Mistral Large | 80% | 52% | 25% |

数据要点: 表格揭示了一个清晰的退化模式:随着项目数量增加,所有模型的准确率都急剧下降。GPT-4o领先,但在100项计数任务中仍有59%的失败率。这不是规模问题——即使最大的模型也无法执行精确计数,因为它们缺乏迭代、有状态计算的架构机制。

多个开源项目正试图解决这一问题。"MathCoder" 仓库(GitHub,约3200星)微调LLM以生成并执行Python代码进行数学推理,实质上是将算术外包给确定性解释器。另一个项目 "SymbolicAI"(GitHub,约1800星)提出了一个将神经网络与符号推理引擎交织的框架,允许模型调用外部工具进行精确计算。这些方法显示出前景,但引入了延迟和复杂性,限制了实时应用。

关键玩家与案例研究

修复LLM数值推理的竞赛吸引了主要玩家和创新型初创公司。各家公司采取不同方法,从纯规模扩展到混合架构。

OpenAI 间接承认了这个问题。他们的GPT-4o模型包含一个“代码解释器”模式,可为数学任务生成并执行Python代码。当用户要求GPT数豆子时,模型可以编写一个Python脚本,使用循环来计数列表中的项目。这效果不错,但仅在用户明确启用该功能且任务基于文本时有效。对于视觉计数(例如数图片中的豆子),模型仍然失败,因为它无法将图像解析为离散对象。

Google DeepMind 正通过其 AlphaGeometryFunSearch 项目走一条不同的道路。这些系统将LLM与符号搜索算法相结合。例如,FunSearch使用LLM生成候选数学函数,并由符号评估器验证其正确性。这种神经符号方法在复杂数学问题上取得了最先进的结果,但计算成本仍然高昂且任务特定。

Anthropic 专注于可解释性和安全性,但他们的Claude模型表现出同样的计数限制。Anthropic关于“机制可解释性”的研究表明,Transformer中的注意力头可以在有限上下文中学习计数(例如,统计一个单词在句子中出现的次数),但当计数超过模型的上下文窗口或项目未被清晰分隔时,这种能力就会崩溃。

| 公司 | 方法 | 优势 | 劣势 |
|---|---|---|---|
| OpenAI | 代码解释器(Python执行) | 基于文本的计数准确率高 | 需要用户激活;视觉输入失败 |

更多来自 Hacker News

AI的隐性税:为何我们仍在适应那些记不住我们的机器AI行业一直痴迷于扩展参数规模、刷榜基准分数和提升多模态能力,但一个根本性的摩擦依然存在:每一次用户交互都从零开始。一位16岁用户最近道出了普遍的无奈:“为什么AI总问我想要什么?它应该已经知道了。”这捕捉到了“认知税”——用户在每个会话中生成式AI重写创业规则:问题定义比技术护城河更重要一项在顶级会议上发表的新学术框架,首次严谨分析了生成式AI如何结构性改变创业剧本。该研究基于对数十位创始人和投资者的访谈,识别出一个根本性转变:对于许多软件类别,构建最小可行产品(MVP)的成本已下降超过90%,催生了一波“微创业者”,他们WordPress AI代币税:压垮小站长的隐性成本黑洞WordPress的AI革命正建立在一个脆弱的经济基础之上。随着插件开发者争相将大语言模型集成到内容推荐、实时翻译和智能摘要等功能中,他们系统性地掩盖了每次请求的代币成本。每一次AI交互——无论是生成文章摘要、翻译评论还是审核垃圾信息——都查看来源专题页Hacker News 已收录 2512 篇文章

相关专题

large language model30 篇相关文章

时间归档

April 20262554 篇已发布文章

延伸阅读

AI锻造维京魔法剑:机器创造力如何暴露文化盲区一位开发者让AI设计一把“维京魔法剑”,结果意外揭示了大型语言模型在处理文化符号、叙事逻辑与创意约束时的深层局限。输出结果充斥着奇幻套路,却严重缺乏历史准确性,为生成式自由与领域特定忠实性之间的张力提供了关键视角。大模型为何算不清23个数相加?算术盲区正威胁AI可靠性一位开发者让本地大语言模型计算23个数字之和,模型却给出了七种不同的错误答案。这一看似微不足道的失败,暴露了LLM根本性的架构局限:它们是概率性的文本生成器,而非可靠的计算机。该事件对在金融、库存和税务等精度关键领域部署此类模型提出了紧迫质GPT-5.5早期测试曝光:推理与自主代码生成能力实现质的飞跃AINews独家获得GPT-5.5早期测试权限,结果令人震撼。该模型在多步骤推理、长上下文记忆以及自主调试与优化自身代码方面实现了重大突破——正从代码补全工具迈向真正的自主软件工程师。GitHub Copilot 升级 GPT-5.5:终于读懂你项目的 AI 编程搭档GitHub Copilot 正式为所有用户升级至 GPT-5.5,从逐行自动补全工具蜕变为具备项目感知能力的协作者,能够执行多文件重构与架构建议。这不仅是版本迭代,更是 AI 编程助手的根本性重塑。

常见问题

这次模型发布“GPT Can't Count Beans: The Fatal Flaw in LLM Numerical Reasoning”的核心内容是什么?

A straightforward experiment—asking GPT to count the number of beans in a jar—has exposed a fundamental weakness in large language models: they cannot reliably perform exact numeri…

从“Why can't GPT count beans accurately?”看,这个模型发布为什么重要?

The inability of large language models to count beans is not a superficial glitch—it is a direct consequence of the transformer architecture. At their core, LLMs like GPT-4, Claude, and Gemini are next-token prediction m…

围绕“LLM numerical reasoning limitations explained”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。