GPT数不清豆子:大语言模型数值推理的致命缺陷

Hacker News April 2026
来源:Hacker Newslarge language model归档:April 2026
一个简单的数豆实验,暴露了GPT等大语言模型无法进行基础数值推理的致命短板。本文深入剖析其架构根源、对金融与库存管理等行业的现实冲击,以及弥合概率文本生成与真正算术之间鸿沟的混合解决方案。

一项直截了当的实验——让GPT数清罐子里的豆子数量——揭示了大语言模型一个根本性弱点:它们无法可靠地执行精确的数值推理。GPT能流畅描述豆子的概念,甚至估算数量,但在维持累加计数这一最原始的算术操作上彻底失败。这一缺陷并非漏洞,而是底层架构的固有特征:LLM本质上是概率文本生成器,根据统计模式预测下一个词元,而非执行确定性算法的计算器。对于任何要求数值精度的行业——财务审计、库存管理、药物剂量、科学计算——其影响都极为严重。我们的分析表明,单纯扩大模型规模无法解决这一根本问题。

技术深度剖析

大语言模型数不清豆子,并非表面上的小故障——它是Transformer架构的直接后果。GPT-4、Claude、Gemini等LLM的核心是下一个词元预测机器。它们处理输入文本,计算词元间的注意力模式,输出一个覆盖整个词表的概率分布。模型选择最可能的下一个词元,而非数学上正确的那个。这种概率机制在语言生成上表现出色,因为自然语言本质上是模糊且依赖上下文的。但算术恰恰相反:它要求精确性。2+2必须永远等于4,而不是以95%置信度等于3.999。

当被要求数豆子时,模型并不会逐个遍历豆子并递增计数器。相反,它依赖训练数据中学到的模式:带有“500颗豆子”标签的罐子图片,或写着“这个罐子里大约有300颗豆子”的文本片段。模型在近似、在估算、在猜测——但它从未执行顺序的、确定性的计数操作。这就是为什么LLM有时能给出看似合理的数字,却在简单变体上灾难性失败,比如数不同颜色的豆子或部分被遮挡的豆子。

2024年,来自苹果公司和加州大学伯克利分校的研究人员对多个模型进行了这一现象的分析。他们发现,在简单的计数任务(例如“数出字符串'ABACADABRA'中字母A的个数”)上,准确率从短字符串的接近完美,骤降至超过20个字符字符串的低于50%。这些模型表现出一个清晰的模式:当答案是常见数字(如3或5)时它们能数对,但在非标准计数(如7或11)上失败。这是因为常见数字在训练数据中出现频率更高,给了模型一条统计捷径。

| 模型 | 计数准确率(10项) | 计数准确率(50项) | 计数准确率(100项) |
|---|---|---|---|
| GPT-4o | 92% | 68% | 41% |
| Claude 3.5 Sonnet | 89% | 62% | 35% |
| Gemini 1.5 Pro | 85% | 55% | 28% |
| Llama 3 70B | 78% | 48% | 22% |
| Mistral Large | 80% | 52% | 25% |

数据要点: 表格揭示了一个清晰的退化模式:随着项目数量增加,所有模型的准确率都急剧下降。GPT-4o领先,但在100项计数任务中仍有59%的失败率。这不是规模问题——即使最大的模型也无法执行精确计数,因为它们缺乏迭代、有状态计算的架构机制。

多个开源项目正试图解决这一问题。"MathCoder" 仓库(GitHub,约3200星)微调LLM以生成并执行Python代码进行数学推理,实质上是将算术外包给确定性解释器。另一个项目 "SymbolicAI"(GitHub,约1800星)提出了一个将神经网络与符号推理引擎交织的框架,允许模型调用外部工具进行精确计算。这些方法显示出前景,但引入了延迟和复杂性,限制了实时应用。

关键玩家与案例研究

修复LLM数值推理的竞赛吸引了主要玩家和创新型初创公司。各家公司采取不同方法,从纯规模扩展到混合架构。

OpenAI 间接承认了这个问题。他们的GPT-4o模型包含一个“代码解释器”模式,可为数学任务生成并执行Python代码。当用户要求GPT数豆子时,模型可以编写一个Python脚本,使用循环来计数列表中的项目。这效果不错,但仅在用户明确启用该功能且任务基于文本时有效。对于视觉计数(例如数图片中的豆子),模型仍然失败,因为它无法将图像解析为离散对象。

Google DeepMind 正通过其 AlphaGeometryFunSearch 项目走一条不同的道路。这些系统将LLM与符号搜索算法相结合。例如,FunSearch使用LLM生成候选数学函数,并由符号评估器验证其正确性。这种神经符号方法在复杂数学问题上取得了最先进的结果,但计算成本仍然高昂且任务特定。

Anthropic 专注于可解释性和安全性,但他们的Claude模型表现出同样的计数限制。Anthropic关于“机制可解释性”的研究表明,Transformer中的注意力头可以在有限上下文中学习计数(例如,统计一个单词在句子中出现的次数),但当计数超过模型的上下文窗口或项目未被清晰分隔时,这种能力就会崩溃。

| 公司 | 方法 | 优势 | 劣势 |
|---|---|---|---|
| OpenAI | 代码解释器(Python执行) | 基于文本的计数准确率高 | 需要用户激活;视觉输入失败 |

更多来自 Hacker News

中国封堵西方AI模型,硅谷却拥抱DeepSeek开源力量中华人民共和国已升级对西方AI模型的监管姿态,规定任何在其境内运营的外国大语言模型必须将所有用户数据存储于国内服务器,并通过国家管理的内容安全审查。此举实际上将OpenAI、Anthropic和谷歌等公司在中国市场的合规成本提升至近乎禁止的甲骨文千亿债务炸弹:AI热潮背后的财务悬崖甲骨文向AI基础设施的转型,堪称一场财务高空走钢丝。该公司激进举债——长期债务现已突破1000亿美元——用于采购数万块NVIDIA H100和H200 GPU,建设数据中心以与亚马逊云服务(AWS)、微软Azure和谷歌云竞争。这一策略最初SentinelMCP:守护AI代理工具调用的开源防火墙AI代理的爆发式增长,离不开其与外部工具的深度融合,而模型上下文协议(MCP)正迅速成为连接这些工具的标准化桥梁。然而,当业界将大量精力聚焦于模型本身的安全性——如对齐、越狱攻击和提示注入时,代理与工具之间的通信通道却始终是一片无人设防的巨查看来源专题页Hacker News 已收录 4606 篇文章

相关专题

large language model73 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

计数悖论:为何大模型能写小说却数不到50?大语言模型能生成整部小说,却连从1数到50都磕磕绊绊。AINews深入剖析这一悖论的架构根源、对商业应用的影响,以及正在涌现的弥合鸿沟的混合方法。向量搜索遭遇精准记忆滑铁卢:新基准测试揭示RAG架构致命缺陷一项名为PrecisionMemBench的全新基准测试,揭露了大语言模型长期记忆中的关键漏洞:依赖向量搜索的RAG架构在精确召回、时间推理与多步逻辑任务上频频失手。这一发现暗示,业界将向量数据库视为记忆核心的共识,或许只是权宜之计,而非终AI智能体进工厂:光环之下的残酷真相AI智能体曾被吹捧为制造业的下一次革命,承诺打造自主、自优化的工厂。但AINews的深度调查揭示了一个严峻的现实:脆弱的决策能力、面对非标准输入时的灾难性失败,以及与运行数十年的PLC和SCADA系统几乎无法整合的困境。“黑灯工厂”依然是一推理即模式匹配:人类与AI思维的惊人统一一项新arXiv研究打破了人类独特推理能力的神话,表明人类和大型语言模型都是通过模式匹配而非形式演绎来解决逻辑谜题。这迫使我们对AI产品设计乃至智能的定义进行彻底反思。

常见问题

这次模型发布“GPT Can't Count Beans: The Fatal Flaw in LLM Numerical Reasoning”的核心内容是什么?

A straightforward experiment—asking GPT to count the number of beans in a jar—has exposed a fundamental weakness in large language models: they cannot reliably perform exact numeri…

从“Why can't GPT count beans accurately?”看,这个模型发布为什么重要?

The inability of large language models to count beans is not a superficial glitch—it is a direct consequence of the transformer architecture. At their core, LLMs like GPT-4, Claude, and Gemini are next-token prediction m…

围绕“LLM numerical reasoning limitations explained”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。