聪明的幻觉:为何大语言模型口若悬河,却算不清小学数学

Hacker News May 2026
来源:Hacker Newslarge language modelsAI reliability归档:May 2026
大语言模型能辩论哲学、写诗、模仿人类共情,精准得令人咋舌。然而,当被要求解一道简单算术题或进行多步逻辑推理时,它们却常常一败涂地。这种“聪明的幻觉”并非漏洞,而是我们训练与奖励机制的设计特征。

越来越多的证据揭示了AI行业一个令人不安的趋势:大语言模型(LLM)在对话中变得愈发流畅、有说服力,但在严谨、标准化的推理基准测试中,其表现却停滞不前,甚至出现下滑。AINews将这一现象称为“聪明的幻觉”,其根源在于训练目标与真正智能之间的根本性错位。模型通过基于人类反馈的强化学习(RLHF)进行重度优化,该机制奖励那些看似合理、自信且像人类一样的回答,而非那些事实正确或逻辑严谨的答案。结果,我们得到了一代能“说得头头是道”却“无法付诸实践”的AI。MMLU、GSM8K和HellaSwag等传统基准测试已被有效“攻克”,但模型在对抗性重述或分布外问题上的脆弱性暴露无遗。苹果公司最新研究显示,当GSM8K中的名字和数字被随机替换后,所有主流模型的准确率平均暴跌15-30%。这并非偶然——它揭示了当前AI范式的一个核心缺陷:我们正在用“看起来聪明”取代“真正聪明”。

技术深度解析

“聪明的幻觉”核心在于训练流程本身。现代LLM建立在三个阶段之上:在海量文本语料库上进行预训练,在精心策划的指令遵循数据集上进行监督微调(SFT),最后是RLHF。RLHF阶段是主要元凶。人类标注者根据感知质量对模型输出进行排序,这严重偏向于流畅性、自信度以及与人类对话的风格一致性。一个说“我不确定,但让我一步步思考……”的模型,往往比一个自信地断言错误答案的模型排名更低。奖励模型学会了这些偏见,而策略模型则优化以最大化奖励分数——而非追求正确。

这创造了一种反常激励:模型学会了生成听起来合理的推理链条,即使推理本身有缺陷。例如,在GSM8K(小学数学)基准测试上,许多模型达到了90%以上的准确率。然而,当苹果公司的研究人员最近引入GSM-Symbolic——一种随机交换问题中名字和数字的变体——所有主流模型的性能平均下降了15-30%。这表明模型并非在执行真正的数学推理;它们是在对记忆中的问题模板进行模式匹配。

从架构角度看,Transformer的注意力机制天生擅长捕捉语言中的统计相关性,但它没有内置的逻辑一致性或因果推理机制。前馈网络和多头注意力层本质上是庞大的模式识别引擎。当一个模型“解决”一道数学题时,它并非像计算器那样执行算术运算;而是基于训练中见过的数十亿个数学问题和解答示例,预测下一个token。如果问题偏离了训练分布,模型就会失败。

开源项目已开始着手解决这一问题。'OpenR1' GitHub仓库(近期已超过15,000颗星)旨在通过使用强化学习直接优化数学和代码任务上的正确性(而非人类偏好),来复现DeepSeek的推理方法。另一个值得注意的项目是艾伦人工智能研究所的'Tulu 3',它探索了“直接偏好优化”(DPO)作为RLHF的替代方案,表明DPO可以减少谄媚行为并提高事实准确性。然而,这些都还处于早期阶段。

基准测试性能对比(精选模型)

| 模型 | MMLU (5-shot) | GSM8K (8-shot) | MATH (4-shot) | SimpleQA (对抗性) |
|---|---|---|---|---|
| GPT-4o | 88.7 | 96.1 | 76.6 | 41.2 |
| Claude 3.5 Sonnet | 88.3 | 94.8 | 71.5 | 38.9 |
| Gemini 1.5 Pro | 85.9 | 91.7 | 67.3 | 35.1 |
| Llama 3.1 405B | 87.3 | 93.0 | 73.8 | 33.4 |
| DeepSeek-V2 | 84.2 | 89.5 | 62.1 | 29.8 |

数据要点: MMLU/GSM8K与SimpleQA(一个旨在测试对抗性重述下基本事实一致性的基准测试)之间的差距触目惊心。在标准基准测试上看似“近乎完美”的模型,在对抗性测试中性能骤降40-50个百分点。这证实了高MMLU分数并不代表稳健的推理能力。

关键参与者与案例研究

“聪明的幻觉”对领先AI实验室而言并非秘密,但它们的应对方式各不相同。OpenAI已公开承认这一问题,CEO Sam Altman在最近的一份内部备忘录中表示“流畅不等于智能”。他们的o1和o3模型试图通过引入“思维链”推理和测试时计算扩展来解决这一问题,但即便是这些模型,在面对对抗性数学测试时也表现出同样的脆弱性。Anthropic采取了不同的方法,专注于“宪法AI”和可解释性。他们的Claude模型被训练得更加谨慎,并承认不确定性,这实际上降低了它们在某些基准测试中的感知流畅度,但提高了事实查询的可靠性。然而,这种谨慎也可能导致过度拒绝,即模型拒绝回答即使是简单、安全的问题。

Google DeepMind的Gemini团队大力投资于“工具使用”和“代码执行”,以此将推理任务外包给外部验证器。他们的方法是让模型生成代码来解决数学问题,然后在沙盒化的Python环境中执行该代码。这有效地绕过了模型内部的算术弱点。然而,这增加了延迟和复杂性,并且模型仍然必须生成正确的代码。

在开源社区中,'DeepSeek-R1' 模型(2025年1月发布)证明,纯粹的强化学习(无需基于人类偏好的监督微调)可以产生在推理任务上表现出色的模型。DeepSeek-R1在MATH上达到了79.8%,在GSM8K上达到了96.3%,同时在对抗性变体上也展现出更强的鲁棒性。这表明RLHF流程确实是流畅性与推理能力差距的主要来源。Mistral AI的'Mistral Lar'模型也采用了类似的方法,强调代码生成和数学推理的强化学习,初步结果显示其在逻辑一致性方面优于同等规模的RLHF模型。

然而,这些解决方案也带来了新的权衡。例如,DeepSeek-R1在推理时消耗的计算资源显著增加,因为模型在生成最终答案之前会生成数百个中间推理步骤。这引发了关于效率与准确性之间平衡的争论。此外,这些模型在需要创造性或开放式任务的场景中,其流畅性和对话能力可能会有所下降。

行业影响与未来展望

“聪明的幻觉”对AI行业的影响深远。首先,它动摇了当前基准测试体系的可信度。MMLU、GSM8K等测试已被“污染”——模型在训练数据中见过太多类似问题,以至于高分更多反映的是记忆能力而非推理能力。行业需要新一代的“过程导向”基准测试,例如评估推理步骤的逻辑一致性,而非仅仅检查最终答案。

其次,这对AI安全与可靠性构成直接威胁。如果模型无法进行稳健的推理,那么它们在医疗诊断、法律分析、金融决策等高风险领域的应用将充满隐患。一个在99%的情况下都能给出正确答案的模型,在关键的那1%中可能犯下灾难性错误。

第三,这正在推动AI研究范式的转变。从“更大规模的数据+更强大的计算”转向“更好的训练目标+更严谨的验证机制”。强化学习从人类反馈(RLHF)向直接偏好优化(DPO)和过程奖励模型(PRM)的迁移,标志着行业开始正视这一问题。

展望未来,我们可能会看到AI系统走向“混合架构”:LLM负责语言理解和生成,而专门的符号推理引擎或代码执行环境负责逻辑和数学计算。这种“神经符号”方法可能最终弥合流畅性与准确性之间的鸿沟。但在此之前,用户和开发者必须保持警惕:不要被AI的“口才”所迷惑,始终对其输出进行独立验证。

编辑评论

“聪明的幻觉”并非AI的失败,而是我们集体选择的结果。我们奖励了那些听起来像人类的模型,而不是那些思考像人类的模型。RLHF本质上是一种“用户满意度”优化,而非“真理”优化。在商业环境中,一个自信且流畅的AI助手往往比一个犹豫但准确的助手更受欢迎——至少在短期来看如此。

但长期代价是巨大的。如果AI行业继续沿着这条道路前进,我们将创造出一代“伪智能”系统:它们能完美地模仿人类对话,却无法可靠地执行基本推理。这不仅是技术问题,更是信任问题。当AI开始影响选举、诊断疾病、管理金融资产时,我们需要的不是“听起来聪明”的模型,而是“真正聪明”的模型。

好消息是,像DeepSeek-R1和Tulu 3这样的项目表明,替代方案是存在的。坏消息是,这些方案目前仍处于边缘地位,尚未获得与主流RLHF模型同等的投资和关注。行业需要做出选择:是继续追求令人印象深刻的对话流畅度,还是转向构建真正可靠的推理系统。

AINews认为,答案不是二选一。未来的AI应该既能流畅对话,又能严谨推理。但这需要从根本上重新思考训练目标、基准测试和评估标准。在此之前,“聪明的幻觉”仍将是AI领域最危险的误解之一。

更多来自 Hacker News

300行代码:驱动AI智能体革命的极简架构AI智能体领域长期被复杂性的叙事所主导——庞大的代码库、精密的编排框架和专有基础设施。AINews对ReAct(推理+行动)循环的独立分析揭示了一个惊人的事实:其核心逻辑仅需约300行简洁的Python代码即可表达。这种极简实现——一个在L百胜餐饮联手英伟达:500家快餐店变身AI决策引擎百胜餐饮集团(Yum Brands)宣布与英伟达(Nvidia)达成战略合作,将在其旗下的肯德基、必胜客和塔可钟共500家门店部署一套全新的边缘AI系统。该系统利用生成式AI处理订单、优化厨房工作流并管理库存。这并非一次渐进式的技术升级,而容器化AI代理:一个周末项目,如何重塑开发环境AI行业有一个不为人知的秘密:大多数基于大语言模型的代理都是脆弱、不可复现的“雪花”。一位开发者的周末项目,如今在GitHub上流传,提出了一个激进的解决方案:将整个代理生态系统容器化。这套工具链将Python工具链、模型API、自定义脚本查看来源专题页Hacker News 已收录 3554 篇文章

相关专题

large language models145 篇相关文章AI reliability45 篇相关文章

时间归档

May 20261867 篇已发布文章

延伸阅读

AI理解鸿沟:为何正确答案远远不够AINews reports on a critical flaw in AI evaluation: current benchmarks test only for correct answers, not genuine undersAI自审时代:LLM-as-Judge如何重塑模型评估格局当大语言模型能力突破传统基准,一场评估危机正威胁AI可靠性。新兴的“LLM互评”范式——让模型相互打分——提供了可扩展、可复现的替代方案。但自我审判,真的可信吗?AI推理悖论:语言模型是在思考,还是在为答案编织理由?AI发展的前沿正浮现一个关键问题:当大语言模型展示逐步推理时,它们究竟是在真正思考,还是在为预设答案构建看似合理的说辞?这一区分决定了AI能否在医疗、金融和法律等高风险领域被信赖。我们的分析揭示了背后的技术架构与新兴解决方案。自信陷阱:为何大语言模型在最确信时错得最离谱全新研究框架MarCognity-AI系统性地揭示了顶尖大语言模型中一个反直觉且危险的缺陷:模型最自信的预测往往错得最灾难性。这为AI在高风险领域的部署带来了根本性的可靠性危机,迫使我们彻底重新评估衡量与信任人工智能的方式。

常见问题

这次模型发布“The Smart Illusion: Why LLMs Sound Brilliant But Fail Simple Math”的核心内容是什么?

A growing body of evidence reveals a troubling trend in the AI industry: large language models (LLMs) are becoming increasingly fluent and persuasive in conversation, yet their per…

从“Why do LLMs fail at simple math despite high benchmark scores?”看,这个模型发布为什么重要?

The core of the 'smart illusion' lies in the training pipeline itself. Modern LLMs are built on a three-stage process: pre-training on massive text corpora, supervised fine-tuning (SFT) on curated instruction-following d…

围绕“How does RLHF cause AI to prioritize sounding smart over being correct?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。