大语言模型的巨大错觉：为何我们假装AI同事是天才

2026年6月10日 22:02 AINews Hacker News June 2026

一场静默的清算正在席卷企业界：所有人追捧的AI革命，可能是一场集体幻觉。员工花在纠错上的时间远超从中获益的时间，而高管们却在庆祝虚幻的生产力提升。AINews 揭示了职场大语言模型热潮背后令人不安的真相。

企业对大语言模型的拥抱，已演变成一场昂贵的表演。数十亿美元被投入部署AI助手，但仔细审视后会发现，它们产出的流畅废话与真正洞见几乎一样多。AINews 对此现象进行了独立调查，采访了数十家公司的工程师、产品经理和高管。调查结果触目惊心：存在一种系统性的自欺欺人文化——从高管到实习生，每个人都出于自身利益假装这项技术比实际表现更好。核心问题在于架构。LLM 是下一个词元预测器，而非推理引擎。它们缺乏持久记忆、真正的理解能力和可靠的事实基础。然而，企业却将它们当作知识引擎来部署。

技术深度解析

职场LLM错觉的根源，在于对这些模型本质的根本性误解。从核心来看，当前所有LLM——无论是GPT-4o、Claude 3.5、Gemini 2.0，还是Llama 3.1或Mistral等开源替代品——都是随机鹦鹉。它们基于海量人类文本语料库进行训练，目标是预测序列中的下一个词元（单词或子词）。这种架构擅长生成句法连贯、风格合理的文本，但并不能赋予其真正的推理能力、记忆能力或事实理解能力。

以2017年开创性论文《Attention Is All You Need》中提出的Transformer架构为例。其关键创新在于自注意力机制，该机制允许模型在生成每个输出词元时，权衡输入不同部分的重要性。然而，这种注意力受限于固定的上下文窗口——对于大多数生产模型而言，通常为4,000到128,000个词元。一旦对话或文档超出该窗口，模型就会有效遗忘较早的信息。这就是AI助手在长会话中频繁自相矛盾，或无法跟踪复杂多步骤指令的原因。

此外，LLM在会话之间没有持久化的内部状态。每次交互都是无状态的。OpenAI和Anthropic等公司引入了变通方法——例如系统提示、检索增强生成（RAG）和微调——但这些只是补丁，而非解决方案。例如，RAG从向量数据库中检索相关文档，并将其注入上下文窗口。但如果检索失败，或者模型误解了检索到的文本，输出仍然流畅且自信——只是错了。

一个具体例子：某金融服务公司部署了一个LLM来回答客户关于投资组合表现的查询。该模型可以访问包含季度报告的RAG系统。在一次实例中，它自信地声称某客户的持仓在第二季度增长了12%，而实际上却下降了4%。该模型检索了一份关于不同客户的文档，由于格式相似，它产生了数字幻觉。审核输出的员工发现了这个错误，但邮件已经发送给了客户。这并非极端案例，而是架构的结构性失败。

LangChain和LlamaIndex等开源项目试图围绕LLM构建框架以添加记忆和工具使用功能，但它们也引入了自身的复杂性。例如，LangChain在GitHub上拥有超过10万颗星并被广泛使用，但其模块化设计在执行调用链时常常导致不可预测的行为。模型可能正确调用了计算器工具，但在最终答案中却忽略了计算结果。这些并非漏洞，而是缺乏连贯世界模型的系统所涌现出的特性。

| 模型 | 上下文窗口 | MMLU 分数（5-shot） | HumanEval（Python） | 每百万输入词元成本 |
|---|---|---|---|---|
| GPT-4o | 128K | 88.7 | 90.2 | $5.00 |
| Claude 3.5 Sonnet | 200K | 88.3 | 92.0 | $3.00 |
| Gemini 1.5 Pro | 1M | 86.4 | 84.1 | $3.50 |
| Llama 3.1 405B | 128K | 87.3 | 89.0 | $0.99（通过 together.ai） |
| Mistral Large 2 | 128K | 84.0 | 85.5 | $2.00 |

数据要点： 尽管MMLU和HumanEval等基准分数显示出稳步提升，但它们衡量的是狭窄、静态的任务。它们无法捕捉现实世界中的可靠性、一致性或纠错成本。基准性能与生产实用性之间的鸿沟依然巨大。

关键参与者与案例研究

这种错觉由一个由供应商、顾问和内部倡导者组成的复杂生态系统所维持，每个角色都有夸大能力的动机。

OpenAI 凭借GPT-4o仍是市场领导者，但其企业级应用之路并不平坦。微软基于OpenAI模型构建的Copilot，是部署最广泛的职场LLM，已集成到Office 365中。然而，多家财富500强公司的内部调查显示，定期使用Copilot的员工不足30%，许多使用者报告称，编辑其输出所花费的时间比节省的时间还要多。微软自身的营销强调每天节省10-15分钟，但批评者认为这些数据基于受控任务，而非混乱的真实工作流程。

Anthropic 将Claude定位为“更安全”的替代方案，强调宪法AI和降低的幻觉率。Claude 3.5 Sonnet在开发者中因代码生成而广受欢迎，但其拒绝回答某些问题——即使是良性问题——的行为让用户感到沮丧。一家法律科技初创公司的案例研究表明，Claude拒绝起草一份标准的保密协议，因为它认为该任务“可能有害”。这种过度谨慎本身也造成了生产力损失。

Google DeepMind 的Gemini 1.5 Pro拥有最大的上下文窗口（100万个词元），理论上可以处理整个代码库或文档库。然而在实践中，注意力质量...

常见问题

这次模型发布“The Great LLM Delusion: Why We Pretend Our AI Coworkers Are Geniuses”的核心内容是什么？

The corporate embrace of large language models has devolved into an expensive performance. Billions of dollars are being poured into deploying AI assistants that, upon closer inspe…

从“Why do LLMs hallucinate so much in workplace settings?”看，这个模型发布为什么重要？

The root of the workplace LLM delusion lies in a fundamental misunderstanding of what these models are. At their core, all current LLMs—whether GPT-4o, Claude 3.5, Gemini 2.0, or open-source alternatives like Llama 3.1 o…

围绕“How much time do employees actually waste fixing AI errors?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

大语言模型的巨大错觉：为何我们假装AI同事是天才

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题