技术深度剖析
幻灭感的核心源于基于Transformer架构的LLM的根本设计。这些模型是下一词元预测器,其优化目标是根据训练数据中的模式生成统计上合理的文本序列。从设计上讲,它们并非推理引擎或世界模拟器。
自动补全范式: 诸如GPT-4、Claude 3和Llama 3等模型的核心运行机制很简单:给定一个词元序列,预测概率最高的下一个词元。这个过程以自回归方式重复,从而生成连贯文本。模型的“知识”是一个庞大、高维的语言共现统计图谱,而非事实的符号数据库或因果模型。当被问及“宝可梦能在战斗外使用冲浪吗?”时,模型会从其训练语料中检索并重组关于宝可梦机制的文本片段,但它并不会*模拟*游戏状态来推导答案。
规划与记忆鸿沟: 完成像《宝可梦蓝》这样的游戏,需要维持持久的世界状态、制定长远计划,并执行一系列能适应随机事件的动作序列。LLM在其固定的上下文窗口之外,没有固有的持久记忆。虽然像检索增强生成这样的技术可以获取相关文档,但它们无法创建动态、可更新的状态表征。规划需要对未来状态进行搜索和评估,这是LLM所缺乏的能力;它们可以*描述*一个计划,但无法在跟踪后果的同时逐步*执行*它。
基准测试揭示的幻觉: 标准的LLM基准测试主要测试单次提示内的知识回忆和短链推理,而非持续的、目标导向的智能体行为。新的基准测试正在涌现以凸显这一差距。
| 基准测试 | 任务描述 | GPT-4o 表现 | 人类表现 | 暴露的关键局限 |
|---|---|---|---|---|
| MMLU | 多学科知识问答 | ~88.7% | ~89.8% | 知识回忆,而非应用 |
| GPQA | 研究生级别专家问答 | ~39% | ~65% | 专业领域的推理深度 |
| 《宝可梦蓝》通关 | 达成游戏通关 | <5% | ~100% | 长远规划、状态跟踪、记忆 |
| WebArena | 在真实网站上完成任务 | ~10.4% | ~100% | 现实世界交互、工具使用、适应性 |
数据启示: 知识回忆与交互式任务完成之间的表现鸿沟巨大。静态问答基准测试的高分制造了通用能力的误导性印象,掩盖了在智能体能力方面的根本弱点。
开源前沿探索: 社区正积极探索弥合这一差距的架构。像微软的AutoGen和LangChain/LangGraph框架允许开发者将LLM调用与记忆和工具链接起来,创建初级智能体。OpenAI的GPT-4o API现在包含用于更长思维链的`reasoning`引擎。然而,这些都是*围绕*核心LLM的编排,而非对其架构的改造。一个值得注意的研究方向体现在诸如谷歌的SIMA和Meta的CICERO等项目中。这些项目指向了混合架构,其中语言模型是更大认知系统内的组件。
关键参与者与案例研究
行业对纯LLM局限性的回应已分化为两大阵营:规模乐观派与混合务实派。
规模乐观派: OpenAI和Anthropic大体上仍属于此阵营,他们押注数据、参数和算力的持续扩展最终将通过涌现能力克服当前局限。OpenAI的o1系列模型通过允许输出前进行“慢思考”链,向更系统化的推理迈出了一步。然而,这仍然是在语言真空中的推理,并未扎根于环境。Anthropic的Claude 3.5 Sonnet展示了卓越的编码和分析能力,但其架构根本上仍是一个下一词元预测器。
混合务实派: 像谷歌DeepMind和xAI这样的公司明确追求混合方法。DeepMind在AlphaGo、AlphaFold以及现在的Gemini上的历史,反映了其对技术融合的信念。埃隆·马斯克称xAI的Grok旨在构建一个“追求最大真理、理解宇宙的AI”,这暗示了其超越文本生成的雄心。