技术深度解析
苏格兰选举的惨败是“知识截止日期”问题的教科书式案例,但有一个关键转折。虽然众所周知LLM存在静态训练数据截止日期(例如GPT-4o的知识截止于2023年底),但这里的问题不仅仅是信息过时——而是模型无法优雅地处理“未知的未知”。当被问及一位新候选人或一个新成立的政党时,模型不会输出“我不知道”。相反,它会生成一串统计上合理的token,听起来权威但事实错误。
这种行为根植于Transformer架构的下一个token预测目标。模型内部没有“真理”或“事实”的表示;它只有一个token序列的概率图谱。当被问及例如苏格兰绿党的新住房政策时,模型会在其潜在空间中搜索最可能的补全。如果该政策从未出现在训练数据中,它会基于来自相似但不相关上下文的模式,默认给出一个通用且通常错误的回答。
一个关键的技术细节是缺乏稳健的不确定性量化机制。当前的LLM缺乏一种原生方式来以校准后的置信度说“我不知道”。2024年发表在arXiv上的《Know When to Say No》论文的研究表明,即使是GPT-4这样的最先进模型,在分布外查询上的校准也很差。苏格兰选举测试正是分布外场景的完美例子:高度具体、时间敏感且区域受限。
几个开源项目正试图解决这个问题。例如,[LangChain](https://github.com/langchain-ai/langchain)框架(超过10万星标)提供了构建检索增强生成(RAG)管道的工具,其中LLM通过一个包含最新文档的向量数据库进行补充。然而,RAG并非万能药——它引入了自己的失败模式,例如检索到不相关的片段或误解检索到的上下文。另一个有前景的方法是[Self-RAG](https://github.com/AkariAsai/self-rag)仓库(超过5000星标),它训练模型检索并批判自己的输出。但这些方法仍处于实验阶段,远未达到可用于选举等高风险领域的生产就绪状态。
数据表:模型在苏格兰选举查询上的表现
| 模型 | 参数数量(估计) | 事实错误率 | 拒绝率(“我不知道”) | 平均响应延迟(秒) |
|---|---|---|---|---|
| ChatGPT (GPT-4o) | ~200B | 32% | 12% | 2.1 |
| Grok (v1.5) | ~314B | 40% | 8% | 1.8 |
| Gemini 1.5 Pro | — | 28% | 15% | 2.5 |
| Claude 3.5 Sonnet | — | 25% | 18% | 2.3 |
| Llama 3.1 70B | 70B | 45% | 5% | 1.2 |
数据要点: 更大的模型(GPT-4o、Grok)在事实准确性上不一定表现更好;事实上,Grok更高的错误率表明,仅靠模型规模并不能解决知识新鲜度问题。拒绝率——模型正确承认无知的频率——与错误率呈负相关,但即使是最好的模型(Claude 3.5)也只有18%的拒绝率,这意味着它在绝大多数情况下仍然自信地给出错误答案。
关键参与者与案例研究
该研究测试了四个主要商业模型和一个开源模型。每个模型处理实时信息的方式不同,它们的失败揭示了不同的战略弱点。
OpenAI的ChatGPT 依赖于一个大型静态模型和一个独立的浏览工具(Bing搜索)的组合。然而,浏览工具并非对所有查询自动触发,即使触发,模型也可能无法正确解析或优先处理搜索结果。在苏格兰选举测试中,ChatGPT经常混淆来自不同选区的候选人,或将政策归因于错误的政党。
xAI的Grok 被设计为具有对X(原Twitter)帖子的“实时”访问权限。理论上,这应该使其更加与时俱进。但实际上,模型对社交媒体噪音的依赖引入了一种不同类型的错误:它将未经证实的谣言和党派观点放大为既定事实。Grok高达40%的错误率是商业模型中最高的,这表明没有严格过滤的“实时”数据可能比根本没有实时数据更糟糕。
Google的Gemini 利用Google搜索作为后备。然而,研究发现,即使正确答案出现在搜索结果顶部,Gemini仍然会产生幻觉。这指向了检索或集成层的失败——模型没有有效利用它所能访问的信息。
Anthropic的Claude 3.5 表现最佳,错误率最低(25%),拒绝率最高(18%)。这与Anthropic宣称的“宪法AI”和减少危害的焦点一致。然而,25%的错误率对于任何声称提供可靠信息的应用来说仍然不可接受。