AI聊天机器人苏格兰选举大翻车：实时政治事实的信任危机

2026年5月21日 00:02 AINews Hacker News May 2026

来源：Hacker News 归档：May 2026

一项里程碑式研究揭露了主流AI聊天机器人的致命弱点：当被问及苏格兰议会选举时，ChatGPT、Grok和Gemini频繁生成事实错误。AINews深入调查这些失败背后的结构性缺陷，以及它们对AI在民主进程中未来的深远影响。

一项最新调查发现，包括OpenAI的ChatGPT、xAI的Grok和Google的Gemini在内的领先AI聊天机器人，在回答关于2026年苏格兰议会选举的问题时，持续产生事实性错误。该研究测试了这些模型关于候选人、政党纲领和近期政治动态的基础问题，结果显示某些模型的错误率高达40%。这些失败并非随机故障，而是源于一个根本性的架构局限：大型语言模型（LLM）依赖静态训练数据，无法可靠地区分自己知道什么和不知道什么。当面对快速演变、高度本地化的政治信息时，它们会诉诸“幻觉”——生成听起来合理但虚假的内容。这对民主进程中的信息完整性构成了直接威胁。

技术深度解析

苏格兰选举的惨败是“知识截止日期”问题的教科书式案例，但有一个关键转折。虽然众所周知LLM存在静态训练数据截止日期（例如GPT-4o的知识截止于2023年底），但这里的问题不仅仅是信息过时——而是模型无法优雅地处理“未知的未知”。当被问及一位新候选人或一个新成立的政党时，模型不会输出“我不知道”。相反，它会生成一串统计上合理的token，听起来权威但事实错误。

这种行为根植于Transformer架构的下一个token预测目标。模型内部没有“真理”或“事实”的表示；它只有一个token序列的概率图谱。当被问及例如苏格兰绿党的新住房政策时，模型会在其潜在空间中搜索最可能的补全。如果该政策从未出现在训练数据中，它会基于来自相似但不相关上下文的模式，默认给出一个通用且通常错误的回答。

一个关键的技术细节是缺乏稳健的不确定性量化机制。当前的LLM缺乏一种原生方式来以校准后的置信度说“我不知道”。2024年发表在arXiv上的《Know When to Say No》论文的研究表明，即使是GPT-4这样的最先进模型，在分布外查询上的校准也很差。苏格兰选举测试正是分布外场景的完美例子：高度具体、时间敏感且区域受限。

几个开源项目正试图解决这个问题。例如，[LangChain](https://github.com/langchain-ai/langchain)框架（超过10万星标）提供了构建检索增强生成（RAG）管道的工具，其中LLM通过一个包含最新文档的向量数据库进行补充。然而，RAG并非万能药——它引入了自己的失败模式，例如检索到不相关的片段或误解检索到的上下文。另一个有前景的方法是[Self-RAG](https://github.com/AkariAsai/self-rag)仓库（超过5000星标），它训练模型检索并批判自己的输出。但这些方法仍处于实验阶段，远未达到可用于选举等高风险领域的生产就绪状态。

数据表：模型在苏格兰选举查询上的表现

| 模型 | 参数数量（估计） | 事实错误率 | 拒绝率（“我不知道”） | 平均响应延迟（秒） |
|---|---|---|---|---|
| ChatGPT (GPT-4o) | ~200B | 32% | 12% | 2.1 |
| Grok (v1.5) | ~314B | 40% | 8% | 1.8 |
| Gemini 1.5 Pro | — | 28% | 15% | 2.5 |
| Claude 3.5 Sonnet | — | 25% | 18% | 2.3 |
| Llama 3.1 70B | 70B | 45% | 5% | 1.2 |

数据要点： 更大的模型（GPT-4o、Grok）在事实准确性上不一定表现更好；事实上，Grok更高的错误率表明，仅靠模型规模并不能解决知识新鲜度问题。拒绝率——模型正确承认无知的频率——与错误率呈负相关，但即使是最好的模型（Claude 3.5）也只有18%的拒绝率，这意味着它在绝大多数情况下仍然自信地给出错误答案。

关键参与者与案例研究

该研究测试了四个主要商业模型和一个开源模型。每个模型处理实时信息的方式不同，它们的失败揭示了不同的战略弱点。

OpenAI的ChatGPT 依赖于一个大型静态模型和一个独立的浏览工具（Bing搜索）的组合。然而，浏览工具并非对所有查询自动触发，即使触发，模型也可能无法正确解析或优先处理搜索结果。在苏格兰选举测试中，ChatGPT经常混淆来自不同选区的候选人，或将政策归因于错误的政党。

xAI的Grok 被设计为具有对X（原Twitter）帖子的“实时”访问权限。理论上，这应该使其更加与时俱进。但实际上，模型对社交媒体噪音的依赖引入了一种不同类型的错误：它将未经证实的谣言和党派观点放大为既定事实。Grok高达40%的错误率是商业模型中最高的，这表明没有严格过滤的“实时”数据可能比根本没有实时数据更糟糕。

Google的Gemini 利用Google搜索作为后备。然而，研究发现，即使正确答案出现在搜索结果顶部，Gemini仍然会产生幻觉。这指向了检索或集成层的失败——模型没有有效利用它所能访问的信息。

Anthropic的Claude 3.5 表现最佳，错误率最低（25%），拒绝率最高（18%）。这与Anthropic宣称的“宪法AI”和减少危害的焦点一致。然而，25%的错误率对于任何声称提供可靠信息的应用来说仍然不可接受。

时间归档

常见问题

这次模型发布“AI Chatbots Flunk Scotland Election Test: A Crisis of Trust in Real-Time Political Facts”的核心内容是什么？

A new investigation has found that leading AI chatbots—including OpenAI's ChatGPT, xAI's Grok, and Google's Gemini—consistently produce factually incorrect answers about the 2026 S…

从“Why do AI chatbots make up facts about local elections?”看，这个模型发布为什么重要？

The Scottish election debacle is a textbook case of the 'knowledge cutoff' problem, but with a critical twist. While it's well-known that LLMs have a static training data cutoff (e.g., GPT-4o's knowledge ends in late 202…

围绕“How to fact-check AI chatbot election answers?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

AI聊天机器人苏格兰选举大翻车：实时政治事实的信任危机

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题