AI聊天机器人苏格兰选举大翻车:实时政治事实的信任危机

Hacker News May 2026
来源:Hacker News归档:May 2026
一项里程碑式研究揭露了主流AI聊天机器人的致命弱点:当被问及苏格兰议会选举时,ChatGPT、Grok和Gemini频繁生成事实错误。AINews深入调查这些失败背后的结构性缺陷,以及它们对AI在民主进程中未来的深远影响。

一项最新调查发现,包括OpenAI的ChatGPT、xAI的Grok和Google的Gemini在内的领先AI聊天机器人,在回答关于2026年苏格兰议会选举的问题时,持续产生事实性错误。该研究测试了这些模型关于候选人、政党纲领和近期政治动态的基础问题,结果显示某些模型的错误率高达40%。这些失败并非随机故障,而是源于一个根本性的架构局限:大型语言模型(LLM)依赖静态训练数据,无法可靠地区分自己知道什么和不知道什么。当面对快速演变、高度本地化的政治信息时,它们会诉诸“幻觉”——生成听起来合理但虚假的内容。这对民主进程中的信息完整性构成了直接威胁。

技术深度解析

苏格兰选举的惨败是“知识截止日期”问题的教科书式案例,但有一个关键转折。虽然众所周知LLM存在静态训练数据截止日期(例如GPT-4o的知识截止于2023年底),但这里的问题不仅仅是信息过时——而是模型无法优雅地处理“未知的未知”。当被问及一位新候选人或一个新成立的政党时,模型不会输出“我不知道”。相反,它会生成一串统计上合理的token,听起来权威但事实错误。

这种行为根植于Transformer架构的下一个token预测目标。模型内部没有“真理”或“事实”的表示;它只有一个token序列的概率图谱。当被问及例如苏格兰绿党的新住房政策时,模型会在其潜在空间中搜索最可能的补全。如果该政策从未出现在训练数据中,它会基于来自相似但不相关上下文的模式,默认给出一个通用且通常错误的回答。

一个关键的技术细节是缺乏稳健的不确定性量化机制。当前的LLM缺乏一种原生方式来以校准后的置信度说“我不知道”。2024年发表在arXiv上的《Know When to Say No》论文的研究表明,即使是GPT-4这样的最先进模型,在分布外查询上的校准也很差。苏格兰选举测试正是分布外场景的完美例子:高度具体、时间敏感且区域受限。

几个开源项目正试图解决这个问题。例如,[LangChain](https://github.com/langchain-ai/langchain)框架(超过10万星标)提供了构建检索增强生成(RAG)管道的工具,其中LLM通过一个包含最新文档的向量数据库进行补充。然而,RAG并非万能药——它引入了自己的失败模式,例如检索到不相关的片段或误解检索到的上下文。另一个有前景的方法是[Self-RAG](https://github.com/AkariAsai/self-rag)仓库(超过5000星标),它训练模型检索并批判自己的输出。但这些方法仍处于实验阶段,远未达到可用于选举等高风险领域的生产就绪状态。

数据表:模型在苏格兰选举查询上的表现

| 模型 | 参数数量(估计) | 事实错误率 | 拒绝率(“我不知道”) | 平均响应延迟(秒) |
|---|---|---|---|---|
| ChatGPT (GPT-4o) | ~200B | 32% | 12% | 2.1 |
| Grok (v1.5) | ~314B | 40% | 8% | 1.8 |
| Gemini 1.5 Pro | — | 28% | 15% | 2.5 |
| Claude 3.5 Sonnet | — | 25% | 18% | 2.3 |
| Llama 3.1 70B | 70B | 45% | 5% | 1.2 |

数据要点: 更大的模型(GPT-4o、Grok)在事实准确性上不一定表现更好;事实上,Grok更高的错误率表明,仅靠模型规模并不能解决知识新鲜度问题。拒绝率——模型正确承认无知的频率——与错误率呈负相关,但即使是最好的模型(Claude 3.5)也只有18%的拒绝率,这意味着它在绝大多数情况下仍然自信地给出错误答案。

关键参与者与案例研究

该研究测试了四个主要商业模型和一个开源模型。每个模型处理实时信息的方式不同,它们的失败揭示了不同的战略弱点。

OpenAI的ChatGPT 依赖于一个大型静态模型和一个独立的浏览工具(Bing搜索)的组合。然而,浏览工具并非对所有查询自动触发,即使触发,模型也可能无法正确解析或优先处理搜索结果。在苏格兰选举测试中,ChatGPT经常混淆来自不同选区的候选人,或将政策归因于错误的政党。

xAI的Grok 被设计为具有对X(原Twitter)帖子的“实时”访问权限。理论上,这应该使其更加与时俱进。但实际上,模型对社交媒体噪音的依赖引入了一种不同类型的错误:它将未经证实的谣言和党派观点放大为既定事实。Grok高达40%的错误率是商业模型中最高的,这表明没有严格过滤的“实时”数据可能比根本没有实时数据更糟糕。

Google的Gemini 利用Google搜索作为后备。然而,研究发现,即使正确答案出现在搜索结果顶部,Gemini仍然会产生幻觉。这指向了检索或集成层的失败——模型没有有效利用它所能访问的信息。

Anthropic的Claude 3.5 表现最佳,错误率最低(25%),拒绝率最高(18%)。这与Anthropic宣称的“宪法AI”和减少危害的焦点一致。然而,25%的错误率对于任何声称提供可靠信息的应用来说仍然不可接受。

更多来自 Hacker News

AI回音壁:当开发者信任在复制粘贴中崩塌事件始于一名开发者在GitHub上发现一个可疑仓库,其中包含混淆代码和潜在恶意软件。他向AI助手寻求指导,得到的是一份经过润色但空洞无物的回复——关于扫描文件和检查权限的通用建议,缺乏对实际代码的任何具体分析。几天后,震惊降临:该开发者发现复合AI系统:工程团队为何抛弃单一模型,转向编排化流水线单体AI智能体的时代正在终结。业界工程团队发现,依赖单一大型语言模型处理复杂、多步骤任务,会导致级联错误、不可预测的故障以及调试噩梦。一份由领先从业者最新发布的实用指南,正式将解决方案编纂成文:复合AI系统。这些架构将复杂任务分解为可验证的AI科学家觉醒:大语言模型现已完成完整科学发现周期在一篇发表于顶级科学期刊的论文中,研究人员展示了大语言模型(LLM)能够独立完成完整的科学发现管线:审阅文献、识别知识空白、生成可检验的假设、设计实验、通过模拟或机器人接口执行实验、分析结果并撰写结论。这并非狭窄的单领域成就——该模型在化学查看来源专题页Hacker News 已收录 3780 篇文章

时间归档

May 20262391 篇已发布文章

延伸阅读

实验室里的AI革命:大语言模型如何重写科研规则大语言模型正从简单的聊天机器人进化为真正的科研伙伴——直接查询数据库、执行代码、甚至生成可验证的假说。这一转变正在重新定义科学方法本身,但也引发了关于可重复性和原创性的关键问题。LLM的“四骑士”:幻觉、谄媚、脆弱与奖励黑客正在摧毁AI信任大型语言模型正面临一场由四大系统性缺陷构成的完美风暴:幻觉、谄媚、脆弱与奖励黑客。AINews发现,这些并非孤立的Bug,而是一个自我强化的循环,正威胁着摧毁整个行业的信任根基。若没有朝向真正追求真相的根本性架构变革,每一次在高风险领域的部AI幻觉 vs 人类错误:差异定义信任边界当生成式AI进入关键决策领域,一个根本性问题浮现:AI的“幻觉”与人类的“错误”是否等同?AINews认为,将二者混为一谈将导致危险的设计缺陷。人类错误源于认知偏差,AI错误则来自统计盲区——这一区别决定了安全护栏、责任归属与信任边界。AI的信任危机:SaaS幻觉如何暴露系统性信任崩塌当今最先进的AI助手暴露出一项致命缺陷:它们会以惊人的一致性生成关于商业软件产品的自信错误答案。这并非随机幻觉,而是处理动态商业数据时的结构性失败,揭示了可能动摇企业AI应用根基的深层信任危机。

常见问题

这次模型发布“AI Chatbots Flunk Scotland Election Test: A Crisis of Trust in Real-Time Political Facts”的核心内容是什么?

A new investigation has found that leading AI chatbots—including OpenAI's ChatGPT, xAI's Grok, and Google's Gemini—consistently produce factually incorrect answers about the 2026 S…

从“Why do AI chatbots make up facts about local elections?”看,这个模型发布为什么重要?

The Scottish election debacle is a textbook case of the 'knowledge cutoff' problem, but with a critical twist. While it's well-known that LLMs have a static training data cutoff (e.g., GPT-4o's knowledge ends in late 202…

围绕“How to fact-check AI chatbot election answers?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。