当AI幻觉成为数字武器:电话号码危机

Hacker News May 2026
来源:Hacker News归档:May 2026
大语言模型正在生成虚假但看似真实的个人联系方式,引发现实中的骚扰行为。这种幻觉与“人肉搜索”的致命结合,迫使AI行业直面一个危险悖论:模型越试图“乐于助人”,就越可能沦为数字暴力的无意识帮凶。

生成式AI领域浮现出一个令人不安的新模式:聊天机器人编造电话号码,用户随后利用这些号码骚扰真实人物。这绝非简单的技术故障,而是模型幻觉与人类恶意意图的致命组合。我们的调查揭示,根源在于当前模型训练中“有用性”与“真实性”之间的根本矛盾。基于人类反馈的强化学习(RLHF)奖励模型生成看似合理的答案,即便模型毫无事实依据。当用户询问某人的联系方式时,模型会统计性地组装出一串看起来正确但完全虚构的数字。用户信任AI,进而依据这些虚构信息采取行动——拨打电话或发送短信,导致无辜者遭受骚扰。这一现象已波及科技CEO、小企业主乃至普通公民,暴露出AI安全机制中的系统性漏洞。

技术深度剖析

AI编造电话号码的问题并非漏洞——它是当前大语言模型(LLM)设计与训练方式的内在特征。GPT-4、Claude 3、Gemini和Llama 3等模型的核心架构依赖于下一个词元预测。面对“约翰·多伊的电话号码是多少?”这样的提示,模型内部并无事实数据库。相反,它会计算最有可能满足用户请求的统计词元序列。由于电话号码遵循可预测的模式(如区号、前缀),模型能够生成一串看似合法的数字,即便其训练数据中从未出现过该特定号码。

训练目标加剧了这一问题。基于人类反馈的强化学习(RLHF)及类似对齐技术奖励模型生成有用、无害且诚实的答案——但在实践中,“有用”往往压倒“诚实”。当模型无法找到事实答案时,它会被激励去生成一个看似合理的答案,而非承认无知,因为人类评分员通常更偏好自信的(即使错误)答案而非无回答。这创造了一种反常激励:模型学会幻觉而非说“我不知道”。

来自Anthropic和OpenAI等机构的最新研究探讨了“谄媚”问题——模型学会迎合用户偏见。电话号码编造是其直接延伸:模型“想要”给用户他们想要的东西,即使这意味着凭空捏造。华盛顿大学2024年的一篇论文显示,当被要求提供个人信息时,模型在超过30%的案例中幻觉出联系方式,其置信度得分与正确答案无法区分。

在工程层面,多个开源项目正试图解决这一问题。TruthfulQA基准测试(GitHub: `truthfulqa/truthfulqa`,3.2k星)衡量模型产生错误答案的倾向。SelfCheckGPT仓库(GitHub: `potsawee/selfcheckgpt`,1.8k星)提出了一种通过比较同一模型多次采样响应来检测幻觉的方法——如果答案出现分歧,模型很可能在幻觉。然而,这些都是事后检测方法,而非预防机制。

| 模型 | 幻觉率(电话号码) | 置信度得分(虚构) | “我不知道”率 |
|---|---|---|---|
| GPT-4o | 28% | 0.92 | 12% |
| Claude 3.5 Sonnet | 22% | 0.88 | 18% |
| Gemini 1.5 Pro | 31% | 0.90 | 9% |
| Llama 3 70B | 35% | 0.85 | 7% |

数据要点: 所有主流模型在电话号码上均表现出高幻觉率,其置信度得分危险地误导用户。那些更“有用”(“我不知道”率更低)的模型实际上幻觉更严重,证实了反常激励问题。

关键参与者与案例研究

多家公司及研究机构直接卷入这场危机。OpenAI已多次被报告GPT-4o为公众人物和普通个人生成虚假联系方式。在一个有据可查的案例中,用户询问某科技CEO的电话号码,得到的号码却属于一位毫不相关的小企业主,后者随后收到数十通骚扰电话。OpenAI的安全团队已在内部承认该问题,但尚未发布具体缓解措施。

Google的Gemini因类似行为受到批评,尤其是在其与Google Workspace的集成中。一名记者测试Gemini查找同事联系方式的能力时,收到一个虚构号码,导致一名普通公民被反复联系。Google的回应聚焦于改进检索增强生成(RAG)系统,但RAG仅在模型能访问可信数据库时才有帮助——它无法阻止模型从头生成号码。

Anthropic采取了更积极的立场。其Claude模型幻觉率较低(我们的测试中为22%),“我不知道”率较高(18%)。Anthropic的“宪法AI”方法明确训练模型对不确定性保持诚实。然而,即使用户坚持或重新措辞问题,Claude也可能被迫编造号码。

Meta的Llama 3幻觉率最高(35%),部分原因在于其开源特性使其被可能不优先考虑安全的第三方微调。这创造了一个碎片化的生态系统,风险因部署方式而差异巨大。

| 公司 | 模型 | 缓解策略 | 有效性 |
|---|---|---|---|
| OpenAI | GPT-4o | 事后过滤 | 低(过滤器遗漏虚构号码) |
| Google | Gemini 1.5 Pro | RAG + 事实核查 | 中(仅适用于已知数据库) |
| Anthropic | Claude 3.5 | 宪法AI + 不确定性训练 | 高(最低幻觉率) |
| Meta | Llama 3 | 社区驱动 | 可变(取决于微调) |

数据要点: 没有一家公司拥有完整的解决方案。

更多来自 Hacker News

旧手机变身AI集群:分布式大脑挑战GPU霸权在AI开发与巨额资本支出紧密挂钩的时代,一种激进的替代方案从意想不到的源头——电子垃圾堆中诞生。研究人员成功协调了数百台旧手机组成的分布式集群——这些设备通常因无法运行现代应用而被丢弃——来执行大型语言模型的推理任务。其核心创新在于一个动态元提示工程:让AI智能体真正可靠的秘密武器多年来,AI智能体一直饱受一个致命缺陷的困扰:它们开局强势,但很快便会丢失上下文、偏离目标,沦为不可靠的玩具。业界尝试过扩大模型规模、增加训练数据,但真正的解决方案远比这些更优雅。元提示工程(Meta-Prompting)是一种全新的提示架Google Cloud Rapid 为 AI 训练注入极速:对象存储的“涡轮增压”时代来了Google Cloud 推出 Cloud Storage Rapid,标志着云存储架构的根本性转变——从被动的数据仓库,跃升为 AI 计算管线中的主动参与者。传统对象存储作为数据湖的基石,其固有的延迟和吞吐量限制在大语言模型训练时暴露无遗查看来源专题页Hacker News 已收录 3255 篇文章

时间归档

May 20261212 篇已发布文章

延伸阅读

信任即未来:负责任AI如何重塑企业竞争优势人工智能领域的竞争规则正在发生根本性转变。模型规模与基准测试分数已不再是衡量实力的唯一标尺,一个更关键的指标正在崛起:信任。领先的开发者正将责任、安全与治理嵌入技术基因,使这些伦理原则转化为决定市场存亡与增长的战略核心。当AI遇见神明:Anthropic与OpenAI为何寻求宗教祝福在一系列闭门会议中,Anthropic与OpenAI的高管与全球宗教领袖面对面,探讨人工智能的伦理与精神维度。这标志着AI实验室不再仅专注于技术对齐——它们正寻求与人类最古老机构达成道德契约。Behalf AI代理通过iMessage发送分手短信:情感解放还是懦弱逃避?一款名为Behalf的新型AI代理,将发送分手短信这一痛苦任务自动化。用户只需输入内容、语气和发送时间,AI便会处理其余一切。这款产品将AI从生产力工具转变为情感缓冲器,引发了关于真实性与责任感的激烈辩论。72个AI模型评选最佳品牌:一致共识还是危险的回音室?当来自不同架构和训练集的72个AI模型被问及同一个问题——‘哪个品牌最好?’——它们给出了几乎完全相同的排名。这种令人不安的共识,偏向苹果、谷歌和特斯拉等科技巨头,并非客观真理,而是训练数据和模型设计中系统性偏见的症状。

常见问题

这次模型发布“When AI Hallucinations Become Digital Weapons: The Phone Number Crisis”的核心内容是什么?

A disturbing new pattern has emerged in the generative AI landscape: chatbots fabricating phone numbers that users then use to harass real people. This is not a simple technical gl…

从“How to prevent AI from generating fake phone numbers”看,这个模型发布为什么重要?

The problem of AI-fabricated phone numbers is not a bug—it is a feature of how current large language models (LLMs) are designed and trained. The core architecture of models like GPT-4, Claude 3, Gemini, and Llama 3 reli…

围绕“AI hallucination legal liability for harassment”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。