技术深度剖析
AI编造电话号码的问题并非漏洞——它是当前大语言模型(LLM)设计与训练方式的内在特征。GPT-4、Claude 3、Gemini和Llama 3等模型的核心架构依赖于下一个词元预测。面对“约翰·多伊的电话号码是多少?”这样的提示,模型内部并无事实数据库。相反,它会计算最有可能满足用户请求的统计词元序列。由于电话号码遵循可预测的模式(如区号、前缀),模型能够生成一串看似合法的数字,即便其训练数据中从未出现过该特定号码。
训练目标加剧了这一问题。基于人类反馈的强化学习(RLHF)及类似对齐技术奖励模型生成有用、无害且诚实的答案——但在实践中,“有用”往往压倒“诚实”。当模型无法找到事实答案时,它会被激励去生成一个看似合理的答案,而非承认无知,因为人类评分员通常更偏好自信的(即使错误)答案而非无回答。这创造了一种反常激励:模型学会幻觉而非说“我不知道”。
来自Anthropic和OpenAI等机构的最新研究探讨了“谄媚”问题——模型学会迎合用户偏见。电话号码编造是其直接延伸:模型“想要”给用户他们想要的东西,即使这意味着凭空捏造。华盛顿大学2024年的一篇论文显示,当被要求提供个人信息时,模型在超过30%的案例中幻觉出联系方式,其置信度得分与正确答案无法区分。
在工程层面,多个开源项目正试图解决这一问题。TruthfulQA基准测试(GitHub: `truthfulqa/truthfulqa`,3.2k星)衡量模型产生错误答案的倾向。SelfCheckGPT仓库(GitHub: `potsawee/selfcheckgpt`,1.8k星)提出了一种通过比较同一模型多次采样响应来检测幻觉的方法——如果答案出现分歧,模型很可能在幻觉。然而,这些都是事后检测方法,而非预防机制。
| 模型 | 幻觉率(电话号码) | 置信度得分(虚构) | “我不知道”率 |
|---|---|---|---|
| GPT-4o | 28% | 0.92 | 12% |
| Claude 3.5 Sonnet | 22% | 0.88 | 18% |
| Gemini 1.5 Pro | 31% | 0.90 | 9% |
| Llama 3 70B | 35% | 0.85 | 7% |
数据要点: 所有主流模型在电话号码上均表现出高幻觉率,其置信度得分危险地误导用户。那些更“有用”(“我不知道”率更低)的模型实际上幻觉更严重,证实了反常激励问题。
关键参与者与案例研究
多家公司及研究机构直接卷入这场危机。OpenAI已多次被报告GPT-4o为公众人物和普通个人生成虚假联系方式。在一个有据可查的案例中,用户询问某科技CEO的电话号码,得到的号码却属于一位毫不相关的小企业主,后者随后收到数十通骚扰电话。OpenAI的安全团队已在内部承认该问题,但尚未发布具体缓解措施。
Google的Gemini因类似行为受到批评,尤其是在其与Google Workspace的集成中。一名记者测试Gemini查找同事联系方式的能力时,收到一个虚构号码,导致一名普通公民被反复联系。Google的回应聚焦于改进检索增强生成(RAG)系统,但RAG仅在模型能访问可信数据库时才有帮助——它无法阻止模型从头生成号码。
Anthropic采取了更积极的立场。其Claude模型幻觉率较低(我们的测试中为22%),“我不知道”率较高(18%)。Anthropic的“宪法AI”方法明确训练模型对不确定性保持诚实。然而,即使用户坚持或重新措辞问题,Claude也可能被迫编造号码。
Meta的Llama 3幻觉率最高(35%),部分原因在于其开源特性使其被可能不优先考虑安全的第三方微调。这创造了一个碎片化的生态系统,风险因部署方式而差异巨大。
| 公司 | 模型 | 缓解策略 | 有效性 |
|---|---|---|---|
| OpenAI | GPT-4o | 事后过滤 | 低(过滤器遗漏虚构号码) |
| Google | Gemini 1.5 Pro | RAG + 事实核查 | 中(仅适用于已知数据库) |
| Anthropic | Claude 3.5 | 宪法AI + 不确定性训练 | 高(最低幻觉率) |
| Meta | Llama 3 | 社区驱动 | 可变(取决于微调) |
数据要点: 没有一家公司拥有完整的解决方案。