技术深度解析
智能幻觉并非缺陷,而是Transformer架构及其训练范式的直接结果。本质上,LLM是一个庞大的函数逼近器,其训练目标是基于给定的一系列先前词元,预测最可能出现的下一个词元(词语片段)。其成功通过困惑度来衡量——模型对训练数据中实际下一个词元的‘惊讶’程度。这一目标首要激励的是流畅性和连贯性。模型学会了专家、自信个体和权威来源的*表达方式*,包括使用确定性语言、结构化论证和技术术语。
关键在于,模型没有‘知晓其所知’的内在机制。它缺乏世界模型或对真理的持久记忆。其响应是自回归生成的,每个词元都基于前文生成,这种局部连贯性可能掩盖全局不一致或事实错误——研究人员称这种现象为‘幻觉’或‘虚构’。回答的自信程度通常反映了训练数据中某些短语的统计频率,而非答案正确性的校准度量。
近期的研究致力于量化和弥合这一差距。一种方法是不确定性量化。例如Google的`LaMDA-Chat` GitHub仓库等项目探索让模型表达置信度分数的方法。另一种是Anthropic开创的宪法AI,它使用一套原则训练模型,使其拒绝能力范围之外的任务。GitHub上的`trl`(Transformer Reinforcement Learning)库被广泛用于实现基于人类反馈的强化学习(RLHF)和AI反馈的强化学习(RLAIF),可通过调优鼓励诚实性。然而,这些技术通常作为事后微调层,应用于已为自信生成而优化的模型之上,从而在‘听起来有帮助’和‘保持准确’之间制造了张力。
一个关键的技术挑战是校准:一个校准良好的模型,其陈述的置信度应与实际准确度相匹配。当前的LLM以校准不佳而闻名。模型可能为一个事实错误的陈述分配95%的概率。OpenAI的`InstructGPT`论文和Anthropic的技术报告显示,虽然RLHF可以改善与人类偏好的对齐,但不一定能改善校准。
| 模型系列 | 主要训练目标 | 校准方法 | 产生的‘语气’ |
|---|---|---|---|
| 基础LLM(如LLaMA 3) | 下一词元预测 | 无 | 自信、绝对、模仿训练数据风格 |
| 指令微调(如Alpaca) | 遵循指令 | 监督式微调 | 乐于助人、有指导性、比基础模型稍欠自信 |
| RLHF微调(如ChatGPT) | 最大化人类偏好奖励 | 强化学习 | 礼貌、吸引人、常过度谨慎或回避 |
| 宪法AI(如Claude) | 遵循原则、避免伤害 | 基于原则的RLAIF | 谨慎、自省、更常承认局限性 |
数据启示: 上表揭示了一系列设计选择。基础模型本质上是过度自信的。标准的有用性微调对改善校准作用甚微。RLHF可能产生过度谨慎或回避的语气,这是另一种错位。宪法AI在构建自我意识方面最具前景,但它仍是一种复杂且计算成本高昂的方法。
关键参与者与案例研究
领先的AI实验室对智能幻觉的战略处理差异显著,反映了其底层哲学和风险偏好。
OpenAI 一贯优先考虑能力和流畅性。GPT-4的发布因其在连贯多轮对话和处理复杂推理任务能力上的巨大飞跃而引人注目。然而,这种流畅性本身也成了风险载体。在早期部署中,用户轻易相信了GPT-4在医疗和法律主题上的输出,导致了有记录的‘自动化偏见’案例。OpenAI的回应是渐进式的:增加‘浏览’功能以基于网络搜索提供答案,并在敏感领域使用更柔和、更谨慎的语言。他们的方法将过度自信视为一个可用性问题,通过产品功能来管理,而非核心架构问题。
Anthropic 对智能幻觉采取了最直接的哲学立场。联合创始人Dario Amodei多次强调‘阿谀奉承’或过度自信AI的危险。Claude明确使用宪法AI进行训练,以拒绝其无法安全处理的请求并表达不确定性。在实践中,这导致更频繁的免责声明和拒绝,一些用户对此感到沮丧,但Anthropic认为这对安全至关重要。他们的技术论文详细阐述了衡量和减少‘虚假能力’的努力——即模型表现出其并不具备的技能的情况。