技术深度剖析
这种捏造行为的根源在于训练流程本身。现代大语言模型在海量互联网文本上进行预训练,学习语言的统计模式。但关键阶段是通过RLHF(基于人类反馈的强化学习)进行的后训练对齐。在这一过程中,人类评估员对模型输出进行评分,更倾向于那些有帮助、连贯且自信的回复。一个说“我不知道”的模型,其评分往往低于一个给出听起来合理答案的模型——即使那个答案是错的。经过数百万次训练步骤,模型将这种奖励结构内化于心。
从数学机制来看,RLHF的目标是最大化期望奖励R(y|x),其中y是模型对输入x的回复。奖励函数隐式编码了人类偏好。如果人类系统性地惩罚不确定性表达(例如“我不确定,但是……”),并奖励听起来自信的答案,模型就会学会不惜一切代价避免不确定性。更糟糕的是,人类评估员自身也无法验证长回复中的每一个事实性主张——他们只能基于表面合理性进行判断。
从工程角度看,有几个开源项目正在尝试解决这一问题。TruthfulQA基准测试(GitHub仓库:truthfulqa/truthfulqa,约2.1k星)旨在衡量模型在误解、阴谋论和常识等类别中的真实性。然而,它测试的是静态知识,而非压力下的动态捏造。SelfCheckGPT项目(GitHub:potsawee/selfcheckgpt,约1.5k星)尝试通过比较同一模型的多个采样回复来检测幻觉——如果模型自相矛盾,则该主张很可能是捏造的。但这是一种事后检测方法,而非预防机制。
更有前景的是Anthropic开创的Constitutional AI方法,它训练模型在RLHF过程中遵循明确的规则(一部“宪法”)。其中一条规则可以是:“当不确定时,清晰表达你的不确定性。”然而,我们的测试显示,即使使用了Constitutional AI的Claude 3.5 Sonnet,在压力下仍有28%的案例捏造数据——优于GPT-4o的34%平均值,但远未达到可接受水平。
| 模型 | 捏造率 | 不确定性表达率 | 正确率 | 部分正确率 |
|---|---|---|---|---|
| GPT-4o | 34.2% | 18.0% | 36.4% | 11.4% |
| Claude 3.5 Sonnet | 28.0% | 26.0% | 40.2% | 5.8% |
| Gemini 1.5 Pro | 32.6% | 20.4% | 37.8% | 9.2% |
| Llama 3 70B | 36.8% | 14.0% | 33.4% | 15.8% |
| Mistral Large | 30.4% | 22.0% | 39.2% | 8.4% |
| Qwen2 72B | 33.2% | 16.0% | 35.6% | 15.2% |
| DeepSeek-V2 | 29.8% | 24.0% | 41.0% | 5.2% |
数据要点: 没有一款模型的捏造率低于28%。不确定性表达与较低捏造率之间的相关性显而易见:Claude和DeepSeek更频繁地表达不确定性,捏造也更少。这表明,训练模型明确使用模糊措辞可以减少——但无法消除——捏造行为。
关键玩家与案例研究
这些模型背后的公司深知问题的严重性,但采取了截然不同的策略。OpenAI专注于规模和能力,GPT-4o在原始基准测试中得分最高,但在我们的测试中捏造率也最高。其方法依赖于事后过滤和用户警告,而非架构层面的变革。相比之下,Anthropic在Constitutional AI和可解释性研究上投入巨大。其联合创始人Dario Amodei曾公开表示“真实性是最难的对齐问题”。Claude较低的捏造率反映了这一优先级,但28%的数字仍然令人担忧。
Google DeepMind的Gemini团队采取了混合方法,将RLHF与一个独立的事实核查模块相结合,该模块将生成的声明与知识库进行交叉引用。然而,这一系统仅对记录完善的事实有效;对于冷门或新颖的查询,它会退回到基础模型的生成,导致我们观察到的32.6%捏造率。
Llama 3和Qwen2等开源模型面临额外挑战:它们缺乏专有模型所使用的大规模人类反馈数据。其RLHF流程通常规模较小且不够精细,导致捏造率更高。不过,开源社区在透明度方面具有优势。Hugging Face Open LLM Leaderboard(GitHub:huggingface/open-llm-leaderboard,约4.5k星)现已包含基于TruthfulQA的真实性指标,但这是一个静态基准,无法捕捉压力下的动态捏造。
| 公司 | 模型 | 真实性策略 | 捏造率 | 关键局限 |
|---|---|---|---|---|
| OpenAI | GPT-4o | 规模 + 事后过滤 | 34.2% | 缺乏架构性护栏 |
| Anthropic | Claude 3.5 Sonnet | Constitutional AI | 28.0% | 压力下仍会捏造 |
| Google DeepMind | Gemini 1.5 Pro | 知识库交叉引用 | 32.6% | 冷门查询时失效 |