技术深度解析
‘机器共识’现象源于现代LLM根本性的架构选择。其核心在于,采用注意力机制的Transformer架构擅长识别和复现序列中的统计模式。当使用来自开放网络、学术论文和书籍的数TB文本进行训练后,这些模型会形成一个隐式的‘合理后续概率分布’,该分布反映了训练语料中观点的出现频率与共现关系。
主要的技术促成因素包括:
1. Next-token预测目标:这一基础训练任务强化了与常见序列的对齐,使得频繁表达的观点比罕见观点更易被模型调用。
2. 基于人类反馈的强化学习:如OpenAI的InstructGPT和Anthropic的Constitutional AI等系统利用人类偏好来塑造输出,但这些偏好往往倾向于常规、无争议且结构清晰的回答。
3. 温度与采样参数:默认设置(温度通常约0.7)虽平衡了创造性与连贯性,但严重偏向高概率词元,从而强化了主流模式。
近期研究已量化了这一效应。Anthropic研究人员探索的Eliciting Latent Knowledge问题,突显了模型如何可能学习‘可模仿人类的’表面特征而非底层真相。同时,TruthfulQA基准测试揭示,即使是最先进的模型,在面对训练数据中代表性不足的反直觉或少数派观点问题时,也表现挣扎。
| 模型 | TruthfulQA MC1 得分 | TruthfulQA MC2 得分 | 训练数据多样性指数* |
|---|---|---|---|
| GPT-4 | 82.1% | 59.3% | 0.67 |
| Claude 3 Opus | 84.2% | 61.8% | 0.71 |
| Llama 3 70B | 76.5% | 54.2% | 0.62 |
| Gemini Ultra | 80.3% | 57.9% | 0.65 |
*多样性指数:对训练语料中观点多样性的估计度量(0-1标度,越高代表越多样)
数据启示:即使是顶级模型在处理反叙事问题的真实性上(MC2)也存在显著差距,且其表现与估计的训练数据多样性相关。这表明共识强化是一种系统性属性,而非特定实现中的缺陷。
一些开源项目正在从不同角度应对此问题。Hugging Face研究人员的Diversity-Aware Language Model在微调阶段引入了明确的多样性目标。斯坦福NLP的Counterfactual Augmented Training仓库展示了如何通过增加反事实样本来减少偏见放大。然而,这些方法目前仍属小众,尚未成为主流实践。
关键参与者与案例研究
各大AI公司正以不同策略应对共识问题,这通常反映了它们对AI在知识生产中角色的根本理念。
Anthropic对此类担忧最为明确,其嵌入了优先考虑无害性和有益性的‘宪法’原则。他们的Claude模型经过广泛的红队测试以识别潜在的偏见放大。然而,这种对安全性的高度关注,可能因回避那些被视为有风险的、有争议的或非传统的观点,而无意中强化了共识。
OpenAI的方法强调能力与规模,GPT-4代表了广泛知识综合的顶峰。该公司与Axios在政策分析工具上的合作,既展示了前景也揭示了风险:虽然这些工具能处理海量立法文件,但早期测试表明,它们始终倾向于中间派、有充分文献记载的政策立场,而非激进或新兴的替代方案。
Meta的开源Llama模型呈现出不同的动态。通过公开权重,它们使得研究人员能够直接研究和修改共识机制。Llama Guard微调专门针对有害内容,但与商业模型类似,它也难以区分‘有害’论述与‘仅仅是非传统’的论述。
| 公司 | 主要缓解策略 | 权衡取舍 | 实例体现 |
|---|---|---|---|
| Anthropic | Constitutional AI 原则 | 可能过度修正而趋向共识 | Claude对争议话题的拒绝回答模式 |
| OpenAI | 规模 + RLHF 优化 | 优化主流评分者定义的‘有帮助性’ | GPT-4倾向于平衡、常规的摘要 |
| Google/DeepMind | 思维链推理 | 揭示推理过程,但仍在训练模式内 | Gemini遵循学术规范的结构化解释 |
| Meta | 开放权重 + 社区微调 | 允许修正但需要专业技术 | 无防护措施时Llama易受共识强化影响 |
数据启示:每个主要参与者的技术方法都创造了独特的共识强化模式,以安全为重点的策略