技术深度解析
这项干预的技术前提看似简单:修改预训练大语言模型(LLM)的分词器与嵌入矩阵,将所有与系动词「to be」相关的词元视为超纲词(OOV)或映射到空操作。在实践中,这需要对模型架构进行多步骤的「外科手术」。
首先,分析分词器的词汇表,识别所有主要或频繁代表「to be」形式的词元。这不仅包括基本形式,也包含常见的缩略形式,如「's」(如在「he's」中)和「're」。随后,这些词元被屏蔽或移除。模型嵌入矩阵中对应的行——负责将词元转换为数值向量——也必须得到处理。一种方法是将这些行置零,实质上使「is」类词元的嵌入向量变为零向量。更复杂的方法则涉及重新训练这些特定的嵌入,使其代表一种「跳过」或「空」概念,或者在一个简短、有针对性的延续训练阶段,将它们的语义负载重新分配到相关的词元上。
当模型随后尝试生成文本时,它无法采样这些被禁止的词元。束搜索或采样算法必须寻找替代的句法路径来表达思想。这迫使模型产生一系列语言适应:
1. 被动语态的根除:经典结构「X is verbed by Y」变得不可能。模型必须默认使用主动语态:「Y verbs X」。这本质上提高了行为主体的清晰度。
2. 等同性陈述的避免:像「The sky is blue」这样的陈述必须被重新表述。模型可能输出「The sky appears blue」、「We perceive the sky as blue」或「Light scattering makes the sky look blue」。这推动模型从扁平断言转向对感知或因果关系的描述。
3. 存在性宣称的约束:「There is a problem」变为「A problem exists」或「We encounter a problem」。简单的存在性宣称获得了隐含的参照系或观察视角。
从机制可解释性的角度来看,这种干预很可能扰乱了负责生成低努力、高置信度范畴性陈述的特定回路或注意力头。模型必须调用通常更复杂、与因果推理和显式关系建模相关的替代回路。
一个相关的开源探索可以在GitHub仓库 `E-Prime-Transformer` 中找到(名称引用自禁用「to be」的英语变体E-Prime)。该仓库包含经过修改的小型Transformer模型(如GPT-2)版本,它们抑制了「be」动词,并提供了在TruthfulQA和HellaSwag等数据集上对比其事实一致性与推理得分的基准测试。最近的提交显示,有实验将此技术与低秩适应(LoRA)结合以进行高效微调,这证明了社区正积极将其视为一种可调的行为参数。
| 模型变体 | TruthfulQA (MC1) | HellaSwag (Acc.) | CoQA (F1) | 输出可读性 (人工评估) |
|---|---|---|---|---|
| Llama 3 8B (基础版) | 48.2 | 78.9 | 82.1 | 4.5/5 |
| Llama 3 8B (无『Is』版) | 52.7 | 76.1 | 80.5 | 3.8/5 |
| Mistral 7B (基础版) | 46.8 | 77.5 | 80.9 | 4.3/5 |
| Mistral 7B (无『Is』版) | 50.1 | 75.8 | 79.2 | 3.7/5 |
数据要点:上表揭示了一种虽不巨大但一致的权衡。在TruthfulQA(一个旨在衡量模型避免生成虚假陈述倾向的基准测试)上,「无『Is』」变体显示出明显的提升(4-5个百分点)。这支持了移除「to be」能减少特定类型幻觉的假设。然而,这是以牺牲某些推理(HellaSwag)和对话(CoQA)任务上的性能,以及人工评估的输出流畅度显著下降为代价的。该技术增强了真实性,但可能损害了自然流畅度和某些形式的推理能力。
关键参与者与案例研究
这项研究位于计算语言学与AI安全的交叉点,吸引了多元化的参与者。Anthropic在宪法AI和机制可解释性方面的工作,为理解和控制特定模型行为提供了基础性的思维模式。尽管他们没有直接发表关于动词移除的研究,但他们专注于引导模型输出远离有害或模糊语言,这在智力上与此自然相邻。东北大学的David Bau等研究人员以及斯坦福基础模型研究中心(CRFM)的团队,已在视觉模型中探索过类似的「概念消融」概念,为语言模型中的词汇手术提供了方法论蓝图。
在应用前沿,几家专注于高风险AI应用的初创公司正在内部试验此技术的变体。以Devin AI工程师闻名的Cognition AI,据传使用严格的输出过滤器,以确保代码解释避免模糊归因——这个问题常常隐藏在被动语态的「is」陈述中。在法律科技领域,