语言模型「去『是』化」:一场重塑AI推理、抑制幻觉的语法手术

一系列新颖研究表明,对AI行为最有效的干预,或许并非增加更多参数或数据,而是从模型的表达工具包中战略性地移除某些元素。这场运动的核心,是选择性地将系动词「to be」及其变位形式(如is、am、are、was、were)从语言模型的操作词汇中切除。这场「语法手术」创造出一个在物理上无法构成被动语态或做出无条件存在性宣称的模型。其直接效果是输出风格的戏剧性转变:句子变得更主动,动作执行者被明确指认,陈述倾向于对过程的具体描述,而非对静态状态的宣告。

这种干预的技术前提看似简单:修改预训练大语言模型(LLM)的分词器与嵌入矩阵,将所有与「to be」相关的词元视为超纲词(OOV)或映射到空操作。实践中,这需要对模型架构进行多步骤的「外科手术」。首先,分析分词器词汇表,识别主要或频繁代表「to be」形式的所有词元,不仅包括基本形式,也包含常见缩略形式如「's」(如在「he's」中)和「're」。随后将这些词元屏蔽或移除,并处理模型嵌入矩阵中对应的行(这些行负责将词元转换为数值向量)。一种方法是将这些行置零,使「is」类词元的嵌入向量实际变为零向量;更复杂的方法则是在一个简短、有针对性的延续训练阶段,将这些特定嵌入重新训练为代表「跳过」或「空」概念,或将它们的语义负载重新分配到相关词元上。

当模型随后尝试生成文本时,它无法采样这些被禁止的词元。束搜索或采样算法必须寻找替代的句法路径来表达思想,从而引发一系列语言适应:1. 被动语态的根除:经典结构「X is verbed by Y」变得不可能,模型必须默认使用主动语态「Y verbs X」,这本质上提高了行为主体的清晰度。2. 等同性陈述的避免:像「The sky is blue」这样的陈述必须被重新表述。模型可能输出「The sky appears blue」、「We perceive the sky as blue」或「Light scattering makes the sky look blue」。这推动模型从扁平断言转向对感知或因果关系的描述。3. 存在性宣称的约束:「There is a problem」变为「A problem exists」或「We encounter a problem」。简单的存在性宣称获得了隐含的参照系或观察视角。

从机制可解释性视角看,这种干预很可能扰乱了负责生成低努力、高置信度范畴性陈述的特定回路或注意力头。模型必须调用通常更复杂、与因果推理和显式关系建模相关的替代回路。一个相关的开源探索可见于GitHub仓库`E-Prime-Transformer`(名称引用自禁用「to be」的英语变体E-Prime)。该仓库包含经过修改的小型Transformer模型(如GPT-2)版本,它们抑制了「be」动词,并提供了在TruthfulQA和HellaSwag等数据集上对比其事实一致性与推理得分的基准测试。最近的提交显示,有实验将此技术与低秩适应(LoRA)结合以进行高效微调,表明社区正积极将其视为一种可调的行为参数。

技术深度解析

这项干预的技术前提看似简单:修改预训练大语言模型(LLM)的分词器与嵌入矩阵,将所有与系动词「to be」相关的词元视为超纲词(OOV)或映射到空操作。在实践中,这需要对模型架构进行多步骤的「外科手术」。

首先,分析分词器的词汇表,识别所有主要或频繁代表「to be」形式的词元。这不仅包括基本形式,也包含常见的缩略形式,如「's」(如在「he's」中)和「're」。随后,这些词元被屏蔽或移除。模型嵌入矩阵中对应的行——负责将词元转换为数值向量——也必须得到处理。一种方法是将这些行置零,实质上使「is」类词元的嵌入向量变为零向量。更复杂的方法则涉及重新训练这些特定的嵌入,使其代表一种「跳过」或「空」概念,或者在一个简短、有针对性的延续训练阶段,将它们的语义负载重新分配到相关的词元上。

当模型随后尝试生成文本时,它无法采样这些被禁止的词元。束搜索或采样算法必须寻找替代的句法路径来表达思想。这迫使模型产生一系列语言适应:
1. 被动语态的根除:经典结构「X is verbed by Y」变得不可能。模型必须默认使用主动语态:「Y verbs X」。这本质上提高了行为主体的清晰度。
2. 等同性陈述的避免:像「The sky is blue」这样的陈述必须被重新表述。模型可能输出「The sky appears blue」、「We perceive the sky as blue」或「Light scattering makes the sky look blue」。这推动模型从扁平断言转向对感知或因果关系的描述。
3. 存在性宣称的约束:「There is a problem」变为「A problem exists」或「We encounter a problem」。简单的存在性宣称获得了隐含的参照系或观察视角。

从机制可解释性的角度来看,这种干预很可能扰乱了负责生成低努力、高置信度范畴性陈述的特定回路或注意力头。模型必须调用通常更复杂、与因果推理和显式关系建模相关的替代回路。

一个相关的开源探索可以在GitHub仓库 `E-Prime-Transformer` 中找到(名称引用自禁用「to be」的英语变体E-Prime)。该仓库包含经过修改的小型Transformer模型(如GPT-2)版本,它们抑制了「be」动词,并提供了在TruthfulQA和HellaSwag等数据集上对比其事实一致性与推理得分的基准测试。最近的提交显示,有实验将此技术与低秩适应(LoRA)结合以进行高效微调,这证明了社区正积极将其视为一种可调的行为参数。

| 模型变体 | TruthfulQA (MC1) | HellaSwag (Acc.) | CoQA (F1) | 输出可读性 (人工评估) |
|---|---|---|---|---|
| Llama 3 8B (基础版) | 48.2 | 78.9 | 82.1 | 4.5/5 |
| Llama 3 8B (无『Is』版) | 52.7 | 76.1 | 80.5 | 3.8/5 |
| Mistral 7B (基础版) | 46.8 | 77.5 | 80.9 | 4.3/5 |
| Mistral 7B (无『Is』版) | 50.1 | 75.8 | 79.2 | 3.7/5 |

数据要点:上表揭示了一种虽不巨大但一致的权衡。在TruthfulQA(一个旨在衡量模型避免生成虚假陈述倾向的基准测试)上,「无『Is』」变体显示出明显的提升(4-5个百分点)。这支持了移除「to be」能减少特定类型幻觉的假设。然而,这是以牺牲某些推理(HellaSwag)和对话(CoQA)任务上的性能,以及人工评估的输出流畅度显著下降为代价的。该技术增强了真实性,但可能损害了自然流畅度和某些形式的推理能力。

关键参与者与案例研究

这项研究位于计算语言学与AI安全的交叉点,吸引了多元化的参与者。Anthropic在宪法AI和机制可解释性方面的工作,为理解和控制特定模型行为提供了基础性的思维模式。尽管他们没有直接发表关于动词移除的研究,但他们专注于引导模型输出远离有害或模糊语言,这在智力上与此自然相邻。东北大学的David Bau等研究人员以及斯坦福基础模型研究中心(CRFM)的团队,已在视觉模型中探索过类似的「概念消融」概念,为语言模型中的词汇手术提供了方法论蓝图。

在应用前沿,几家专注于高风险AI应用的初创公司正在内部试验此技术的变体。以Devin AI工程师闻名的Cognition AI,据传使用严格的输出过滤器,以确保代码解释避免模糊归因——这个问题常常隐藏在被动语态的「is」陈述中。在法律科技领域,

常见问题

这次模型发布“Removing 'Is' Verbs: How Linguistic Surgery Reshapes AI Reasoning and Reduces Hallucinations”的核心内容是什么?

A novel line of research is demonstrating that the most impactful interventions in AI behavior may not involve adding more parameters or data, but strategically removing elements f…

从“how to remove verbs from llama model vocabulary”看,这个模型发布为什么重要?

The technical premise is deceptively simple: modify the tokenizer and embedding matrix of a pre-trained large language model (LLM) to treat all tokens related to the verb 'to be' as out-of-vocabulary (OOV) or map them to…

围绕“E-Prime transformer GitHub fine-tuning tutorial”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。