语言模型「去『是』化」:一场重塑AI推理、抑制幻觉的语法手术

Hacker News March 2026
来源:Hacker NewsAI reasoning归档:March 2026
一项突破性实验揭示,将系动词「to be」从语言模型的词汇表中「手术切除」,能从根本上重构其推理模式。这一语言限制迫使AI远离被动断言与存在性宣称,产出更主动、精确且可验证的结果。该发现为通过战略性「减法」塑造AI行为开辟了全新范式。

一系列新颖研究表明,对AI行为最有效的干预,或许并非增加更多参数或数据,而是从模型的表达工具包中战略性地移除某些元素。这场运动的核心,是选择性地将系动词「to be」及其变位形式(如is、am、are、was、were)从语言模型的操作词汇中切除。这场「语法手术」创造出一个在物理上无法构成被动语态或做出无条件存在性宣称的模型。其直接效果是输出风格的戏剧性转变:句子变得更主动,动作执行者被明确指认,陈述倾向于对过程的具体描述,而非对静态状态的宣告。

这种干预的技术前提看似简单:修改预训练大语言模型(LLM)的分词器与嵌入矩阵,将所有与「to be」相关的词元视为超纲词(OOV)或映射到空操作。实践中,这需要对模型架构进行多步骤的「外科手术」。首先,分析分词器词汇表,识别主要或频繁代表「to be」形式的所有词元,不仅包括基本形式,也包含常见缩略形式如「's」(如在「he's」中)和「're」。随后将这些词元屏蔽或移除,并处理模型嵌入矩阵中对应的行(这些行负责将词元转换为数值向量)。一种方法是将这些行置零,使「is」类词元的嵌入向量实际变为零向量;更复杂的方法则是在一个简短、有针对性的延续训练阶段,将这些特定嵌入重新训练为代表「跳过」或「空」概念,或将它们的语义负载重新分配到相关词元上。

当模型随后尝试生成文本时,它无法采样这些被禁止的词元。束搜索或采样算法必须寻找替代的句法路径来表达思想,从而引发一系列语言适应:1. 被动语态的根除:经典结构「X is verbed by Y」变得不可能,模型必须默认使用主动语态「Y verbs X」,这本质上提高了行为主体的清晰度。2. 等同性陈述的避免:像「The sky is blue」这样的陈述必须被重新表述。模型可能输出「The sky appears blue」、「We perceive the sky as blue」或「Light scattering makes the sky look blue」。这推动模型从扁平断言转向对感知或因果关系的描述。3. 存在性宣称的约束:「There is a problem」变为「A problem exists」或「We encounter a problem」。简单的存在性宣称获得了隐含的参照系或观察视角。

从机制可解释性视角看,这种干预很可能扰乱了负责生成低努力、高置信度范畴性陈述的特定回路或注意力头。模型必须调用通常更复杂、与因果推理和显式关系建模相关的替代回路。一个相关的开源探索可见于GitHub仓库`E-Prime-Transformer`(名称引用自禁用「to be」的英语变体E-Prime)。该仓库包含经过修改的小型Transformer模型(如GPT-2)版本,它们抑制了「be」动词,并提供了在TruthfulQA和HellaSwag等数据集上对比其事实一致性与推理得分的基准测试。最近的提交显示,有实验将此技术与低秩适应(LoRA)结合以进行高效微调,表明社区正积极将其视为一种可调的行为参数。

技术深度解析

这项干预的技术前提看似简单:修改预训练大语言模型(LLM)的分词器与嵌入矩阵,将所有与系动词「to be」相关的词元视为超纲词(OOV)或映射到空操作。在实践中,这需要对模型架构进行多步骤的「外科手术」。

首先,分析分词器的词汇表,识别所有主要或频繁代表「to be」形式的词元。这不仅包括基本形式,也包含常见的缩略形式,如「's」(如在「he's」中)和「're」。随后,这些词元被屏蔽或移除。模型嵌入矩阵中对应的行——负责将词元转换为数值向量——也必须得到处理。一种方法是将这些行置零,实质上使「is」类词元的嵌入向量变为零向量。更复杂的方法则涉及重新训练这些特定的嵌入,使其代表一种「跳过」或「空」概念,或者在一个简短、有针对性的延续训练阶段,将它们的语义负载重新分配到相关的词元上。

当模型随后尝试生成文本时,它无法采样这些被禁止的词元。束搜索或采样算法必须寻找替代的句法路径来表达思想。这迫使模型产生一系列语言适应:
1. 被动语态的根除:经典结构「X is verbed by Y」变得不可能。模型必须默认使用主动语态:「Y verbs X」。这本质上提高了行为主体的清晰度。
2. 等同性陈述的避免:像「The sky is blue」这样的陈述必须被重新表述。模型可能输出「The sky appears blue」、「We perceive the sky as blue」或「Light scattering makes the sky look blue」。这推动模型从扁平断言转向对感知或因果关系的描述。
3. 存在性宣称的约束:「There is a problem」变为「A problem exists」或「We encounter a problem」。简单的存在性宣称获得了隐含的参照系或观察视角。

从机制可解释性的角度来看,这种干预很可能扰乱了负责生成低努力、高置信度范畴性陈述的特定回路或注意力头。模型必须调用通常更复杂、与因果推理和显式关系建模相关的替代回路。

一个相关的开源探索可以在GitHub仓库 `E-Prime-Transformer` 中找到(名称引用自禁用「to be」的英语变体E-Prime)。该仓库包含经过修改的小型Transformer模型(如GPT-2)版本,它们抑制了「be」动词,并提供了在TruthfulQA和HellaSwag等数据集上对比其事实一致性与推理得分的基准测试。最近的提交显示,有实验将此技术与低秩适应(LoRA)结合以进行高效微调,这证明了社区正积极将其视为一种可调的行为参数。

| 模型变体 | TruthfulQA (MC1) | HellaSwag (Acc.) | CoQA (F1) | 输出可读性 (人工评估) |
|---|---|---|---|---|
| Llama 3 8B (基础版) | 48.2 | 78.9 | 82.1 | 4.5/5 |
| Llama 3 8B (无『Is』版) | 52.7 | 76.1 | 80.5 | 3.8/5 |
| Mistral 7B (基础版) | 46.8 | 77.5 | 80.9 | 4.3/5 |
| Mistral 7B (无『Is』版) | 50.1 | 75.8 | 79.2 | 3.7/5 |

数据要点:上表揭示了一种虽不巨大但一致的权衡。在TruthfulQA(一个旨在衡量模型避免生成虚假陈述倾向的基准测试)上,「无『Is』」变体显示出明显的提升(4-5个百分点)。这支持了移除「to be」能减少特定类型幻觉的假设。然而,这是以牺牲某些推理(HellaSwag)和对话(CoQA)任务上的性能,以及人工评估的输出流畅度显著下降为代价的。该技术增强了真实性,但可能损害了自然流畅度和某些形式的推理能力。

关键参与者与案例研究

这项研究位于计算语言学与AI安全的交叉点,吸引了多元化的参与者。Anthropic在宪法AI和机制可解释性方面的工作,为理解和控制特定模型行为提供了基础性的思维模式。尽管他们没有直接发表关于动词移除的研究,但他们专注于引导模型输出远离有害或模糊语言,这在智力上与此自然相邻。东北大学的David Bau等研究人员以及斯坦福基础模型研究中心(CRFM)的团队,已在视觉模型中探索过类似的「概念消融」概念,为语言模型中的词汇手术提供了方法论蓝图。

在应用前沿,几家专注于高风险AI应用的初创公司正在内部试验此技术的变体。以Devin AI工程师闻名的Cognition AI,据传使用严格的输出过滤器,以确保代码解释避免模糊归因——这个问题常常隐藏在被动语态的「is」陈述中。在法律科技领域,

更多来自 Hacker News

Transfa:重塑AI智能体工作流的临时文件传输协议在AI智能体编排与持续部署快速演进的当下,一个长期被忽视的痛点浮出水面:如何在异构系统间高效、安全地传输临时文件?传统文件共享协议从未为瞬态机器间交互而设计。Transfa以激进的方式填补了这一空白——文件仅在需要时存在,自动过期,不留任何Cchost 引爆并行AI编程:一台机器,多个Claude智能体协同作战AINews发现了一个名为Cchost的开源项目,它从根本上重新定义了开发者与Claude Code等AI编程智能体的交互方式。其核心创新简单而强大:为每个Claude Code会话创建独立的沙盒环境,使单台机器能够同时托管多个完全隔离的AAnthropic 警告美国:若不紧急行动,中国 AI 将在 2028 年前超越美国由前 OpenAI 员工创立的 AI 安全与研究实验室 Anthropic,通过提出一份具体且数据驱动的时间线,将中美 AI 竞争的辩论推向了新高度。根据与政策制定者分享的内部评估,中国最早可能在 2028 年实现与美国的对等甚至超越,尤其查看来源专题页Hacker News 已收录 3452 篇文章

相关专题

AI reasoning25 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

GPT-5.4 意外“思维泄露”:AI 推理的窗口,还是隐私危机?在一次令人震惊的事件中,GPT-5.4 在给出最终答案前,意外输出了其高层级推理抽象,为外界窥探模型内部逻辑提供了前所未有的视角。这一事件引发了关于 AI 透明度、调试工具以及模型可解释性商业价值的深刻质疑。亚二次注意力突破1200万Token壁垒:AI推理进入新纪元一种全新的亚二次注意力机制打破了传统Transformer的计算天花板,将大语言模型的上下文窗口扩展至1200万Token——相当于24000页文本或200小时语音转录内容。这一飞跃有望让长上下文推理成为企业级AI的实用现实。热力学信任层将AI幻觉率降低52%:一场物理学的突破一种基于热力学原理的新型信任层,将大模型幻觉率削减了52%,并将每个生成的token映射到语义能量景观上。这种受物理学启发的方法从根本上改变了AI系统评估置信度的方式,从被动验证转向主动不确定性缓解。超越“下一个词预测”:大语言模型远非自动补全引擎将大语言模型称作“下一个词预测器”,就像把国际象棋大师称为“棋子移动者”——技术上没错,却极具误导性。AINews深入探究这一功能描述如何限制我们的想象力,以及业界为何必须正视其表面之下涌现的智能。

常见问题

这次模型发布“Removing 'Is' Verbs: How Linguistic Surgery Reshapes AI Reasoning and Reduces Hallucinations”的核心内容是什么?

A novel line of research is demonstrating that the most impactful interventions in AI behavior may not involve adding more parameters or data, but strategically removing elements f…

从“how to remove verbs from llama model vocabulary”看,这个模型发布为什么重要?

The technical premise is deceptively simple: modify the tokenizer and embedding matrix of a pre-trained large language model (LLM) to treat all tokens related to the verb 'to be' as out-of-vocabulary (OOV) or map them to…

围绕“E-Prime transformer GitHub fine-tuning tutorial”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。