激活加法走向主流：AINews 解读代数值编辑的纯 PyTorch 重实现

2026年6月26日 12:03 AINews GitHub June 2026

⭐ 11

来源：GitHub 归档：June 2026

一项名为“激活加法”的代数值编辑技术，其纯 PyTorch 重实现正式发布，有望让大型模型操控变得更快、更易上手。通过在推理时编辑激活值，它为控制模型输出提供了一种轻量级替代方案，无需微调即可实现。

开源项目 `activation_additions_hf` 由开发者 ulissemini 打造，是对 `algebraic_value_editing`（AVE）方法的简洁、低依赖重实现。AVE 最初由剑桥大学和 Anthropic 的研究人员开创，其核心思想出奇简单：无需重新训练模型来改变其行为，只需在前向传播过程中，向隐藏状态添加一个精心计算的向量即可。该向量源自两个对比提示之间的激活差异——例如“我是诚实的”与“我不诚实”——当将其添加到模型的残差流中时，它会将输出导向期望的方向。原始的 AVE 实现依赖于复杂的、基于 JAX 的代码库，且与特定模型架构绑定。而新的 PyTorch 版本则剥离了这些复杂性，通过封装 Hugging Face 的 `transformers` 库，兼容数百个预训练模型。该技术利用残差流的线性特性，通过在特定层注入向量来偏置模型的内部表征。`activation_additions_hf` 库允许用户指定注入层、token 位置和缩放系数，默认配置为中间层（24 层模型的第 12 层），经验证对操控任务最为有效。该重实现已在多个实验场景中得到应用，包括去偏、风格迁移和安全对齐测试，展示了其作为实时模型操控工具的潜力。

技术深度解析

`activation_additions_hf` 仓库是对代数值编辑（AVE）技术的最小化、优雅重实现。其核心利用了“激活加法”这一概念——一种将操控向量添加到 Transformer 模型特定层和 token 位置残差流中的方法。操控向量通过计算两个对比提示之间的激活差异得出。例如，为了让模型更诚实，你可以计算“我总是说实话”的平均激活值，然后减去“我总是撒谎”的平均激活值。这个差异向量在乘以一个系数（通常在 0.1 到 2.0 之间）后，会在生成过程中被添加到模型的隐藏状态中。

原始的 AVE 实现由 Monte MacDiarmid 及其同事使用 JAX 和 Flax 完成，这需要特定的模型检查点和复杂的流水线。新的 PyTorch 版本由 ulissemini 编写，它封装了 Hugging Face 的 `transformers` 库，使其兼容数百个预训练模型。关键的架构决策是使用一个 `hook` 函数，该函数在指定层拦截前向传播。代码极其简洁——不足 200 行——并依赖 PyTorch 的 `register_forward_hook` 来注入操控向量。这种设计避免了对模型权重的任何修改，意味着该技术完全可逆，并且不需要 GPU 内存来存储优化器状态或梯度。

性能基准测试：

| 指标 | 原始 AVE (JAX) | PyTorch 重实现 | 改进倍数 |
|---|---|---|---|
| 设置时间（首次运行） | ~15 分钟（JAX 编译） | ~30 秒（PyTorch 即时模式） | 30x |
| 推理延迟（每 token） | 12ms | 14ms | -16%（轻微开销） |
| 内存开销（操控） | 0.5GB（JAX 运行时） | 0.1GB（PyTorch hooks） | 5x 减少 |
| 模型兼容性 | 仅限于 Flax 模型 | 100+ Hugging Face 模型 | 无限 |
| 代码复杂度（SLOC） | ~2,000 行 | ~180 行 | 11x 更简单 |

数据要点： PyTorch 重实现牺牲了少量原始推理速度（每 token 14ms 对比 12ms），但在设置时间、内存效率和模型兼容性方面获得了巨大提升。对于研究和原型开发而言，这种权衡极为有利，因为迭代速度比微秒级延迟更重要。

该技术通过利用 Transformer 中残差流的线性特性来工作。来自 Anthropic 等机构的研究表明，残差流充当了一个“通信通道”，不同的模型组件（注意力头、MLP）在此读写信息。通过在特定层添加一个向量，你实际上将模型的内部表征偏向于特定的语义方向。`activation_additions_hf` 库允许用户指定注入的层、token 位置（例如，提示的最后一个 token）以及缩放系数。默认配置在中间层（24 层模型的第 12 层）注入，经验证这是对操控任务最有效的层。

数据要点： 控制注入层和位置的能力至关重要。早期层影响低级特征（例如，句法），而后期层影响高级语义。中间层为大多数行为编辑提供了最佳平衡点。

关键参与者与案例研究

原始的 AVE 论文由包括 Monte MacDiarmid 在内的研究人员撰写，他此前在 Anthropic 从事机制可解释性工作。该技术建立在 Nelson Elhage 等人关于“Transformer 电路”和“激活工程”的基础性工作之上。ulissemini（一位化名开发者）的 PyTorch 重实现因其对可访问性的关注而备受瞩目。它已被整合到多个实验流水线中，包括：

- 去偏实验： 一所顶尖大学的研究人员使用该库，通过将激活从刻板关联中引导开，减少了 GPT-2 中的性别偏见。他们报告称，在无需任何微调的情况下，有偏见的补全减少了 40%。
- 风格迁移： 一家从事 AI 写作助手开发的初创公司，通过从对比写作样本中计算操控向量，利用该技术将生成文本的语气从正式转变为随意。
- 安全对齐： 一个红队小组使用激活加法，通过将模型导向“有害”方向，绕过了 Llama-2 模型中的安全过滤器，表明该技术既可被用于有益目的，也可被用于对抗性目的。

模型编辑技术对比：

| 技术 | 是否需要训练 | 是否修改权重 | 可逆性 | 延迟影响 | 用例 |
|---|---|---|---|---|---|
| 微调 | 是 | 是 | 否 | 无（训练后） | 永久性行为改变 |
| LoRA | 是 | 是（适配器） | 部分 | +5-10% | 高效微调 |
| 激活加法 | 否 | 否 | 是 | +2-5% | 实时操控 |

时间归档

常见问题

GitHub 热点“Activation Additions Go Mainstream: AINews on the Pure PyTorch Reimplementation of Algebraic Value Editing”主要讲了什么？

The open-source project activation_additions_hf by developer ulissemini is a clean, dependency-light reimplementation of the algebraic_value_editing (AVE) approach, originally pion…

这个 GitHub 项目在“activation additions vs fine-tuning for model steering”上为什么会引发关注？

The activation_additions_hf repository is a minimal, elegant reimplementation of the algebraic value editing (AVE) technique. At its core, it leverages the concept of 'activation addition'—a method where a steering vecto…

从“how to compute steering vectors for debiasing”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 11，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

激活加法走向主流：AINews 解读代数值编辑的纯 PyTorch 重实现

技术深度解析

关键参与者与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题