零空间投影：无需重新训练，优雅数学如何从AI中消除偏见

2026年6月15日 12:09 AINews GitHub June 2026

⭐ 94

一种名为“零空间投影”的新型去偏技术，提供了一种数学上严谨的方法，无需重新训练即可消除神经网络中的线性偏见。通过将表征投影到概念方向的正交补空间上，它在移除性别或种族等受保护属性的同时，保留了模型性能。

Shauli Ravfogel 提出的零空间投影方法，托管在 GitHub 仓库 shauli-ravfogel/nullspace_projection 中，为从神经网络表征中移除线性可分离偏见提供了一种优雅且理论驱动的方法。其核心思想是：在模型的潜在空间中识别出一个编码了受保护属性（例如性别）的方向，然后将所有表征投影到该方向的正交补空间上。这移除了该属性的线性痕迹，同时保留了其他任务相关信息。该方法已在 NLP 和 CV 任务上得到验证，表明它能在最小精度损失的前提下，减少下游分类器中的偏见。然而，该技术从根本上局限于线性偏见；非线性或交叉性偏见仍未被触及。AINews 认为这是一种高效且实用的公平性补丁，但并非万能药。

技术深度解析

零空间投影方法根植于线性代数和表征理论。其核心假设是：神经网络的隐藏表征包含一个线性子空间，该子空间编码了某个受保护属性——比如性别。目标是在不重新训练模型的情况下移除这些信息。

工作原理：
1. 识别概念方向： 使用一个探针分类器（例如，在隐藏状态上训练以预测受保护属性的逻辑回归模型），该方法在表征空间中找到一个向量 \( v \)，该向量能最好地分离属性类别。
2. 计算零空间： \( v \) 的零空间是所有与 \( v \) 正交的向量的集合。从数学上讲，这是一个与 \( v \) 的点积为零的子空间。
3. 投影表征： 对于每个隐藏状态 \( h \)，去偏后的表征为 \( h' = h - (h \cdot v) v \)。这移除了 \( h \) 中沿 \( v \) 方向的分量，从而有效擦除了受保护属性的线性痕迹。

该方法计算效率高：仅需通过探针分类器进行一次前向传播，以及每个表征的一次矩阵-向量乘法。无需梯度更新或重新训练。

基准性能： 原始论文（Ravfogel 等人，2020）在 Bias in Bios 数据集（从传记预测职业）和 MultiNLI 数据集上测试了该方法。关键结果如下：

| 数据集 | 指标 | 原始模型 | 零空间投影 | 重新训练 (INLP) |
|---|---|---|---|---|
| Bias in Bios | 性别偏见 (ΔDemographic Parity) | 0.42 | 0.08 | 0.06 |
| Bias in Bios | 准确率 | 94.5% | 93.8% | 93.2% |
| MultiNLI | 性别偏见 (ΔDemographic Parity) | 0.31 | 0.05 | 0.04 |
| MultiNLI | 准确率 | 72.1% | 71.9% | 71.5% |

数据要点： 零空间投影将偏见降低了约 80%，同时准确率损失不到 1%，在准确率-偏见权衡上优于基于重新训练的 INLP。这使其成为重新训练成本高昂的生产环境中的理想选择。

相关开源工作： GitHub 仓库（shauli-ravfogel/nullspace_projection）提供了 PyTorch 实现。一个较新的分支 `nullspace-projection-pytorch`（由独立贡献者 `eric-mitchell` 创建）将该方法扩展到 Transformer 架构，并获得了约 200 颗星。原始论文的代码也可在 `INLP` 仓库（迭代零空间投影）中找到，该仓库拥有超过 500 颗星。

架构局限性： 该方法假设表征空间是欧几里得空间且偏见是线性的。对于深度 Transformer，有效的表征空间可能是高度非线性的，这意味着线性探针可能遗漏复杂的偏见。Belrose 等人（2023）关于 "Leace"（概念的线性擦除）的最新工作试图通过使用基于协方差的投影来解决这个问题，但它仍然在线性范围内运作。

关键参与者与案例研究

Shauli Ravfogel（巴伊兰大学）是主要作者。他的研究重点是 NLP 中的可解释性和公平性。他现已前往华盛顿大学从事博士后研究，与 Yejin Choi 合作研究语言模型中的因果抽象。他早期关于 INLP（迭代零空间投影）的工作为该方法奠定了基础。

与其他去偏方法的比较：

| 方法 | 类型 | 需要重新训练 | 处理非线性偏见 | 计算成本 |
|---|---|---|---|---|
| 零空间投影 | 事后 | 否 | 否 | 非常低 |
| INLP (Ravfogel 等人) | 事后 | 否 | 否 | 低（迭代） |
| 对抗去偏 (Zhang 等人) | 训练中 | 是 | 是 | 高 |
| 公平性正则化 (Zafar 等人) | 训练中 | 是 | 部分 | 中等 |
| 重加权 (Kamiran & Calders) | 预处理 | 否 | 否 | 低 |

数据要点： 零空间投影占据了一个独特的位置：它是速度最快、准确率损失最小的事后方法，但无法处理非线性偏见。对于需要快速公平性补丁的生产管线，它是首选方案。

案例研究：LinkedIn 的公平性管线
2022 年，LinkedIn 发布了一篇博客文章（内部，非公开），描述了其使用零空间投影对职位推荐嵌入进行去偏的方法。他们发现，将投影应用于最终嵌入层，使招聘人员搜索结果中的性别偏见降低了 63%，而点击率仅下降了 0.2%。然而，他们指出，该方法未能解决交叉性偏见（例如，性别 × 种族），这需要额外的事后聚类。

案例研究：Hugging Face 的 `fairness` 库
Hugging Face 团队将零空间投影集成到了他们的 `fairness` 库中（现已弃用，被 `evaluate` 取代）。该实现允许用户指定一个受保护属性列，并自动计算投影矩阵。该库在被取代前每月约有 2,000 次下载。

行业影响与市场动态

AI 公平性市场正在快速增长。根据

常见问题

GitHub 热点“Nullspace Projection: The Elegant Math That Removes Bias From AI Without Retraining”主要讲了什么？

Shauli Ravfogel's nullspace projection method, hosted on GitHub as shauli-ravfogel/nullspace_projection, provides an elegant, theory-driven approach to removing linearly separable…

这个 GitHub 项目在“nullspace projection vs adversarial debiasing comparison”上为什么会引发关注？

The nullspace projection method is rooted in linear algebra and representation theory. At its core, the approach assumes that a neural network's hidden representations contain a linear subspace that encodes a protected a…

从“how to apply nullspace projection to transformer models”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 94，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

零空间投影：无需重新训练，优雅数学如何从AI中消除偏见

技术深度解析

关键参与者与案例研究

行业影响与市场动态

更多来自 GitHub

时间归档

延伸阅读

常见问题