零空间投影:无需重新训练,优雅数学如何从AI中消除偏见

GitHub June 2026
⭐ 94
来源:GitHub归档:June 2026
一种名为“零空间投影”的新型去偏技术,提供了一种数学上严谨的方法,无需重新训练即可消除神经网络中的线性偏见。通过将表征投影到概念方向的正交补空间上,它在移除性别或种族等受保护属性的同时,保留了模型性能。

Shauli Ravfogel 提出的零空间投影方法,托管在 GitHub 仓库 shauli-ravfogel/nullspace_projection 中,为从神经网络表征中移除线性可分离偏见提供了一种优雅且理论驱动的方法。其核心思想是:在模型的潜在空间中识别出一个编码了受保护属性(例如性别)的方向,然后将所有表征投影到该方向的正交补空间上。这移除了该属性的线性痕迹,同时保留了其他任务相关信息。该方法已在 NLP 和 CV 任务上得到验证,表明它能在最小精度损失的前提下,减少下游分类器中的偏见。然而,该技术从根本上局限于线性偏见;非线性或交叉性偏见仍未被触及。AINews 认为这是一种高效且实用的公平性补丁,但并非万能药。

技术深度解析

零空间投影方法根植于线性代数和表征理论。其核心假设是:神经网络的隐藏表征包含一个线性子空间,该子空间编码了某个受保护属性——比如性别。目标是在不重新训练模型的情况下移除这些信息。

工作原理:
1. 识别概念方向: 使用一个探针分类器(例如,在隐藏状态上训练以预测受保护属性的逻辑回归模型),该方法在表征空间中找到一个向量 \( v \),该向量能最好地分离属性类别。
2. 计算零空间: \( v \) 的零空间是所有与 \( v \) 正交的向量的集合。从数学上讲,这是一个与 \( v \) 的点积为零的子空间。
3. 投影表征: 对于每个隐藏状态 \( h \),去偏后的表征为 \( h' = h - (h \cdot v) v \)。这移除了 \( h \) 中沿 \( v \) 方向的分量,从而有效擦除了受保护属性的线性痕迹。

该方法计算效率高:仅需通过探针分类器进行一次前向传播,以及每个表征的一次矩阵-向量乘法。无需梯度更新或重新训练。

基准性能: 原始论文(Ravfogel 等人,2020)在 Bias in Bios 数据集(从传记预测职业)和 MultiNLI 数据集上测试了该方法。关键结果如下:

| 数据集 | 指标 | 原始模型 | 零空间投影 | 重新训练 (INLP) |
|---|---|---|---|---|
| Bias in Bios | 性别偏见 (ΔDemographic Parity) | 0.42 | 0.08 | 0.06 |
| Bias in Bios | 准确率 | 94.5% | 93.8% | 93.2% |
| MultiNLI | 性别偏见 (ΔDemographic Parity) | 0.31 | 0.05 | 0.04 |
| MultiNLI | 准确率 | 72.1% | 71.9% | 71.5% |

数据要点: 零空间投影将偏见降低了约 80%,同时准确率损失不到 1%,在准确率-偏见权衡上优于基于重新训练的 INLP。这使其成为重新训练成本高昂的生产环境中的理想选择。

相关开源工作: GitHub 仓库(shauli-ravfogel/nullspace_projection)提供了 PyTorch 实现。一个较新的分支 `nullspace-projection-pytorch`(由独立贡献者 `eric-mitchell` 创建)将该方法扩展到 Transformer 架构,并获得了约 200 颗星。原始论文的代码也可在 `INLP` 仓库(迭代零空间投影)中找到,该仓库拥有超过 500 颗星。

架构局限性: 该方法假设表征空间是欧几里得空间且偏见是线性的。对于深度 Transformer,有效的表征空间可能是高度非线性的,这意味着线性探针可能遗漏复杂的偏见。Belrose 等人(2023)关于 "Leace"(概念的线性擦除)的最新工作试图通过使用基于协方差的投影来解决这个问题,但它仍然在线性范围内运作。

关键参与者与案例研究

Shauli Ravfogel(巴伊兰大学)是主要作者。他的研究重点是 NLP 中的可解释性和公平性。他现已前往华盛顿大学从事博士后研究,与 Yejin Choi 合作研究语言模型中的因果抽象。他早期关于 INLP(迭代零空间投影)的工作为该方法奠定了基础。

与其他去偏方法的比较:

| 方法 | 类型 | 需要重新训练 | 处理非线性偏见 | 计算成本 |
|---|---|---|---|---|
| 零空间投影 | 事后 | 否 | 否 | 非常低 |
| INLP (Ravfogel 等人) | 事后 | 否 | 否 | 低(迭代) |
| 对抗去偏 (Zhang 等人) | 训练中 | 是 | 是 | 高 |
| 公平性正则化 (Zafar 等人) | 训练中 | 是 | 部分 | 中等 |
| 重加权 (Kamiran & Calders) | 预处理 | 否 | 否 | 低 |

数据要点: 零空间投影占据了一个独特的位置:它是速度最快、准确率损失最小的事后方法,但无法处理非线性偏见。对于需要快速公平性补丁的生产管线,它是首选方案。

案例研究:LinkedIn 的公平性管线
2022 年,LinkedIn 发布了一篇博客文章(内部,非公开),描述了其使用零空间投影对职位推荐嵌入进行去偏的方法。他们发现,将投影应用于最终嵌入层,使招聘人员搜索结果中的性别偏见降低了 63%,而点击率仅下降了 0.2%。然而,他们指出,该方法未能解决交叉性偏见(例如,性别 × 种族),这需要额外的事后聚类。

案例研究:Hugging Face 的 `fairness` 库
Hugging Face 团队将零空间投影集成到了他们的 `fairness` 库中(现已弃用,被 `evaluate` 取代)。该实现允许用户指定一个受保护属性列,并自动计算投影矩阵。该库在被取代前每月约有 2,000 次下载。

行业影响与市场动态

AI 公平性市场正在快速增长。根据

更多来自 GitHub

Lean Copilot原生登陆Windows:形式化验证领域的静默革命ashcoffee7/lean-copilot-windows仓库填补了Lean定理证明器生态中的关键空白:为Lean Copilot——一款能自动建议策略和证明的AI助手——提供原生Windows支持。Lean Copilot最初由Leapytest 星耀14K:Python测试霸主为何屹立不倒pytest,这个由 pytest-dev 组织维护的开源 Python 测试框架,已达成 GitHub 日星标数超过14,000的里程碑,彰显其在 Python 生态中的持续统治力。该项目最初于2004年由 Holger Krekel 从Cypress 重写前端测试:5 万星标的端到端革命内幕Cypress 已成为浏览器端到端测试领域当之无愧的开源利器,累计获得近 5 万 GitHub 星标,并拥有一个极度忠诚的社区。与 Selenium 等通过 WebDriver 协议在浏览器外部运行的传统工具不同,Cypress 直接运行在查看来源专题页GitHub 已收录 2648 篇文章

时间归档

June 20261387 篇已发布文章

延伸阅读

Lean Copilot原生登陆Windows:形式化验证领域的静默革命Lean Copilot社区分支现已原生支持Windows,打破了AI辅助形式化验证的平台壁垒。这一进展有望让定理证明工具真正走进教育者、学生和Windows生态研究者的日常。pytest 星耀14K:Python测试霸主为何屹立不倒pytest-dev/pytest 的 GitHub 日星标数已突破14,000,巩固了其作为 Python 生态中最具统治力测试框架的地位。本文深入剖析其架构决策、社区活力与市场力量,揭示 pytest 持续引领软件质量保障的底层逻辑。Cypress 重写前端测试:5 万星标的端到端革命内幕Cypress 凭借其开发者友好、实时响应的架构,重新定义了前端测试。它拥有近 5 万 GitHub 星标,提供自动等待、时光回溯调试,以及与 React、Vue 等现代框架的无缝集成,挑战了 Selenium 长期以来的霸主地位。Helm-Diff:Kubernetes 部署中的无名英雄及其悄然进化Helm-diff,一个简单却至关重要的 Helm 插件,能在执行升级前提供差异预览,清晰展示 Kubernetes 集群中将发生的变化。凭借超过 3400 个 GitHub 星标和持续增长的人气,它已成为安全、可审计部署的基石,但其单一功

常见问题

GitHub 热点“Nullspace Projection: The Elegant Math That Removes Bias From AI Without Retraining”主要讲了什么?

Shauli Ravfogel's nullspace projection method, hosted on GitHub as shauli-ravfogel/nullspace_projection, provides an elegant, theory-driven approach to removing linearly separable…

这个 GitHub 项目在“nullspace projection vs adversarial debiasing comparison”上为什么会引发关注?

The nullspace projection method is rooted in linear algebra and representation theory. At its core, the approach assumes that a neural network's hidden representations contain a linear subspace that encodes a protected a…

从“how to apply nullspace projection to transformer models”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 94,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。