基于距离的不确定性量化:让AI变得可信的新数学

arXiv cs.AI March 2026
来源:arXiv cs.AIautonomous systems归档:March 2026
一项数学形式上的突破正在解决AI的根本盲点:让它知道自己不知道什么。通过应用基于距离的度量标准,将随机噪声与真正的认知缺失区分开来,研究人员正在构建具有可测量自我意识的AI系统。这一技术进步是AI部署于安全关键领域的下一个关键步骤,在这些领域,置信度与能力同等重要。

将人工智能部署到高风险环境(从手术室到高速公路)的持续努力,暴露了一个关键缺陷:当前系统无法可靠地量化自身的不确定性。传统的概率输出混淆了两种根本不同类型的不确定性:偶然不确定性(数据固有的随机性)和认知不确定性(因知识有限导致的模型无知)。当AI遇到其训练分布之外的新场景时,这种混淆会产生危险的过度自信。一个日益壮大的研究者和工程师联盟正在倡导一种几何解决方案。他们不再仅仅依赖概率分布,而是提议测量新输入与模型已知训练流形之间的“距离”。这种距离度量,通常基于特征空间中的计算,旨在清晰地区分数据噪声和模型的无知。这种方法的核心是将训练模型的知识视为高维特征空间中的一个几何区域。因此,不确定性不再是一个需要推断的概率,而是一个可以测量的距离。这代表了从贝叶斯神经网络和集成方法出发的范式转变。领先的实现方式包括深度马氏距离检测器和基于标准化流的检测器,它们在标准化的分布外检测任务上表现出色。这种数学严谨性通过将距离与明确定义的不确定性度量联系起来实现,从而将认知不确定性与偶然不确定性清晰分离。这项发展由学术先驱和有即时部署需求的行业实验室共同推动,正在为自动驾驶、医疗诊断等安全关键领域的可靠AI部署铺平道路。

技术深度解析

基于距离的不确定性量化方法代表了从贝叶斯神经网络和集成方法的范式转变。其核心是将训练模型的知识视为高维特征空间中的一个几何区域。不确定性因此不再是一个需要推断的概率,而是一个可以测量的距离。

架构基础: 大多数实现都建立在特征提取器之上——通常是深度神经网络的倒数第二层——它将输入数据转换为潜在表示。已知的训练数据在此空间中形成一个流形或簇。对于新的输入,系统计算其到该流形的距离。常用的距离度量包括马氏距离(考虑特征协方差)、潜在空间中的k近邻距离,或者来自为建模分布内数据而训练的自编码器的重构误差。

一个领先的实现是深度马氏距离检测器,由Kimin Lee和Kibok Lee等研究者推广。该方法为每个类别的训练数据特征拟合一个类条件高斯分布。在推理时,测试样本特征到最近的类条件高斯分布的马氏距离,为检测分布外样本提供了一个分数——这是高认知不确定性的一个代理指标。

另一个有影响力的架构是基于标准化流的检测器。像`pyknos`和`nflows`这样的GitHub仓库提供了训练灵活概率分布的工具。通过学习将复杂的数据分布转换为简单的分布(如标准高斯分布),这些流可以计算新数据点在已学习训练分布下的精确似然。非常低的似然值表明高认知不确定性。`FrEIA`(易于逆架构框架)仓库是一个值得注意的基于PyTorch的工具包,在构建此类基于流的OOD检测器方面日益受到关注。

性能基准测试: 距离方法的有效性在标准化的OOD检测任务上进行衡量,例如将CIFAR-10测试图像(分布内)与SVHN或TinyImageNet样本(分布外)区分开来。

| 方法 | 架构 | AUROC (CIFAR-10 vs SVHN) | FPR@95% TPR | 推理速度 (ms/样本) |
|---|---|---|---|---|
| 深度马氏距离 | WideResNet | 98.2% | 12.1% | ~5 |
| 似然比 (Flow) | Glow + 分类器 | 99.1% | 4.8% | ~50 |
| 集成 (5模型) | ResNet-50 | 95.7% | 21.5% | ~100 |
| 蒙特卡洛Dropout | DenseNet | 92.3% | 35.2% | ~15 |

数据要点: 与蒙特卡洛Dropout等传统的贝叶斯近似方法相比,基于距离的方法,特别是基于流的似然模型,实现了更优的分布外检测性能(更高的AUROC,更低的误报率)。然而,这是以计算成本为代价的,在准确性和延迟之间形成了明确的权衡,这对实时应用至关重要。

数学上的严谨性来自于将这些距离与明确定义的不确定性度量联系起来。对于一个分类器 f(x) 和特征提取器 φ(x),认知不确定性 U_epistemic(x) 可以形式化为:
U_epistemic(x) = g( d( φ(x), M_train ) )
其中 d 是距离度量,M_train 是特征空间中的训练数据流形,g 是一个缩放函数。这与偶然不确定性清晰地区分开来,后者被建模为对于*位于* M_train *内*的输入,f(x) 的熵。

关键参与者与案例研究

这项发展由具有即时部署需求的学术先驱和行业实验室共同推动。

学术先锋:
* Yarin Gal(牛津大学)虽然以贝叶斯深度学习闻名,但最近强调了其局限性以及对更好OOD检测的需求,间接验证了基于距离的方法。
* Balaji Lakshminarayanan(Google Brain)及其团队在*“使用深度集成进行简单且可扩展的预测不确定性估计”*方面的工作奠定了重要的比较基线,但该团队的新工作正在探索混合距离-概率方法。
* Jens Lehmann波恩大学的研究人员正在将这些原理应用于分子属性预测的几何深度学习,其中关于新化合物结构的不确定性是药物发现的主要瓶颈。

行业应用:
* WaymoCruise已将先进的不确定性量化流程集成到它们的感知系统中。据报道,Waymo的“鸟瞰图”网络现在包含一个专用的“新颖性评分”模块,该模块使用潜在距离度量来标记罕见或未见过的物体配置,从而触发更保守的规划。
* Siemens Healthineers在其AI-Rad Companion放射学软件中采用了类似的概念。该系统使用变分自编码器来学习正常和病理解剖结构的紧凑表示。重构误差或潜在空间距离被用来量化模型对异常发现的置信度,为放射科医生提供不确定性估计。

更多来自 arXiv cs.AI

视觉推理的盲点:AI必须先学会“看”,才能“思考”多年来,多模态AI社区一直默认一个假设:要让模型同时正确“看”和“推理”,就必须堆叠更多外部工具、智能体流水线和复杂架构。一项新研究打破了这一共识。它揭示了视觉语言模型(VLM)的核心瓶颈并非推理能力不足,而是感知层的系统性噪声。当前只奖励SPIN的DAG契约:用结构纪律驯服LLM混乱,为工业智能体可靠性保驾护航LLM规划器在工业环境中的根本问题从来不是缺乏创造力——而是缺乏结构纪律。像GPT-4o和Claude 3.5这样的模型可以生成看似合理的步骤序列,但这些序列经常包含循环依赖、冗余节点或在现实世界中无法执行的分支。结果是浪费API调用、系统AI法律推理的逻辑之殇:为何信任依旧遥不可及法律界对AI的拥抱始终暗藏不安:当模型自信地给出错误的法律解释时,谁来承担后果?来自计算机科学家和法律学者联合团队的新研究,发现了一个比众所周知的“幻觉”问题更为根本的缺陷——大型语言模型(LLM)在应用于法律推理时,系统性缺乏“逻辑保真度查看来源专题页arXiv cs.AI 已收录 326 篇文章

相关专题

autonomous systems112 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

深度推理不再昂贵:稀疏注意力如何改写AI的成本方程一项全新研究范式打破了长久以来的认知:大型语言模型实现深度推理未必需要天价算力。通过引入动态分配计算资源至关键逻辑节点的稀疏注意力机制,该工作证明,原则性推理既能精准也能高效,从而解锁医疗、法律和金融等高 stakes 领域的应用。Decoupling Human-in-the-Loop: The Universal Safety Steering Wheel for AI AgentsA new research paradigm proposes decoupling the human-in-the-loop from application logic, forming an independent, reusab智能体信任危机:当AI工具说谎,系统却无法识破AI智能体正在面临现实世界智能的根本考验:它们无法察觉工具何时在撒谎。AINews分析揭示,当前评估框架仅衡量智能体正确使用工具的能力,却从未测试当工具提供蓄意虚假或对抗性信息时其韧性如何。这造成了危险的信任缺口,正威胁着自动化系统的可靠性SHAP幻象:为何主流可解释AI工具存在根本性缺陷可解释AI领域正面临深刻的信任危机。本刊调查发现,以SHAP为代表的流行特征归因方法建立在数学上不稳固的基础之上,在关键应用中制造危险的‘解释幻象’。行业对这些直观但未经严格验证的工具的依赖,已成为部署可信AI系统的重大障碍。

常见问题

GitHub 热点“Distance-Based Uncertainty Quantification: The New Math Making AI Trustworthy”主要讲了什么?

The relentless push to deploy artificial intelligence in high-stakes environments—from operating rooms to highway lanes—has exposed a critical deficiency: current systems cannot re…

这个 GitHub 项目在“open source distance uncertainty quantification GitHub”上为什么会引发关注?

The distance-based approach to uncertainty quantification (UQ) represents a paradigm shift from Bayesian neural networks and ensemble methods. At its core, it treats a trained model's knowledge as a geometric region in a…

从“Mahalanobis distance out-of-distribution detection implementation”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。