SPLICE：扩散模型迎来置信区间，时间序列插补从此可靠可证

2026年5月4日 22:22 AINews arXiv cs.LG May 2026

来源：arXiv cs.LG 归档：May 2026

SPLICE 提出了一种模块化框架，将潜在扩散生成与无分布假设的共形预测相结合，为每个插补的时间序列值动态更新置信区间。这标志着生成式插补从追求精度转向可证明的可靠性，对于电网调度等高 stakes 应用而言，堪称颠覆性变革。

时间序列数据是现代基础设施的命脉——从电力负荷预测到金融风险建模，无所不包。然而，缺失值始终是一个顽固且致命的难题。从简单的插值到先进的生成模型，传统插补方法只能给出点估计，无法提供任何不确定性度量。对于一位需要根据预测的负荷峰值决定是否启动调峰电厂的电网调度员来说，一个没有可靠性边界的单一插补值无异于一场赌博。由结合了联合嵌入预测架构（JEPA）与共形预测技术的研究人员开发的 SPLICE，直接瞄准了这一盲区。该框架分三个阶段运行：首先，基于 JEPA 的编码器学习鲁棒的、时间感知的潜在表示；其次，在潜在空间中运行扩散模型以生成多样化的候选插补值；最后，共形预测模块为每个插补值提供具有统计保证的置信区间。SPLICE 的核心贡献在于，它首次将生成式 AI 的逼真度与统计学的严谨性融为一体，使得在关键基础设施场景下，我们能对缺失数据的插补结果既知其然，也知其所以然——以及知其有多大的不确定性。

技术深度解析

SPLICE 的架构堪称模块化设计的典范，它将三种各自强大的技术无缝整合成一个连贯的流水线。第一阶段是 JEPA（联合嵌入预测架构） 编码器。与逐像素重建输入的传统自编码器不同，JEPA 通过从可见补丁的嵌入预测被遮蔽补丁的嵌入来学习表示。这一过程在潜在空间中进行，迫使模型捕捉高层级的时间依赖关系——例如日周期性、趋势成分和突然的状态切换——而不会被低层噪声干扰。JEPA 编码器在完整的时间序列片段上进行训练，学习从原始序列到紧凑潜在向量的映射。其关键优势在于鲁棒性：JEPA 的预测目标在训练期间天然地处理了缺失数据，而潜在空间则充当了底层动态的压缩、去噪表示。

第二阶段是潜在扩散模型。SPLICE 并未在高维的原始时间序列空间中进行扩散（这计算成本高昂且容易模式崩溃），而是将前向和反向扩散过程完全在 JEPA 学到的潜在空间内执行。前向过程逐步向缺失片段的潜在表示添加高斯噪声。反向过程由一个基于 U-Net 或 Transformer 的去噪器参数化，学习从带噪的潜在表示中恢复干净的潜在表示，并以观测上下文的潜在表示为条件。这种条件生成正是产生插补值的关键。潜在扩散方法继承了扩散模型的多样性和高保真生成能力，同时将计算开销控制在可管理范围内。该模型在大量完整时间序列片段语料库上进行训练，学习潜在轨迹的分布。

第三阶段，也是最具创新性的阶段，是共形预测（CP）封装器。共形预测是一种无分布假设的框架，提供有限样本的覆盖保证。给定一个训练好的插补模型和一个带有缺失值的新时间序列，SPLICE 通过使用不同的噪声种子多次运行潜在扩散模型，生成一组候选插补值。每个候选值都会为给定的缺失点产生一个不同的插补值。然后，CP 模块使用一个保留的校准集（与测试数据可交换）来计算非一致性分数——例如，插补值与真实值的绝对偏差。基于这些分数的分位数，它为每个新的插补值构建一个预测区间。其保证是：真实值至少有 1-α 的概率（例如 90%）落在这个区间内。这一结论对任何有限样本量和任何底层数据分布都成立，使其成为处理几乎从不遵循整洁高斯分布的真实世界电网数据的理想选择。

一个关键特性是在线自适应。随着新数据点的到来（例如，新一小时的负荷测量值），校准集可以通过滑动窗口进行更新，并重新计算共形区间。这使得系统能够在模型表现良好时收紧区间，在数据分布发生偏移时（例如，热浪期间）放宽区间。与扩散采样相比，CP 步骤的计算开销可以忽略不计。

| 组件 | 功能 | 关键特性 | 示例实现 |
|---|---|---|---|
| JEPA 编码器 | 学习鲁棒的潜在表示 | 预测被遮蔽补丁的嵌入 | 适用于一维时间序列的 Vision Transformer (ViT) 骨干网络 |
| 潜在扩散 | 生成合理的潜在补全 | 潜在空间中的条件去噪 | 带 U-Net 的 DDPM；约 100 步去噪 |
| 共形预测 | 为插补值包裹置信区间 | 无分布假设，有限样本覆盖 | 基于绝对残差非一致性分数的分割共形预测 |

数据要点： 模块化意味着每个组件都可以独立改进。例如，将 U-Net 替换为扩散 Transformer (DiT) 可以提升生成质量，而使用自适应共形预测 (ACP) 则可以增强在线覆盖的稳定性。

关键参与者与案例研究

SPLICE 是一项研究贡献，但其谱系直接追溯到几个关键参与者和先前工作。JEPA 组件受 Yann LeCun 对自监督学习的愿景启发，最初应用于图像和视频。将其适配到时间序列是更广泛趋势的一部分：像 Gretel.ai 和 Mostly AI 这样的公司已经将合成时间序列生成商业化，但它们缺乏不确定性量化。潜在扩散骨干网络借鉴了扩散模型在图像生成领域的爆发式发展（Stability AI、OpenAI 的 DALL-E 3），以及最近由 Google Research（例如 Time-Diffusion）和 Amazon Web Services（GluonTS）等团队将其应用于时间序列的研究。

时间归档

常见问题

这次模型发布“SPLICE: Diffusion Models Get Confidence Intervals for Reliable Time Series Imputation”的核心内容是什么？

Time series data is the lifeblood of modern infrastructure—from electricity load forecasting to financial risk modeling—yet missing values remain a persistent and crippling problem…

从“SPLICE conformal prediction power grid reliability”看，这个模型发布为什么重要？

SPLICE’s architecture is a masterclass in modular design, combining three independently powerful techniques into a coherent pipeline. The first stage is a JEPA (Joint Embedding Predictive Architecture) encoder. Unlike tr…

围绕“JEPA time series imputation latent space”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

SPLICE：扩散模型迎来置信区间，时间序列插补从此可靠可证

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.LG

时间归档

延伸阅读

常见问题