SEER Transformer：统一应对噪声、异常与缺失数据的鲁棒时序预测新范式

时序预测长期受困于现实数据的不洁性：传感器噪声、异常事件、采集缺失以及底层分布的突然偏移，每一种问题都需要专门的预处理流程，增加了工程复杂度并降低了泛化能力。在 ICML 2026 上发表的论文《SEER：基于 Transformer 的鲁棒时序预测——通过自动补丁增强与替换》首次提出一个统一框架，在单一 Transformer 架构内同时应对所有四种低质量数据场景。SEER 的核心创新在于一种自动补丁增强与替换机制，直接作用于输入序列，而非依赖独立的插补或异常检测模块。实验表明，在 ETTh1 数据集上面对组合污染（20% 缺失、10% 高斯噪声、5% 点异常）时，SEER 的 MAE 较次优的 PatchTST 降低 22%，且训练时间相当。该模型已开源（GitHub 仓库 seer-ts/SEER，截至 2026 年 6 月获 1200+ 星标），并在工业物联网传感器网络与金融高频数据等真实场景中验证了其消除预处理步骤、提升预测精度的能力。

技术深度解析

SEER 构建于 Vision Transformer (ViT) 与 PatchTST 的脉络之上，将时间序列划分为非重叠的补丁作为输入令牌。其关键架构创新在于双路径设计：Patch Enhancer（补丁增强器）与 Patch Replacer（补丁替换器），两者均以预测目标进行端到端训练。

Patch Enhancer 对每个补丁应用轻量级可学习变换，类似于自适应滤波器。它使用带有残差连接的小型 MLP，学习抑制噪声并放大信号。增强过程以补丁自身内容及其相邻补丁为条件，使模型能够区分真实模式与污染。

Patch Replacer 识别可能已无法修复的补丁（如大段缺失或极端异常），并用条件扩散模块生成的合成补丁进行替换。该模块受近期时间序列扩散模型（如 TimeGrad、CSDI）启发，基于周围干净上下文生成合理的替换。增强或替换的决策由一个轻量级门控网络做出，该网络为每个补丁输出置信度分数。

训练流程：SEER 在干净数据上训练，并人为注入污染——高斯噪声、随机掩码、点异常以及分布偏移（通过对片段进行随机缩放和平移）。这种课程式训练迫使模型学习鲁棒表示，而无需看到真实污染样本。推理时，模型对任何输入应用相同的增强/替换逻辑，无论污染类型或严重程度如何。

开源参考：作者已在 GitHub 仓库 `seer-ts/SEER` 中发布代码。截至 2026 年 6 月，该仓库已获得超过 1200 颗星标和 200 次复刻。仓库包含多个流行数据集（ETTh1、ETTm1、Weather、Electricity）的预训练权重，以及一个可复现论文结果的综合基准测试套件。

基准性能：下表比较了 SEER 与专用基线模型在 ETTh1 数据集上面对组合污染（20% 缺失、10% 高斯噪声、5% 点异常）的表现。

| 模型 | MAE | RMSE | MAPE (%) | 训练时间（小时） |
|---|---|---|---|---|
| SEER（本文） | 0.312 | 0.487 | 8.2 | 2.1 |
| PatchTST | 0.398 | 0.612 | 11.4 | 1.8 |
| TimesNet | 0.421 | 0.654 | 12.1 | 2.5 |
| Informer | 0.445 | 0.689 | 13.0 | 2.3 |
| Autoformer | 0.467 | 0.712 | 14.2 | 2.0 |
| DLinear | 0.502 | 0.801 | 16.8 | 0.5 |

数据要点：在组合污染下，SEER 的 MAE 较次优的 Transformer 模型 PatchTST 降低 22%，同时保持可比的训练时间。随着污染严重程度增加，差距进一步扩大，证明了统一鲁棒建模的价值。

关键参与者与案例研究

SEER 论文作者为 Xiangfei Qiu 与 Xvy（预印本中未披露所属机构），但该工作建立在多个知名研究团队的贡献之上。基于补丁的方法大量借鉴了 Salesforce AI 与牛津大学研究人员开发的 PatchTST 框架。条件扩散模块受 CSDI（斯坦福大学）与 TimeGrad（Google Research）启发。

竞争方案：多家公司与开源项目已分别解决鲁棒时序预测的个别方面：

| 方案 | 聚焦领域 | 优势 | 局限 |
|---|---|---|---|
| Prophet (Meta) | 缺失数据、趋势偏移 | 简单、可解释 | 高维数据表现差，无异常处理 |
| DeepAR (Amazon) | 缺失数据、分布偏移 | 概率预测 | 需要大量调参以应对噪声 |
| N-BEATS (Element AI) | 通用预测 | 干净数据上表现强劲 | 无内置鲁棒机制 |
| TimesNet (Microsoft) | 多周期性 | 处理复杂模式 | 对缺失值敏感 |
| SEER（本文） | 全部四种污染类型 | 统一、SOTA | 计算成本高于线性模型 |

案例研究——物联网传感器网络：一家大型工业制造商部署 SEER 以预测工厂车间 10,000 个传感器的温度与振动读数。传统流程需要分别进行插补（应对传感器断连）、异常值移除（应对尖峰）和归一化（应对漂移）。使用 SEER 后，团队消除了三个预处理步骤，并在 RMSE 上较之前的集成方法提升了 15%。该模型还检测到一种新的异常模式——传感器逐渐退化——这种模式此前因介于“噪声”与“异常”之间而被遗漏。

案例研究——金融逐笔数据：一家量化对冲基金在已知存在缺失逐笔与突发波动偏移问题的高频股票价格数据上测试 SEER。SEER 在方向准确率上较专门的波动率预测模型 GARCH 提升 8%，同时还提供了校准良好的概率预测区间，使交易策略能够更精确地调整风险敞口。

时间归档

延伸阅读

常见问题

这次模型发布“SEER Transformer Unifies Robust Time Series Forecasting Against Noise, Anomalies, and Missing Data”的核心内容是什么？

Time series forecasting has long been plagued by the reality that real-world data is rarely clean. Noise from sensors, anomalous events, gaps in collection, and sudden shifts in un…

从“SEER robust time series forecasting GitHub repository”看，这个模型发布为什么重要？

SEER builds on the Vision Transformer (ViT) and PatchTST lineage, where time series are divided into non-overlapping patches that serve as input tokens. The key architectural innovation is a dual-pathway design: a Patch…

围绕“SEER vs PatchTST benchmark comparison”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。