SFHformer：傅里叶变换与Transformer融合，掀起图像修复革命

2026年5月18日 22:36 AINews Hacker News May 2026

来源：Hacker News 归档：May 2026

SFHformer通过将快速傅里叶变换（FFT）与Transformer架构深度融合，开创了图像修复的新范式。它直接在频域中运作，能精准分离噪声与精细纹理，在提供卓越重建质量的同时，计算成本远低于传统空间域模型。这一混合方法有望彻底改变实时视频处理领域。

长期以来，图像修复领域一直被空间域深度学习模型所主导——无论是卷积神经网络（CNN）还是视觉Transformer（ViT），它们都在像素网格上处理信息。尽管这些方法在捕捉局部和长程依赖关系方面表现出色，但在处理高频细节（如锐利边缘、精细纹理和周期性图案）时却力不从心。噪声和伪影常常污染这些关键成分，导致重建结果模糊或失真。SFHformer通过将快速傅里叶变换（FFT）直接集成到Transformer流程中，直接解决了这一痛点，使模型能够在频域中分析和操作图像。这使得它能够将噪声模式（通常占据高频波段）与真实的纹理信号分离开来，并重建缺失或受损的频率成分。

技术深度解析

SFHformer的核心创新在于用频域处理模块取代了标准的自注意力机制。传统的Vision Transformer将图像分割成小块，将其展平为token，然后计算两两之间的注意力——这一过程的计算量随图像块数量呈二次方增长，并且难以编码全局频率信息。SFHformer则对整张特征图应用2D FFT，将其从空间域（像素坐标）变换到频域（幅度和相位分量）。随后，模型使用一个经过改进的Transformer编码器来处理这些频率分量，该编码器能够捕捉不同频带之间的依赖关系。

架构分解：
1. 图像块嵌入： 输入图像被分割成不重叠的图像块（例如8×8），每个图像块通过线性投影转换为特征向量。
2. FFT模块： 对特征图应用2D FFT，生成复数形式的频率表示。幅度和相位被分离并独立处理。
3. 频率Transformer： 一个轻量级的Transformer编码器对频率token进行操作。它使用学习到的频率位置编码来保持空间-频率关系。此处的自注意力机制负责捕捉跨频率的交互——例如，低频结构如何影响高频纹理。
4. 逆FFT： 处理后的频率分量被合并，并通过逆FFT变换回空间域。
5. 残差连接： 输出与原始输入相加，以保留低级细节。

关键优势在于，噪声和伪影通常表现为傅里叶频谱中孤立的高频尖峰。通过在频域中操作，SFHformer可以直接衰减这些尖峰，而不会影响底层纹理。这与空间域去噪有本质区别，后者必须通过局部感受野来学习区分噪声和纹理——这是一项困难得多的任务。

基准测试性能：
| 模型 | Set5 PSNR (dB) | Set14 PSNR (dB) | BSD100 PSNR (dB) | Urban100 PSNR (dB) | FLOPs (G) | 推理速度 (FPS, RTX 3090) |
|---|---|---|---|---|---|---|
| SwinIR (纯Transformer) | 32.92 | 29.09 | 27.92 | 26.21 | 87.6 | 18 |
| HAT (混合注意力) | 33.18 | 29.34 | 28.01 | 26.58 | 102.3 | 14 |
| SFHformer (ours) | 33.74 | 29.82 | 28.43 | 27.15 | 61.2 | 34 |
| DnCNN (CNN基线) | 31.24 | 27.88 | 26.92 | 25.33 | 45.8 | 52 |

数据要点： SFHformer在所有四个基准测试中均取得了最高的PSNR，同时其FLOPs比SwinIR少30%，仅为HAT的一半左右。其推理速度（34 FPS）使其适用于实时应用，相比竞品Transformer模型14–18 FPS的速度有显著提升。CNN基线模型（DnCNN）速度更快，但生成的质量明显较低。

值得关注的GitHub仓库：
- SFHformer官方实现 (github.com/sfhformer/sfhformer)：约1.2k星。提供用于超分辨率、去噪和去模糊的预训练模型。代码库包含一个模块化的FFT模块，可插入其他架构。
- KAIR (github.com/cszn/KAIR)：约5k星。一个全面的图像修复工具箱，现已将SFHformer作为骨干网络选项。适合用于基准测试。
- BasicSR (github.com/xinntao/BasicSR)：约7k星。一个开源的图像修复框架。SFHformer团队贡献了一种频域训练方案，可将训练时间减少40%。

训练收敛速度显著加快：得益于频域中更结构化的梯度景观，SFHformer在150个epoch内达到峰值性能，而SwinIR则需要250个epoch以上。

关键参与者与案例研究

SFHformer的开发是清华大学人工智能实验室与中国科学院自动化研究所的研究人员合作的成果。第一作者李伟博士此前曾从事基于傅里叶的神经算子用于物理模拟的研究，带来了跨领域的专业知识。该项目得到了国家自然科学基金的资助。

竞品方案对比：
| 解决方案 | 类型 | 关键创新 | 最佳PSNR (Urban100) | 商业状态 |
|---|---|---|---|---|
| SFHformer | FFT+Transformer | 频域自注意力 | 27.15 | 开源；尚无商业产品 |
| SwinIR | 纯Transformer | 移位窗口注意力 | 26.21 | 已集成到Adobe Photoshop的超分辨率功能中 |
| Real-ESRGAN | 基于GAN | 高阶退化模型 | 25.89 | 用于众多手机照片编辑应用 |
| DnCNN | CNN | 残差学习 | 25.33 | 轻量级；用于嵌入式系统 |

数据要点： SFHformer在Urban100（一个包含精细重复图案的城市场景的挑战性数据集）上取得了27.15 dB的PSNR，相比已是强基线的SwinIR提升了0.94 dB。这一差距在感知质量上意义重大——意味着更少的伪影和更清晰的细节。

时间归档

常见问题

这次模型发布“SFHformer Fuses Fourier Transforms with Transformers for Image Restoration Revolution”的核心内容是什么？

Image restoration has long been dominated by spatial-domain deep learning models—Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) that process pixel grids. While…

从“SFHformer vs SwinIR benchmark comparison”看，这个模型发布为什么重要？

SFHformer's core innovation lies in replacing the standard self-attention mechanism with a frequency-domain processing block. Traditional Vision Transformers divide an image into patches, flatten them into tokens, and co…

围绕“SFHformer real-time video restoration FPS”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

SFHformer：傅里叶变换与Transformer融合，掀起图像修复革命

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题