技术深度解析
SFHformer的核心创新在于用频域处理模块取代了标准的自注意力机制。传统的Vision Transformer将图像分割成小块,将其展平为token,然后计算两两之间的注意力——这一过程的计算量随图像块数量呈二次方增长,并且难以编码全局频率信息。SFHformer则对整张特征图应用2D FFT,将其从空间域(像素坐标)变换到频域(幅度和相位分量)。随后,模型使用一个经过改进的Transformer编码器来处理这些频率分量,该编码器能够捕捉不同频带之间的依赖关系。
架构分解:
1. 图像块嵌入: 输入图像被分割成不重叠的图像块(例如8×8),每个图像块通过线性投影转换为特征向量。
2. FFT模块: 对特征图应用2D FFT,生成复数形式的频率表示。幅度和相位被分离并独立处理。
3. 频率Transformer: 一个轻量级的Transformer编码器对频率token进行操作。它使用学习到的频率位置编码来保持空间-频率关系。此处的自注意力机制负责捕捉跨频率的交互——例如,低频结构如何影响高频纹理。
4. 逆FFT: 处理后的频率分量被合并,并通过逆FFT变换回空间域。
5. 残差连接: 输出与原始输入相加,以保留低级细节。
关键优势在于,噪声和伪影通常表现为傅里叶频谱中孤立的高频尖峰。通过在频域中操作,SFHformer可以直接衰减这些尖峰,而不会影响底层纹理。这与空间域去噪有本质区别,后者必须通过局部感受野来学习区分噪声和纹理——这是一项困难得多的任务。
基准测试性能:
| 模型 | Set5 PSNR (dB) | Set14 PSNR (dB) | BSD100 PSNR (dB) | Urban100 PSNR (dB) | FLOPs (G) | 推理速度 (FPS, RTX 3090) |
|---|---|---|---|---|---|---|
| SwinIR (纯Transformer) | 32.92 | 29.09 | 27.92 | 26.21 | 87.6 | 18 |
| HAT (混合注意力) | 33.18 | 29.34 | 28.01 | 26.58 | 102.3 | 14 |
| SFHformer (ours) | 33.74 | 29.82 | 28.43 | 27.15 | 61.2 | 34 |
| DnCNN (CNN基线) | 31.24 | 27.88 | 26.92 | 25.33 | 45.8 | 52 |
数据要点: SFHformer在所有四个基准测试中均取得了最高的PSNR,同时其FLOPs比SwinIR少30%,仅为HAT的一半左右。其推理速度(34 FPS)使其适用于实时应用,相比竞品Transformer模型14–18 FPS的速度有显著提升。CNN基线模型(DnCNN)速度更快,但生成的质量明显较低。
值得关注的GitHub仓库:
- SFHformer官方实现 (github.com/sfhformer/sfhformer):约1.2k星。提供用于超分辨率、去噪和去模糊的预训练模型。代码库包含一个模块化的FFT模块,可插入其他架构。
- KAIR (github.com/cszn/KAIR):约5k星。一个全面的图像修复工具箱,现已将SFHformer作为骨干网络选项。适合用于基准测试。
- BasicSR (github.com/xinntao/BasicSR):约7k星。一个开源的图像修复框架。SFHformer团队贡献了一种频域训练方案,可将训练时间减少40%。
训练收敛速度显著加快:得益于频域中更结构化的梯度景观,SFHformer在150个epoch内达到峰值性能,而SwinIR则需要250个epoch以上。
关键参与者与案例研究
SFHformer的开发是清华大学人工智能实验室与中国科学院自动化研究所的研究人员合作的成果。第一作者李伟博士此前曾从事基于傅里叶的神经算子用于物理模拟的研究,带来了跨领域的专业知识。该项目得到了国家自然科学基金的资助。
竞品方案对比:
| 解决方案 | 类型 | 关键创新 | 最佳PSNR (Urban100) | 商业状态 |
|---|---|---|---|---|
| SFHformer | FFT+Transformer | 频域自注意力 | 27.15 | 开源;尚无商业产品 |
| SwinIR | 纯Transformer | 移位窗口注意力 | 26.21 | 已集成到Adobe Photoshop的超分辨率功能中 |
| Real-ESRGAN | 基于GAN | 高阶退化模型 | 25.89 | 用于众多手机照片编辑应用 |
| DnCNN | CNN | 残差学习 | 25.33 | 轻量级;用于嵌入式系统 |
数据要点: SFHformer在Urban100(一个包含精细重复图案的城市场景的挑战性数据集)上取得了27.15 dB的PSNR,相比已是强基线的SwinIR提升了0.94 dB。这一差距在感知质量上意义重大——意味着更少的伪影和更清晰的细节。