技术深度解析
PS-SR的核心创新在于将视频超分任务显式解耦为两个角色互补的独立神经网络。“强模型”是一个基于Transformer的大规模架构,参数量可能达数亿,在大量高清视频数据集上训练。其主要职责是重建每一帧的全局结构——整体形状、物体边界以及跨时间的运动轨迹。该模型采用时间注意力机制,同时处理多帧图像,确保输出画面运动平滑,无闪烁或鬼影伪影。
相比之下,“轻模型”是一个紧凑的卷积网络,参数量约500万至1000万。它作用于强模型的输出,专注于局部纹理合成:锐化边缘、添加精细细节(如织物纹理或叶脉),并修正微小色彩不一致。由于轻模型体积小,整体推理速度得以保持——团队报告称,在单张NVIDIA A100 GPU上,从720p到4K的放大可实现30帧每秒的实时性能。
这种两阶段管线让人联想到图像生成中的“从粗到细”范式(例如级联扩散模型),但PS-SR将其应用于视频,并引入了一种新颖的损失函数来惩罚时间不一致性。团队在GitHub仓库“PS-SR-2026”中开源了参考实现,包含强模型和轻模型的预训练权重,以及一个自定义评估脚本,用于计算他们提出的新指标“时间保真度得分”(TFS)。TFS衡量连续增强帧之间的平均像素差异,并按运动幅度归一化——得分越低表示时间稳定性越好。
在他们的CVPR论文中,PS-SR在REDS4基准上的TFS达到0.023,而此前最先进的BasicVSR++为0.089,时间连贯性提升了74%。
| 模型 | 参数量(强+轻) | 推理速度(FPS,720p→4K) | 时间保真度得分(TFS) | PSNR(dB) | SSIM |
|---|---|---|---|---|---|
| PS-SR(本文) | 420M + 8M | 30 | 0.023 | 29.8 | 0.912 |
| BasicVSR++ | 480M | 12 | 0.089 | 28.5 | 0.887 |
| Real-ESRGAN(单帧) | 16.7M | 45 | 0.152 | 26.1 | 0.843 |
| EDVR | 320M | 8 | 0.097 | 28.1 | 0.879 |
数据要点: PS-SR相比此前最佳视频超分模型BasicVSR++,速度提升2.5倍,同时时间稳定性提升74%,PSNR提升1.3 dB。轻模型的效率是关键——它仅占总参数量的2%,却使SSIM相比单独使用强模型提升了4%。
关键参与者与案例研究
研究团队由中国科学技术大学(USTC)的李伟教授领导。USTC是顶尖学府,在计算机视觉与多媒体领域享有盛誉。产业合作方智象未来(Zhixiang Future)是一家总部位于北京的AI初创公司,成立于2023年,创始团队来自百度和商汤科技。智象未来专注于电商与工业应用的视频理解与增强,其旗舰产品“ClearView AI”已为超过200个中国电商直播平台提供视频增强服务,包括淘宝直播和抖音等主要玩家。PS-SR预计将集成到ClearView AI的下一个版本中,计划于2026年第三季度发布。
USTC与智象未来的合作值得关注,因为它架起了学术严谨性与商业部署之间的桥梁。李伟教授的实验室在CVPR和ICCV上屡有发表,而智象未来则提供真实世界数据和部署约束。例如,在PS-SR开发过程中,团队使用了智象未来提供的5万小时电商直播视频数据集,其中包含手持产品快速移动、光照条件多变等挑战性场景。该数据集对于训练轻模型处理运动模糊和压缩噪声等真实伪影至关重要。
市场上的竞品包括NVIDIA的Video Super Resolution(VSR)技术(集成于RTX视频放大管线)以及Topaz Labs的Video AI(视频编辑者常用的商业产品)。然而,这些解决方案要么闭源,要么需要昂贵硬件。PS-SR的开源发布及其在单张A100 GPU上运行的能力,使其对研究机构和中小企业更加可及。
| 解决方案 | 来源 | 速度(720p→4K) | 时间稳定性 | 成本 | 开源 |
|---|---|---|---|---|---|
| PS-SR | USTC + 智象未来 | 30 FPS | 优秀(TFS 0.023) | 免费(开源) | 是 |
| NVIDIA VSR | NVIDIA | 24 FPS | 良好(TFS ~0.06) | 需RTX 30+ GPU | 否 |