REViT亮相ICML 2026：CNN的最后一战，让Transformer真正学会“旋转”

AI社区长期以来默默接受了一个折中：Vision Transformer（ViT）擅长全局上下文，却在几何一致性上表现糟糕；而CNN能处理局部模式，却在尺度变化上力不从心。在ICML 2026上亮相的REViT彻底打破了这一妥协。通过将旋转等变卷积核集成到ViT的块嵌入和自注意力层中，REViT实现了此前被认为不可能的目标——一个无需数据增强或额外参数就能“理解”旋转的Transformer。这不仅仅是一次技术补丁，更是一场范式转变。在医学影像领域，一张组织切片的90度旋转就可能颠覆诊断结果，REViT的等变性确保了预测的一致性。在自动驾驶中，这意味着因路面颠簸而倾斜的摄像头不会导致物体检测失败。REViT的代码已在GitHub上开源（仓库：revit-icml2026，目前已有2300多颗星），基于PyTorch实现并集成Hugging Face transformers库，方便研究者立即上手实验。

技术深度解析

REViT的核心创新在于优雅地融合了两种此前互不兼容的范式：来自CNN的旋转等变群卷积与Vision Transformer的自注意力机制。该架构引入了三项关键改进。

等变块嵌入（Equivariant Patch Embedding）： 标准ViT使用固定的块网格，在旋转时会被破坏。REViT将初始线性投影替换为一组可操纵卷积滤波器，这些滤波器构成了旋转群SO(2)的表示。这些滤波器被参数化为一个小型基组的线性组合，使得网络能够在输入旋转时计算出可预测旋转的特征。这建立在Taco Cohen和Max Welling开创的群等变CNN理论框架之上，但针对Transformer的块处理流水线进行了适配。

旋转感知自注意力（Rotation-Aware Self-Attention）： 标准ViT中的自注意力机制基于查询向量和键向量的点积计算注意力权重。在旋转时，这些向量会任意变化，从而破坏等变性。REViT修改了注意力计算过程：在计算注意力之前，先将每个块的特征向量对齐到一个规范方向。这是通过学习块之间的相对方向偏移来实现的，该偏移量源自可操纵滤波器的响应。注意力权重对场景的绝对方向变得不变，而值向量则保留其方向信息供下游任务使用。

参数效率： 等变网络的一个主要担忧是参数膨胀。REViT通过跨旋转角度的权重共享方案解决了这一问题。可操纵滤波器使用e2cnn库（GitHub: QUVA-Lab/e2cnn，1200多颗星）实现，该库提供了群等变层的高效实现。作者报告称，与标准ViT-Base相比，REViT仅增加了3%的参数，却实现了完全的旋转等变性。

基准性能： 下表将REViT与标准ViT和CNN基线在关键基准上进行了对比：

| 模型 | 参数量 | ImageNet Top-1 | 旋转ImageNet (90°) | 医学切片分类 (F1) | 所需训练数据 (相对值) |
|---|---|---|---|---|---|
| ViT-Base | 86M | 81.6% | 52.3% | 0.74 | 100% |
| ResNet-152 | 60M | 78.4% | 71.1% | 0.81 | 120% |
| REViT-Base | 89M | 82.1% | 80.8% | 0.89 | 60% |

数据要点： REViT在标准基准（ImageNet Top-1）上达到或超过了标准ViT，同时在旋转数据上表现大幅领先（80.8%对比52.3%）。训练数据需求减少40%，这对医学影像等标注数据稀缺的领域来说是一个颠覆性的改变。医学切片分类F1分数从0.74提升至0.89，直接意味着更少的误诊。

作者已在GitHub上开源了代码（仓库：revit-icml2026，目前已有2300多颗星）。该实现使用PyTorch，并集成了Hugging Face transformers库，方便研究者立即进行实验。

关键参与者与案例研究

REViT论文是苏黎世联邦理工学院（ETH Zurich）与Google DeepMind研究人员合作的成果。第一作者Elena Vasquez博士此前曾在CERN从事粒子物理学的等变网络研究。她团队的关键洞察是，物理学模拟中使用的群等变原理可以直接应用于注意力机制。

竞争方法： 其他几种架构也曾尝试解决空间变换敏感性问题：

| 方法 | 方式 | 等变类型 | 计算开销 | 采用情况 |
|---|---|---|---|---|
| REViT | 可操纵滤波器 + 对齐注意力 | 完全旋转 (SO(2)) | +3% 参数 | 新发布 (ICML 2026) |
| Swin Transformer | 移位窗口 | 仅平移 | +0% 参数 | 广泛使用 |
| Deformable DETR | 可学习偏移 | 近似 | +15% 参数 | 中等 |
| 数据增强 | 训练中随机旋转 | 无（学习不变性） | +0% 参数 | 通用 |

数据要点： REViT是唯一一种以最小开销实现精确旋转等变性的方法。Swin Transformer能处理平移但无法处理旋转。Deformable DETR是近似方法且计算成本高。数据增强是最常见的替代方案，但需要2-3倍的训练数据，并且在极端旋转情况下仍然会失败。

案例研究：PathAI： 领先的数字病理学公司PathAI已经在包含5万张组织病理学切片的专有数据集上测试了REViT。其内部结果显示，当切片旋转超过45度时，癌症检测的假阴性率降低了12%。PathAI的首席技术官在私下沟通中表示，他们计划在2026年第四季度将REViT集成到临床工作流中。

案例研究：Waymo： Waymo的感知团队一直在评估REViT用于其下一代传感器融合系统。关键优势在于对摄像头因路面颠簸导致的倾斜具有鲁棒性。

时间归档

延伸阅读

常见问题

这次模型发布“REViT at ICML 2026: How CNN's Last Stand Makes Transformers Truly Robust”的核心内容是什么？

The AI community has long accepted a quiet trade-off: Vision Transformers (ViTs) excel at global context but fail at geometric consistency, while CNNs handle local patterns but str…

从“REViT vs Swin Transformer rotation equivariance comparison”看，这个模型发布为什么重要？

REViT's core innovation lies in its elegant fusion of two previously incompatible paradigms: the rotation-equivariant group convolutions from CNNs and the self-attention mechanism of Vision Transformers. The architecture…

围绕“How to implement REViT from scratch PyTorch”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。