前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ReViT来袭 | 基于全新残差注意力机制改进ViT架构,增强视觉特征的多样性以及模型的鲁棒性

ReViT来袭 | 基于全新残差注意力机制改进ViT架构,增强视觉特征的多样性以及模型的鲁棒性

作者头像
集智书童公众号
发布2024-03-01 17:25:09
2930
发布2024-03-01 17:25:09
举报
文章被收录于专栏:集智书童集智书童

视觉 Transformer (ViT)的自注意力机制在深层中会出现特征崩溃,导致低级视觉特征的消失。然而,这类特征对于准确表示和识别图像内的元素,并提高基于视觉识别系统的准确性和鲁棒性是有帮助的。基于这一理论,作者提出了一种新颖的残差注意力学习方法,用于改进基于ViT的架构,增加它们的视觉特征多样性和模型鲁棒性。这种方式,所提出的网络能够捕捉并保留重要的低级特征,提供有关被分析场景内元素更多的细节。 所呈现方法的有效性和鲁棒性在五个图像分类基准上进行评估,包括ImageNet1k、CIFAR10、CIFAR100、牛津花卉-102和牛津-IIIT宠物,均实现了性能的提升。 此外,在COCO2017数据集上的实验表明,所设计的方法在实施到空间感知 Transformer 模型中时,可以发现并融合语义和空间关系用于目标检测和实例分割。

1 Introduction

如今,自动视觉识别系统作为强大的辅助工具,在广泛的视觉相关应用中越来越受欢迎,例如目标检测和跟踪,图像分析和分类,场景分割和理解。这些系统的发展旨在模仿人类大脑将低级视觉特征(例如边缘、颜色或形状)与语义级信息完美相关联的能力,以完成感知识别和识别任务。

在过去的十年中,深度学习算法被广泛采用来模拟人类大脑处理视觉信息的方式,因为人工神经网络受到生物神经元的结构和功能的启发;实际上,它们能够通过学习识别图像中的模式和特征来分析视觉数据。确切地说,视觉内容的理解已经被卷积神经网络(CNNs)彻底改变,这主要归功于它们能够分析被分割为更小块的图像,提取多尺度局部特征,并将它们综合起来生成高度表达性的表征。

尽管如此,由于标准的CNNs的接受域有限,其卷积操作无法识别长距离依赖,例如远距离图像区域之间的任意关系。为了解决这一限制,并促进在视觉任务中处理长距离依赖,基于 Transformer (transformers)的几种架构已经出现。

值得注意的是,传统的 Transformer 神经网络最初在自然语言处理领域获得了流行。这种流行源于其自注意力机制,这些机制使得在数据序列中的标记之间建模广泛的依赖关系成为可能,克服了CNNs的限制。此外,与专门为视觉任务设计的CNNs不同,这些CNNs融合了先验知识和归纳偏置,如局部性和平移等方差,ViT采用了一种将图像视为一系列 Patch 的方法。这种不同的架构选择导致在归纳偏置方面的不足,使得在较小数据集上训练时ViT的泛化能力较弱。然而,已经观察到训练规模的扩大可以替代对强烈归纳偏置的需求,展示了当在大型数据集上训练时 Transformer 的巨大潜力。

标准ViT模型的特点在于其深层次的结构,由多个顺序的计算块组成。这些块中的每一个都包含一个自注意力层、一个多层感知机(MLP)以及绕过自注意力层的残差连接。这种分层结构需要多次连续传递来处理输入的 Token 序列并计算场景表示。当输入 Token 序列穿过网络的更深层次时, Token 之间趋于高度相似。这种现象导致了特征多样性的丧失,通常称为特征崩溃。这一现象的主要贡献因素是自注意力机制的全局性质以及其倾向于跨块合并特征。

具体来说,随着 Token 处理通过网络更深层次进行,生成的注意力图变得越发全局化,在全局范围内汇聚块之间的特征,并失去对局部信息的关注。这种从局部意识向全局意识的转变导致网络忘记低级特征,只强调全局特性。虽然捕捉全局上下文是 Transformer 的一个可取特质,但在图像分类和目标检测等视觉相关任务中,考虑通常在较浅网络层中找到的低级线索,如形状和颜色,可能是有利的。除了全局性问题,与CNNs相比,ViT架构在平移不变性方面也被认为不够健壮。这一限制使得在现实世界中物体可能以不同位置和大小出现的情况下,ViT的可靠性降低。

受到在ViT架构中观察到的不足之处以及神经科学的启示,这表明人脑通过从简单到专业细胞的顺序层次过程传递视觉信息,并通过电冲动的聚合,作者提出了残差注意力视觉 Transformer (ReViT)。这种创新的网络架构引入了一种注意力残差学习方法,通过将低层次信息从浅层集成到深层网络层,并对比注意力机制的过度全局化,从而提高了视觉识别任务的性能。具体来说,在给定的标准视觉 Transformer 块中,注意力信息在连续层之间传递,并使用一种排列不变聚合函数与当前层的注意力信息集成。这种连接促进了从浅层到深层层的注意力相关信息传输和积累,使能够在保持 Transformer 提取全局上下文原有能力的同时识别低层次特征。

因此,通过赋予注意力机制捕捉这些特征的能力,预期结果所学习到的表征将展现出更大的特征多样性。此外,由于颜色和形状等低层次特征在识别场景中的目标时无论其位置和大小如何都是有用的,这种机制提高了ViT的平移不变性。为了评估将残差注意力纳入ViT(即ReViT)的有效性,作者进行了全面的实证分析。作者的评估涵盖了五个图像分类基准,分别是ImageNet1K,CIFAR-10,CIFAR-100,Oxford Flowers-102,以及Oxford-IIIT Pet。结果显示,在所有数据集中,与原始ViT方法相比,使用ReViT可以获得显著的性能提升。

此外,由于Oxford Flowers-102和Oxford-IIIT Pet数据集图像质量较高,作者使用这些数据集来强调ReViT在涉及平移不变性的图像分类任务中,例如水平移动和垂直移动,以及尺度不变性方面优于ViT。这些实验提供了ReViT在这些情况下优势的定量证据。

此外,作者使用非局部性度量分析了ViT和ReViT模型中注意力图的全局扩散,并展示作者的方法可以比ViT保留更多的局部信息。除了作者的定量评估之外,作者还通过使用GradCAM算法比较ViT和ReViT模型学习的特征图,从视觉上展示了ReViT如何在学习的表征中集成低层次特征,如图1所示。

最后,作者确定所提出的残差学习方法可以无缝集成到多尺度 Transformer 架构中,比如多尺度视觉 Transformer v2(MViTv2)和移位窗口 Transformer (Swin),验证了它在包括ImageNet1K图像分类、在COCO2017上的目标检测和实例分割等各种任务中的有效性,并获得了性能提升。

总之,本文的主要贡献是:

  1. 据作者所知,已经引入了一种基于ViT的新型架构,该架构使用了残差注意力模块,能够在学习表示过程中融入重要的低级视觉特征,同时保持了提取全局上下文的能力,从而在整个更深层网络层中增强特征多样性。
  2. 作者进行了一系列广泛的实验阶段,以展示所提出模型在图像分类方面的有效性,这些基准数据集包括ImageNet1K、CIFAR-10、CIFAR-100、牛津花卉-102以及牛津-IIIT宠物。
  3. 通过在Oxford Flowers-102和Oxford-IIIT Pet数据集上的图像分类任务中进行全面评估,实证展示了残差注意力能增强ViT对于平移不变性的鲁棒性。
  4. 彻底分析全局范围内注意力图的扩散情况,包括有无残差注意力的情况,使用非局部性度量。
  5. 作者使用GradCAM算法定性分析ViT和ReViT模型学习到的特征图,以检查在存在残差注意力的情况下,注意力机制将低级特征整合到获得的表示中的能力。
  6. 作者评估了作者的模块在多尺度架构中的无缝集成,使用了带有残差注意力的MViTv2和Swin模型,在ImageNet1K数据集上进行图像分类,在COCO2017数据集上进行目标检测和实例分割。

2 Background and Methodology

Vision Transformer Layer

标准ViT采用了与[34]中提出的典型架构,网络中交替堆叠MLP和注意力模块。在不同的注意力机制中,缩放的点积自注意力是最常用的。它使模型能够提取输入数据序列中元素之间的复杂关系,并根据学习到的关系动态地为每个元素分配不同的重要性程度。

形式上,给定一组图像块特征

X=\{x_{1},x_{2},x_{i},...,x_{N}\}

,其中

X\in R^{N\times C}

x_{i}

是第

i

个图像块的向量表示,

N

是块的总数,

C

是图像的通道大小,使用一个可学习的线性投影层来生成 Query

Q

、Key

K

和Value

V

向量,使得

Q,K,V\in R^{N\times d}

,其中

d

是投影的维度。之后,对于给定的第

l

层注意力,计算 Query 和Key之间的点积,并除以

d

的平方根来生成原始注意力分数向量

S_{l}

,如图2(a)所示。因此,将softmax函数应用于这些分数,计算注意力权重矩阵

A_{l}

,如下所示:

S_{l}=\frac{Q_{l}K_{l}^{T}}{\sqrt{d}}, \tag{1}
A_{l}=Softmax(S_{l}). \tag{2}

最后,通过加权乘法使用注意力权重来缩放

V_{l}

中的值,以计算缩放的点积注意力,定义为:

\tilde{X}_{l}=A_{l}V_{l}, \tag{3}

其中,

\tilde{X}_{l}

表示在第

l

层的缩放点积注意力输出的特征。

然而,由于自注意力机制的全局性质,处理相当数量的 Patch 或大的

d

需要较高的计算成本。因此,Ashish等人[34]提出了多头自注意力机制(MHSA)以在需要大量工作负载时保持计算需求。

这种方法使用

H

个不同的注意力头,在每个维度为

d/H

的子空间中计算自注意力,这些子空间由Q、K和V向量导出,而不是考虑它们的全维度

d

。这样,计算就被并行化,模型可以同时关注来自不同子空间表示在不同位置的信息。最后,将每个头的输出连接起来以获得最终的注意力输出。形式上,MHSA操作表示为:

M\,HSA(X_{l})=Concat([A_{l,h}V_{l,h}]_{h=1}^{H}), \tag{4}

在这里,

h

代表 Head 索引,

A_{l,h}

V_{l,h}

分别是 Head

h

和层级

l

的注意力权重矩阵和价值向量,而

Concat(\cdot)

表示沿着 Head 维度对

H

产生的特征图进行拼接。因此,

\tilde{X}

现在可以表达为如下形式:

\tilde{X}_{l}=Concat([\tilde{X}_{h,l}]_{h=1}^{H}), \tag{5}

其中

\tilde{X}_{h,l}

表示在第

l

层和第

h

个 Head 的注意力缩放值。

另一方面,MLP模块独立地从每个 Patch 中提取特征,通常是通过堆叠两个具有参数

W_{a}

W_{b}

的线性层,并在它们之间设置一个非线性激活函数

\sigma

。这个模块也代表了 Transformer 块的最后处理操作,它接收输入

\tilde{X}_{l}

并生成第

l

层的输出特征,记为

X_{l+1}

,因为它们将作为第

l+1

层的输入特征使用。形式上,它可以表示为:

MLP(\tilde{X}_{l})=\sigma(W_{a,l}\tilde{X}_{l})W_{b,l}, \tag{6}

其中

W_{a,l}

W_{b,l}

是组成第

l

层MLP的两个堆叠线性层的权重。

Feature Collapsing

特征坍缩是在ViT架构中常见的一种现象。它指的是从不同的图像块提取的特征随着网络深度的增加而失去其独特性,变得越来越相似或无法区分的现象。这一现象主要由于ViT中使用的注意力机制的性质,该机制在通过网络层的过程中逐渐从各个图像块中聚合信息。这个过程可以用数学方式描述,将方程式(5)表示为以下形式的特征块加权求和:

\hat{X}_{l,h}^{i}=\sum_{j=1}^{N}A_{l,h}^{i,j}X_{l,h}^{j},\text{subject to}\sum_{j=1}^{N}A_{l,h}^{i,j}=1,\text{for}\ i=[1,2,...,N]. \tag{7}

在这里,

\hat{X}_{l,h}^{i}

表示来自 Patch

i

的特征向量,并且代表了所有 Patch 特征的加权平均值。权重由注意力图

A_{l,h}

中的值决定。尽管注意力机制旨在捕捉不同特征 Patch 之间的全局关系,但它可能导致特征多样性的丧失,进而引发特征崩溃。

为了为此观察提供证据,图3展示了对于ViT的特征相似性矩阵的可视化表示。这个矩阵是通过计算由ViT模型提取的不同特征 Patch 之间的余弦相似性来构建的。该图揭示的关键洞察是,随着特征从模型的较浅层进展到较深层,它们之间的相似性有明显的增加趋势。

一种减轻这种现象的方法是使用残差连接,这种连接在不同层之间的特征之间建立联系,同时绕过注意力机制。从形式上讲,结合了MHSA操作的残差连接可以表达为如下:

\text{residualMHSA}(X_{l})=\text{MHSA}(X_{l})+X_{l}. \tag{8}

在这个公式中,身份投影

X_{l}

与MHSA操作并行进行。直观地说,因为在通过MHSA操作之前,

X_{l}

中的特征表现出更大的多样性,两个特征向量的和保留了前一层的特点。因此,输出保留了更多样化的特征。在[32]中可以找到支持这一现象的实证证据。

受到这些发现的启发,本研究提出了一种解决此问题的新方法。具体而言,它建议在注意力层之间引入一种新颖的替代残差连接(不绕过注意力机制),旨在遏制注意力在头维度的快速扩展,这是特征崩溃的主要来源,并增加特征多样性,如图3所示。

Residual Attention

通常,ViT模型定制涉及修改MHSA机制、归一化层、MLP组件或特征间的残差连接,以保持相邻 Transformer 块之间在特征 Level 上的特定信息流。为了扩展这种信息流以提高特征多样性,如图4(a)所示的ReViT架构引入了连续MHSA层之间的一种新型跳跃连接,如图4(b)所示,这使得注意力可以从浅层传播和累积到更深层次。这种扩展,表示所提出的残余注意力,是对每个 Transformer 块末端的残差连接的补充过程。

实际上,尽管现有的跳跃连接通过绕过MHSA层将低级特征传播到更深层,但残余注意力传播来自

Q

K

的信息,这定义了用于提取这些特征的区域之间的关系,从而使得新的注意力能力在考虑先前提取的关系的同时学习提取新关系。形式上,所提出的注意力机制是通过改变方程(1)中定义的

S_{l}

矩阵的计算来实现的。

具体来说,方程通过添加一个额外的项来扩展,该额外项表示前一个MHSA层的

Q

K

与当前层的聚合,如下所示:

S_{l}=\begin{cases}\frac{Q_{0}k_{0}^{T}}{\sqrt{d_{0}}},&\text{if }l=0\\ \gamma(\frac{Q_{l}k_{l}^{T}}{\sqrt{d_{l}}},S_{l-1}),&\text{otherwise}\end{cases}, \tag{9}

在这里,

l

表示第

l

个注意力层,而

\gamma

是一种排列不变聚合函数。对于

l=0

的情况,按照方程式 (1) 定义计算注意力。否则,对于

l>0

的情况,

S_{l}

是通过

S_{l-1}

\gamma

Q_{l}

K_{l}

的缩放点积得到的。按照这种推理,相邻的MHSA层之间的信息流动被扩展到标准流动之外,标准的流动仅限于特征转发,传播前一层中用于聚合信息的注意力。然而,传播和积累此类信息可能会阻止网络学习高级表示,同时放大与低级特征相关的注意力。

为了避免这个问题,实现

\gamma

为一个加权求和,其中引入一个可学习的门控变量

\alpha

,允许网络自主确定在层间传播多少注意力。确切地说,

\alpha

在聚合过程中平衡从上一MHSA层传输到当前MHSA层的剩余注意力的数量。正式地,方程式 (9) 进一步扩展如下:

S_{l}=\begin{cases}\frac{Q_{l}\cdot K_{l}^{T}}{\sqrt{d_{l}}}&\text{if }l=0\\ \alpha(\frac{Q_{l}\cdot K_{l}^{T}}{\sqrt{d_{l}}})+(1-\alpha)(S_{l-1}),&\text{ otherwise}\end{cases}, \tag{10}

在获得平衡的注意力得分

S_{l}

后,根据方程式(2),应用softmax函数来计算获取新的缩放点积注意力输出所需的注意力权重

A_{l}

,如图2(b)所示。

考虑到残差注意力的实现,它可以轻松地被融入到现有的单尺度或多尺度视觉 Transformer 架构中,同时保持相似的计算成本其中

\alpha\in]0;1[

Attention Globality

注意力全局性是一个概念,它反映了注意力机制囊括并考虑图像中所有区域信息的能力,而不仅仅局限于局部或邻近的元素。这种能力在ViT的深层中尤为明显,因为这些层可以提取能够体现区域间长距离关系的高级表示。

为了量化注意力机制在头和层之间的全局性,文献[8]中的研究行人引入了一种称为非局域性度量的指标。这个度量标准为每个 Query 区域

i

计算与所有关键区域

j

的相对位置距离,这些距离通过它们的注意力得分

A_{I,h}^{i,j}

进行加权。然后将这个总和除以区域数量,得到特定头

h

的非局域性度量。这还可以在注意力头之间进行平均,以获得整个层的非局域性度量。从数学上讲,这个度量定义如下:

D_{l,h}=\frac{1}{N}\sum_{i,j}A_{I,h}^{i,j}||\delta^{i,j}||,D_{l}=\frac{1}{H} \sum_{h}D_{l,h}. \tag{11}

在这里,

||\delta^{i,j}||

表示 Query 块

i

和关键块

j

之间的相对位置距离,

D_{l,h}

表示在给定层

l

和头

h

中的非局部性度量,而

D_{l}

则表示沿着头维度的

D_{l,h}

的平均值。此外,由于

||\delta^{i,j}||

在整个网络中保持恒定(即块之间的相对位置不变化),

D_{l,h}

的值完全依赖于

A_{l,h}

进一步地,随着在更深层中非局部性度量

D

的增加(表示向全局注意力转变),这表明在这些层中的注意力矩阵

A_{l,h}

(相应地

A_{l}

)通常比来自前一层注意力矩阵具有更大的能力,捕捉不同注意力头之间的全局关系。这种注意力机制的性质可以被利用来展示在减缓全局化

A_{l}

的过程中采用残差注意力的优势。

考虑到方程(10),它定义了用残差连接计算

A_{l}

的方法,它不仅考虑了来自当前层

l

的注意力分数,也考虑了来自之前层的分数。因此,在ReViT中,给定一个头,层

l

的全局性可以表示为:

D_{l,h}=\frac{1}{N}\sum_{i,j}[\alpha(A_{I,h}^{i,j})+(1-\alpha)(A_{I-1,h}^{i,j} )]||\delta^{i,j}||. \tag{12}

从理论角度来看,得益于上述方程,考虑到早期层(

A_{l-1}

)的注意力分数通常比当前层

l

的更倾向于局部聚焦,这些分数集的加权组合预期会产生一个注意力矩阵,其全局性比仅使用当前层的分数时要弱。

换句话说,将给定层

l

的注意力分数与通过每个头

h

的残差注意力与前一层结合,减缓了全局化的过程。对于实证证明,请参考第4.4节。

4 Experiments

在本节中,作者介绍了所提方法的实现细节以及在图像分类、目标检测和实例分割方面的一些具有挑战性数据集上的测试。特别是,作者首先给出在多种设置下作者方法的实现细节。随后,作者报告了在五个图像分类基准上的测试结果,分别是ImageNet1K、CIFAR-10、CIFAR-100、Oxford Flowers-102和Oxford-IIIT Pet。接着,作者报告了在Oxford Flowers-102和Oxford-IIIT Pet数据集上位置和尺度变化(即平移不变性)下的测试结果。选择这些数据集进行平移不变性测试是因为它们的高质量有助于在应用如尺度缩小等平移变换后保留重要信息。

此外,作者研究了在ImageNet1K上训练的网络的注意力机制,既定量使用方程(11-12)中定义的非局部性度量,也定性比较了用GradCAM算法提取的在学习到的特征图上,所提方法与标准ViT之间的差异。此外,作者还报告了测试结果,这些结果展示了在空间感知多尺度架构(如Swin和MViTv2)之上实施作者的方法在下游任务(如COCO2017数据集上的目标检测和实例分割)中的有效性。

Implementation Details

提出的ReViT方法被实现为标准ViT架构的增强版本。具体来说,作者使用PyTorch框架,在标准ViT实现的基础上集成了残差注意力模块。关于本研究中使用的网络版本,作者仅依赖于包含12层的基础版ViT,并将其称为ViT-B。因此,作者将作者的网络命名为ReViT-B。

此外,如上所述,作者进行了实验,以测试作者的方法在多尺度架构中的应用效果,分别是MViTv2和Swin。为了实现这些网络,作者从它们的官方PyTorch实现出发,并使用作者的模块进行扩展。而且,对于MViTv2和Swin,作者使用了它们的小型版本,即每种都有12层的MViTv2-T和Swin-T,并将作者的实现命名为ReMViTv2-T和ReSwin-T。使用每个网络的较小版本的合理性在于,它们需要的计算资源较少,而且通常较大版本需要在大规模数据集上(如ImageNet21K甚至更大的数据集)进行预训练。

为了训练作者的网络,作者使用了与它们官方研究报告中相同的配置,并在配备了32GB RAM的NVIDIA V100 GPU上运行实验。具体来说,对于在ImageNet1K上的图像分类,所有模型都训练了300个周期,输入图像尺寸为

224\times 224

,使用了梯度裁剪和余弦调度学习率预热/衰减。对于ReViT-B网络的训练,使用了Adam [17]作为优化器,基础学习率设置为0.001,预热周期为30,有效批量大小为4096,权重衰减设置为0.3。而对于ReSwin-T模型的训练,则使用了AdamW优化器,将基础学习率设置为0.001,预热周期为20,有效批量大小为1024,权重衰减设置为0.05。

最后,残差ReMViTv2-T网络训练使用AdamW优化器,基础学习率设置为0.002,预热周期为70,有效批量大小为2048,权重衰减设置为0.1。关于其他的图像分类任务,作者为了公平比较,使用了与[7]中报告的相同的训练设置。此外,关于目标检测和实例分割任务,由于这些任务需要特征的局部感知,实验仅使用ReSwin-T和ReMViTv2-T模型进行。

这些模型使用AdamW作为优化器,并使用线性调度学习率衰减,训练了36个周期。对于ReSwin-T网络的训练,初始学习率设置为0.0001,权重衰减为0.05,批量大小设置为16。而对于ReMViTv2-T模型的训练,初始学习率设置为0.00016,权重衰减为0.1,批量大小设置为64。

Image classification

在图像分类任务中,模型主要在ImageNet1K上进行评估,该数据集被认为是最重要的基准之一。为了评估模型的性能,作者使用了top-1单裁剪准确度指标,并在表1中报告了获得的结果。可以看出,所有融合了残差注意力模块的模型在所使用的指标上都优于其原始网络对应模型。特别是,带有残差注意力的ReViT-B、ReMViTv2-T和ReSwin-T模型分别比其原始对应模型提高了4.6%、0.4%和0.2%。

值得注意的是,ReViT-B相较于ViT-B显示出显著的改进,表明残差注意力在仅采用全局注意力的单尺度架构中更为有效。这是因为这样一个模块是为了对抗注意力机制的过度全局化现象,这种现象在ViT-B架构中表现明显。相反,像Swin-T和MViTv2-T这样的多尺度架构拥有内置的局部机制,有助于在整个网络中保留低级特征。

因此,在这些网络中,即ReSwin-T和ReMViTv2-T,残差注意力的效果较低,但仍然增强了它们的表示能力,并与原始对应模型相比实现了更好的性能。除了性能提升之外,另一个强调残差注意力在单尺度架构中重要性的有力因素是参数

\alpha

。值得注意的是,在ReViT-B中,

\alpha

的值相对于ReSwin-T和ReMViTv2-T观察到的值要小得多。如方程式(10)所示,这种差异表明,在ReViT的背景下,先前的注意力具有实质上的更大重要性。

此外,表2提供了与现有最先进技术的更广泛比较,表明带有残差注意力的模型甚至与最佳模型相比表现更佳。

随后,对ReViT-B模型在多个图像分类基准上进行了测试,包括CIFAR-10、CIFAR-100、牛津花卉-102和牛津-IIIT宠物。然后,将ReViT-B的性能与ViT-B模型进行了比较,结果如表3所示。

值得注意的是,带有残差注意力的ReViT-B在所有数据集上均一致优于ViT-B,CIFAR10上的最低提升为0.6%,CIFAR100上的最高提升为3.4%。这种改进可以归因于残差注意力模块能够捕获更广泛的视觉特征,从而增强了网络根据图像内容区分不同类别的能力。其他模型没有在这些数据集上进行测试,因为它们官方的研究没有提供实验结果,仅关注大规模数据集。

Translation Invariance

在本研究中,用于视觉识别的数据集通常将感兴趣的目标置于图像中心。这与现实世界场景中,目标可能位于场景任何位置形成鲜明对比。为了评估ReViT的鲁棒性,设计了两个实验,模拟图5中所示图像内目标目标的不同尺度和位置。在这些实验中,比较了ReViT-B和ViT-B在Oxford Flowers-102和Oxford-IIIT Pet数据集上的性能。

第一项实验评估了模型处理水平和垂直平移的能力。为了实现这一点,输入图像在图像平面上分别进行水平和垂直移动,移动范围是像素的[15, 30, 45, 60]%,空缺区域用零填充,以保持输入图像大小不变,如图5(a)和(b)所示。正如表4和图6(a)所示,两个模型表现出类似的且令人印象深刻的水平平移不变性,性能只有轻微下降。

总体来看,ReViT-B在水平翻译不变性方面表现略优,特别是在60%的翻译水平上。对于Oxford Flowers-102数据集,ReViT-B在60%翻译时的性能比ViT-B降低了2.9%以下;而对于Oxford-IIIT Pet数据集,降低幅度为1.0%以下。在垂直翻译不变性方面,也观察到了类似趋势,如表5和图6(b)所示。尽管两个模型在性能上都有相当的下降,但ReViT-B在整体垂直翻译不变性方面表现更佳,特别是在Oxford Flowers-102数据集上,其性能比ViT-B降低了3.6%以下。

在第二个实验中,评估了两个模型的尺度不变性,结果展示在表6和图6(c)中。为了生成不同尺度的图像,原始图像的宽度和高度按照{15, 30, 45, 60}%进行缩小,并通过零填充保持正确的输入尺寸,如图5(c)所示。

与第一个实验不同,在尺度不变性方面,ReViT-B模型一致性地优于ViT-B模型。在Oxford Flowers-102数据集的情况下,ReViT-B的性能准确度降低最高达19.5%;而对于Oxford-IIIT Pet数据集,其性能下降比ViT-B最高低4.7%。这些结果表明,与ViT-B相比,ReViT-B具有显著更好的尺度不变性。

Residual Attention and Globality

对MHSA在视觉 Transformer 中的全局范围的影响的研究,包括带残留注意力和不带残留注意力的,旨在验证残留注意力是否会减缓注意力机制全局化的假设。为了定量评估这一假设,作者采用了根据方程式(11)计算的非局部性指标。此外,该指标在头 Level 和层 Level 都进行了计算。这一分析的结果如图7所示,展示了在ImageNet1K验证集中256张输入图像上,针对在相同数据集上训练的ViT-B和ReViT-B模型的平均指标。图中的x轴对应于层索引,而每个头或层的平均非局部性在y轴上表示。

图7(a)说明了在ViT-B中,随着深入到更深的层,每个头的非局部性会增加,接近全局性,这与[7, 8]中的发现相一致。在ReViT-B中也可以看到类似的趋势,如图7(b)所示,尽管有一些值得注意的区别。值得注意的是,ViT-B在非局部性方面表现出更一致和单调的增加,特别是在第5层之后,不同头之间的变化最小。相比之下,ReViT-B在不同头之间显示出更多样化的差异,一些头难以摆脱局部性,而其他头则完全变得全局化,导致非局部性的单调递增减少。

总之,这些结果证实了视觉 Transformer 中头的注意力感受野在更深层中变得全局化的假设,这一现象在ViT-B和ReViT-B模型中都有观察到。然而,这些发现也揭示了ReViT-B在更深层保留了提取全局关系的能力,同时仍然保持了一些相对低非局部性值的局部化头。与此同时,ViT-B仅限于全局关系,导致了特征崩溃。

为了提供更广泛的视角,图7(c)展示了在层 Level 上ViT-B和ReViT-B的非局部性,表示为每个层内所有头的平均非局部性指标。很明显,当使用相同的256个输入示例进行计算时,ReViT-B(除了第一个)始终维持较低的非局部性值,这表明它能够借助相对局部化的头,将低级特征整合到表现出非局部性逃离(即变得全局化)的头所学习的表示中。

Qualitative Comparisons

所提出的残差注意力模块的有效性通过定性评估使用MHSA机制学习的ViT-B和ReViT-B特征进一步得到证实,分别对比了有无残差注意力的情形。为了进行这种比较,作者采用了GradCAM算法,并将其应用于在ImageNet1k上训练的ViT-B和ReViT-B的最后两个MHSA层,使用了同样数据集验证集中的样本。

值得强调的是,由于第11层和第12层具有高全局性,因此被选择,这与本实验的目标一致,即突出ReViT-B相较于ViT-B如何将低级特征融入到其学习表示中。接下来,在图8中展示了两个模型的特征图以及用于获得这些特征的输入图像。

可以看出,从ViT-B提取的特征图在细节上较差,并且缺少如形状和边缘这样的低级特征。这是由于其注意力机制的全局化引起的,这导致了特征崩溃现象。这也证实了文献[8]中作者的观察,即基于标准MHSA的ViT架构通常表现出有限的注意力变化,导致特征多样性减少甚至特征崩溃。

相反,配备了残差注意力的ReViT-B显示出更大的特征多样性,其特征图几乎与感兴趣目标所在整个区域完全对齐,保持了相同的形状。这种现象表明ReViT-B可以将低级信息如形状和边缘与场景的全局上下文结合。

此外,这种能力可以归功于残差注意力。得益于这种机制,网络可以将注意力图从浅层传播到深层,减缓注意力的全局化,提高特征多样性,并将低级特征融入全局上下文中。值得注意的是,这种增强的特征多样性与ReViT在图像分类准确性方面相较于标准ViT架构的改进性能相一致。

Object Detection and Instance Segmentation

为了评估残差注意力模块的普遍适用性,作者测试了其在下游任务中的知识迁移能力。因此,在空间感知网络(即ReSwin-T和ReMViTv2-T)上进行了进一步实验,用于目标检测和实例分割任务,实现了结果的增长。该评估是在COCO2017数据集上进行的,这两个任务都采用了COCO平均精度(AP)指标,输入图像的尺寸调整为

480\leq H\leq 800

W=1333

为了与文献[24]和[20]提出的解决方案进行公平比较,分别使用了Cascade Mask-RCNN模型和Mask R-CNN模型,并以ReSwin-T和ReMViTv2-T作为它们的 Backbone 网络。此外,ReSwin-T和ReMViTv2-T都使用了在ImageNet1K训练期间学到的权重进行初始化,从而实现了知识迁移。

表7总结了在5000个验证图像子集上的结果。对于目标检测任务,与原始的Swin-T架构相比,ReSwin-T模型在

AP_{box}

AP_{box}^{50}

上的性能更高。至于ReMViTv2-T模型,与原始的MViTv2-T架构相比,在考虑的所有AP上都提升了性能。对于实例分割任务,带有残差注意力的ReSwin-T和ReMViTv2-T在所有指标上的整体性能相比于它们原始的工作都有所提升,尽管提升幅度不大。

5 Ablation Study

在本节中,作者进行了一项消融研究,以确定在所提出的残差注意力中平衡过去和当前注意力信息的显著性。作者将特别研究参数

\alpha

对包括CIFAR10、CIFAR100、牛津花卉-102和牛津-IIIT宠物在内的各种图像分类基准的影响。

Inspecting the effect of

\alpha

残差注意力的概念通过快捷连接在多样化的层次间传递注意力信息,其形式化表示在方程(10)中。引入一个可训练的门控变量,记作

\alpha

,确保在此连接中平衡地整合残差注意力信息。

\alpha

的关键作用在于它能够调节过去和现在信息流的平衡,保持一种和谐的均衡状态。设计了一系列精细的实验来实证研究这个变量的影响。

这些实验涵盖了在分类任务中评估ReViT性能的过程,保持门控变量恒定,同时手动调整其值以观察模型的行为。具体来说,作者对ReViT在四个分类基准上的表现进行了测试:CIFAR10、CIFAR100、牛津花卉-102和牛津-IIIT宠物,其中

\alpha

值从0变化到1。0代表下限,只考虑过去的注意力,而1代表另一个极端,完全忽略过去的注意力(即ViT)。

这些实验的结果在图9中进行了图形化展示。对于

\alpha=0

,根据方程(10),ReViT只依赖于第一层的注意力信息,如预期的那样,性能有所下降,特别是在CIFAR100和牛津花卉-102这样复杂的数据集上。这种性能的下降可以解释为,对于

\alpha=0

,ReViT缺乏全局上下文。对于其他

\alpha

值,值得注意的是,在具有少量类别和每类别充裕例子的数据集(如CIFAR10)中,影响相对较小。然而,在与CIFAR10相比具有较大类别间和类别内变化的更具挑战性的数据集,如牛津-IIIT宠物中,

\alpha

的作用变得更加关键,这体现在模型对变化的

\alpha

值非常敏感,从而影响其性能。

此外,在CIFAR100和牛津花卉-102这样更复杂的数据集中,

\alpha

对ReViT的影响变得更加重要,并且模型在

\alpha=0.75

时达到峰值性能,在接近1时急剧下降。考虑到接近1的

\alpha

值通常不会在所有数据集上获得最佳性能,很明显过去的注意力信息对学习更好的表示至关重要,而

\alpha

在ReViT中扮演了至关重要的角色。它平衡了过去和当前注意力信息的整合,有助于提取包含高低层次特征的优质图像表示。

6 Conclusion

在这项研究中,作者引入了创新的残差注意力视觉 Transformer (ReViT)网络,该网络将残差注意力学习整合到视觉 Transformer (ViT)架构中,以增强视觉特征的提取。所提出的方法有效地在连续的多头自注意力(MHSA)层间传递和积累 Query 和键的注意力信息。这种残差连接防止了低级视觉特征的减弱。

此外,它通过减缓注意力机制的全局化,使模型能够利用之前提取的特征同时学习新特征。作者在五个流行的图像分类基准上验证了所提方法的有效性和鲁棒性,包括ImageNet1K、CIFAR-10、CIFAR-100、牛津花卉-102和牛津-IIIT宠物,以及在COCO2017数据集上进行的目标检测和实例分割。结果表明,残差注意力学习提升了基于ViT的神经模型在视觉识别任务中的性能。

此外,当它被集成到空间感知神经网络中时,它熟练地保持了并增强揭示和融合语义及空间关系的能力,有助于图像中个别目标的识别、定位和分割。然而,由于引入的残差模块与注意力机制的全局化相对立,当它应用于具有局部感知的多尺度架构时,其效果有限,与在具有全局注意力的单尺度架构中的应用相比,提升较少。

受到这些局限性的启发,未来工作中,改进残差注意力模块以更好地适应多尺度 Transformer 架构,可能会进一步深入了解其在这些架构中的有效性。

参考

[1].ReViT: Enhancing Vision Transformers with Attention Residual Connections for Visual Recognition.

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-02-27,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 集智书童 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Background and Methodology
    • Vision Transformer Layer
      • Feature Collapsing
        • Residual Attention
          • Attention Globality
          • 4 Experiments
            • Implementation Details
              • Image classification
                • Translation Invariance
                  • Residual Attention and Globality
                    • Qualitative Comparisons
                      • Object Detection and Instance Segmentation
                      • 5 Ablation Study
                        • Inspecting the effect of
                        • 6 Conclusion
                        • 参考
                        相关产品与服务
                        NLP 服务
                        NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
                        领券
                        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
                        http://www.vxiaotou.com