CFPFormer| 将特征金字塔与 Transformer 完美融合，显著提升图像分割与目标检测效果！

集智书童公众号

发布于 2024-04-30 18:24:22

3650

发布于 2024-04-30 18:24:22

点击下方卡片，关注「集智书童」公众号

特征金字塔在卷积神经网络（CNNs）和 Transformer 中得到了广泛应用，用于诸如医学图像分割和目标检测等任务。然而，目前存在的模型通常关注编码器侧的 Transformer 以提取特征，通过精心设计的架构，解码器的改进可以带来进一步的潜力。作者提出了CFPFormer，这是一种新颖的解码器块，它集成了特征金字塔和 Transformer 。具体来说，通过利用 Patch 嵌入、跨层特征拼接和高斯注意力机制，CFPFormer在提高特征提取能力的同时，促进了跨多样化任务的泛化能力。得益于 Transformer 结构和U形连接，作者引入的模型能够捕捉长距离依赖关系并有效地上采样特征图。与现有方法相比，作者的模型在检测小物体方面取得了优越的性能。作者在医学图像分割数据集和目标检测基准（VOC 2007, VOC2012, MS-COCO）上评估了CFPFormer，证明了其有效性和多功能性。在ACDC Post-2017-MICCAI-Challenge在线测试集上，作者的模型达到了异常令人印象深刻的准确度，并且在Synapse多器官分割数据集的原始解码器设置中表现良好。

1 Introduction

深度学习技术的出现，特别是像U-Net [20]这样的卷积神经网络（CNNs），通过提高图像分割和分析等任务的准确性和效率，显著推动了该领域的发展。这在现代医疗中发挥着关键作用，帮助临床医生进行准确诊断、治疗规划以及疾病监测。

然而，随着网络的加深和缩小，它们可能会丢失来自较低层的至关重要的高密度信息，这影响了它们在医学图像中捕捉细粒度细节和小型结构的能力。因此，先前的研究使用了跳跃连接[11]来恢复这些信息，它们以简单的拼接形式出现，如TransUnet 。

同时， Transformer （transformers）在捕捉各种领域中的长距离依赖关系方面表现出卓越的能力，包括自然语言处理和图像处理[15, 3]。在图像处理中，带有位置编码的2D图像块作为输入序列馈送到 Transformer 中，使它能有效地在整个图像中建模长距离依赖关系[6]。

然而，在类似U-Net架构的上采样和解码阶段中使用的传统转置卷积层通常难以捕捉到密集的、局部化的特征，这对于医学图像中的全局上下文和小型结构的准确分割至关重要[30]。这一限制源于卷积操作的固定核大小和稀疏连接模式，这可能导致不能有效地整合多尺度特征和长距离依赖关系[17, 21]。此外，跳跃连接中特征简单的拼接可能并不最优地融合在不同尺度上学到的丰富表示[22]。

鉴于这些挑战，并认识到U-Net-like架构和 Transformer 的优势，作者的研究在特征金字塔框架内引入了一种名为Cross Feature Pyramid（CFP）块的新型架构。CFP块作为解码块，旨在恢复在下采样过程中丢失的高密度信息。通过结合图像块嵌入和注意力机制，CFP块旨在从较低层检索像素级信息，从而增强模型捕捉医学图像分析任务中细粒度细节和小型结构的能力。

作者架构的一个关键方面是在CFP块中使用高斯注意力机制。这种注意力机制旨在曲线内衰减注意力，高效地优先处理来自相关层的信处，同时过滤掉噪声和无关细节。此外，通过将特征图与键值对（KV）拼接，CFP块使注意力机制意识到跨层特征。这不仅提高了模型在小目标检测和分割方面的性能，还改善了模型对医学图像中复杂空间关系的整体理解。

在这项工作中，作者提出了一种解决医学图像分析关键挑战的新方法。作者的模型利用行和列上的高斯注意力高效地捕捉长距离依赖关系，而无需像素级注意力的计算成本。

作者方法的核心是Cross Feature Pyramid（CFP）架构，它具有与U-Net和CenterNet等各种网络架构无缝集成的灵活性。这种多功能方法因此非常适合于后续部分将展示的各种医学成像应用。

总的来说，作者提出：

作者提出作者的主要机制CFPFormer，通过扩展来自Vision Transformer的潜力，有效地从编码器中解码长距离细节。
作者将注意力计算分解为带有高斯衰减的行和列。新方法精确地增强了解码后的特征图，并为作者的模型提供了更好的性能。
通过引入特征重编码（FRE），它重新组装了来自那些图像编码器的每个输出，并调整以适应解码器层。CFPFormer展开了基于解码器模型的潜在增量，并带来了令人印象深刻的增长。

2 Related Work

CNN-based Methods

卷积神经网络（CNNs），如U-Net[20]，一直是医学图像分析任务的主力。这些网络由下采样和上采样组件组成，它们协同工作。

下采样组件通过一系列卷积和池化层逐渐降低输入图像的空间分辨率。在每一层，卷积操作使用可学习的滤波器提取局部特征，如边缘、纹理和模式。随后，池化操作在空间上缩小这些特征图，减小其空间尺寸，增强感受野，并促进对局部平移的不变性。

当作者深入到下采样过程中，特征变得更加抽象，捕获与任务相关的高层语义概念。然而，这种抽象的代价是失去了细粒度的空间细节和分辨率，这对于像分割这样的像素级预测任务至关重要。

上采样组件旨在恢复这种丢失的空间分辨率并生成最终的输出预测。它执行一系列上采样操作，通常使用转置卷积[29]或插值，逐渐增加特征图的空间尺寸。U-Net架构中的跳跃连接[11]将从对应下采样层中的特征图与上采样特征连接起来。这些跳跃连接为上采样层提供了早期层中的细粒度细节，有助于精确定位和边界描绘。

尽管它们取得了成功，但由于其局部感受野，CNNs在捕捉长距离依赖方面存在限制，这阻碍了它们有效建模医学图像中的复杂空间关系和全局上下文的能力。为了解决这个问题，采用了像扩张卷积[28]这样的技术来扩大感受野，而无需增加计算成本。

Transformer-based Methods

Transformer [24]，最初是为了自然语言处理中的序列到序列任务而提出的，已经成为在各种领域（包括医学图像分析）建模长距离依赖关系的强大替代方案。与在局部邻域操作的卷积神经网络（CNN）不同， Transformer 采用自注意力机制，使它们能够捕获整个输入序列的全局依赖关系。

为了将 Transformer 适用于图像数据，研究行人提出了各种策略。在Vision Transformer（ViT）[6]中引入的一种常见方法是将输入图像划分为非重叠的块，并将这些块视为输入序列中的标记。位置编码被融入模型，使其具有空间感知能力，能够区分来自图像不同位置块的差异。Transformer 编码器处理输入序列，并生成包含空间和语义信息的编码表示。

尽管纯 Transformer 架构在捕捉长距离依赖关系方面表现出色，但它们在医学图像分析中的应用面临挑战。它们通常需要大量的计算资源，这使得它们在资源受限的应用中不太实用。此外，它们对空间数据的固有归纳偏置缺乏，可能会阻碍它们有效地建模局部交互和细粒度细节，这些在医学成像任务中至关重要。

为了解决这些局限性，最近的研究探索了结合CNN和 Transformer 优势的混合架构。这些模型利用CNN编码器从输入图像中提取分层特征，然后将这些特征展平并投影到一个序列的嵌入中，作为 Transformer 编码器的输入。Transformer 编码器和上采样解码器捕获全局依赖关系并生成输出预测。这种方法包括TransUNet[4]和CoTr[27]。

另外，一些架构交替使用CNN和 Transformer 层，允许对特征和预测进行迭代改进。CNN层提取局部特征，接着是 Transformer 层建模长距离依赖关系，然后是CNN层进行空间重建和输出生成。这种方法在SwinUNet[2]和UNet[27]等模型中使用，这些模型结合了注意力机制，以调节CNN和 Transformer 组件之间的信息流，使模型能够自适应地关注与手头任务相关的特征和依赖关系。

通过结合CNN和 Transformer 的互补优势，这些混合架构旨在克服单个架构的局限性，并为需要细粒度空间建模和全局上下文理解的医学图像分析任务提供一个更全面的解决方案。

3 Method

以下是第3节方法的开始部分：

Preliminary

作者的模型架构建立在解码器结构之上。因此，CFPFormer旨在加强编码器和解码器层之间的关联，以激活编码特征潜力。这种架构的核心是跨特征金字塔（CFP）块，它包含了三个关键创新：高斯注意力、特征重编码和跨层特征整合。这些组件旨在提高模型捕捉复杂空间关系的能力，跨不同尺度整合信息，并减轻在缩放过程中密集信息的丢失。

Network Architecture

如图1所示， Backbone 网络的特征嵌入作为输入传递到金字塔层次结构中最低分辨率 Level 的跨特征金字塔（CFP）块。此块的输出随后被上采样并传递到金字塔中更高分辨率 Level 的下一个CFP块。这个过程重复进行，逐步向上移动金字塔到更高分辨率 Level 。

在金字塔的每个 Level ，CFP块接收来自前一个较低分辨率块的上采样特征。这些上采样特征与来自 Backbone 网络同一分辨率 Level 的特征相结合，后者提供低级空间信息并增强长距离依赖性，以指导CFP块内的注意力机制。

随着解码过程通过金字塔层次上升，特征通过作者提出的基于距离计算衰减 Mask 的高斯注意力进行处理，随后输出的是一组加强到金字塔顶部的高分辨率特征图。

这些特征图随后可以由特定任务的 Head 进一步处理，用于图像分割、目标检测或分类等应用。

Cross Feature Pyramid (CFP) Block

高斯注意力和轴向分解计算。CFP块采用了一种称为高斯注意力的注意力机制，该机制将特征计算定位在像素的行和列上。由于大多数视觉 Transformer 带来的计算负担，作者提出了在高斯衰减上的轴向分解计算，作者的模块将所有像素的注意力高效地分解为行注意力和列注意力。

该模块首先将输入嵌入

\mathbf{X}^{\prime}

线性投影到 Query （

\mathbf{Q}

）、键（

\mathbf{K}

）和值（

\mathbf{V}

）表示中：

Q=X^{\prime}W^{Q} \tag{1}

K=X^{\prime}W^{K}\oplus F_{enc} \tag{2}

V=X^{\prime}W^{V}\oplus F_{enc} \tag{3}

其中

\mathbf{W}^{Q}

、

\mathbf{W}^{K}

和

\mathbf{W}^{V}

是可学习的投影矩阵，

F_{enc}

表示从图像编码器中提取的特征。

这些表示随后被重新塑形，并用于行方向和列方向的注意力计算：

A_{r}=\text{softmax}\left(\frac{\text{reshape}(Q)\text{reshape}(K)^{T}}{\sqrt{ d_{k}}}\right)\odot M\hskip 28.452756pt\text{(行方向)} \tag{4}

A_{c}=\text{softmax}\left(\frac{\text{reshape}(Q)\text{reshape}(K)^{T}}{\sqrt{ d_{k}}}\right)\odot M\hskip 14.226378pt\text{(列方向)} \tag{5}

其中

\text{reshape}(\mathbf{Q})

、

\text{reshape}(\mathbf{K})

和

\text{reshape}(\mathbf{V})

是为行方向和列方向注意力计算而重新塑形的矩阵，

d_{k}

是键向量的维度。

CFP块的一个创新方面是使用了高斯注意力机制。与将接受域内所有位置赋予相等重要性的注意力机制不同，高斯注意力根据高斯曲线衰减注意力权重，高效地优先处理相关层的信息，同时过滤掉噪声和不相关的细节。

高斯注意力机制是通过基于空间位置之间的欧几里得距离生成一个2D衰减 Mask

\mathbf{M}\in\mathbb{R}^{H^{\prime}\times W^{\prime}}

来实现的：

\mathbf{M}[i,j]=\exp\left(-\frac{i^{2}+j^{2}}{2\sigma^{2}}\right) \tag{6}

D=M^{\sqrt{(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^{2}}} \tag{7}

其中

\sigma

是一个可学习的参数，用来控制衰减速率。

然后，这个衰减 Mask 被应用于注意力得分上，有效地用高斯衰减调节注意力权重，如公式7所示。

特征重编码CFP块的一个关键组成部分是特征重编码机制，它旨在通过利用来自低分辨率特征图的信息，增强模型捕获细粒度细节和小型结构的能力。

为了融合跨层的特征信息，特征重编码（FRE）模块中的键（K）和值（V）张量与来自网络下一层的编码器特征

F_{\text{enc}}

结合，如下所示：

FRE(K,F_{enc})=FRE(V,F_{enc})=V\oplus Patchembed(F_{enc}) \tag{8}

图1：跨特征金字塔变换解码器块的整体架构。

其中

F_{\text{enc}}\in\mathbb{R}^{B\times H_{enc}\times W_{\text{enc}}\times C_{ \text{enc}}}

，Patchembed是将特征分解为图像嵌入的层。这里作者接受下采样层的特征，图像大小

H_{enc}

和

W_{enc}

变为

\frac{H_{enc}}{P}

和

\frac{W_{enc}}{P}

。与直接将上采样卷积层与编码器特征 ConCat 的级联解码器（例如：TransUnet, PVT-CASCADE）不同，作者的跨特征组合允许注意力机制以更有效的方式与编码器中的低级空间信息交互。

类似的工作可以追溯到金字塔视觉 Transformer [26]，其建议使用空间缩减来通过线性投影拟合K和V张量的通道尺寸。

然而，作者的方法似乎是在解码器阶段内的相互作用，这使得模型能够通过利用高斯轴向注意力和输入数据中的结构更好地捕捉细粒度细节，如图2所示。

4 Experiments

作者进行了大量实验，在三个基准数据集上评估了作者的方法的有效性。

这些数据集包括：

(1) 数据集A，(2) 数据集B，以及(3) 数据集C。

为了公平比较，作者遵循了之前工作中使用的标准评估指标。

Datasets

为了评估作者提出的CFPFormer方法的有效性，作者在两个不同的任务上进行了实验：目标检测和医学图像分割。

目标检测数据集。作者使用了流行的COCO数据集[14]。该数据集包含20个目标类别和边界框标注，使作者能够评估模型在检测不同大小目标，包括小目标方面的能力。除此之外，在训练过程中还涉及了VOC 2007+2012数据集[9, 10]，这些数据集包含了超过20,000张现实生活场景的图像。

医学图像分割数据集。作者采用了两个具有挑战性的数据集：MRI自动心脏诊断挑战赛（ACDC）[1]和Synapse多器官分割挑战[12]。ACDC数据集包含100个MRI扫描，有左心室（LV）、右心室（RV）和心肌（MYO）的 GT 标注。作者遵循了标准的70-10-20的训练-验证-测试分割。另一方面，Synapse数据集包含来自30名患者的CT扫描，作者的实验设置和预处理方法与TranSUNet[4]中描述的方法学紧密相关。

Performance Evaluation

在目标检测任务中，作者采用了标准的平均精度（mAP）评价指标，该指标评估模型在检测目标和正确定位边界框方面的准确性。具体来说，作者报告了mAP@[0.5:0.95]得分，计算方式如下：

\text{mAP@}[0.5:0.95]=\frac{1}{10}\sum_{i=0.5}^{0.95}\text{AP@}\alpha i \tag{9}

其中，AP@i表示在交并比（IoU）阈值i下的平均精度。如果预测边界框和真实边界框之间的IoU超过阈值i，则认为预测是正确的。

在医学图像分割的情况下，作者使用了广泛使用的Dice相似系数（DSC）和Hausdorff距离（HD）指标来评估模型的性能。DSC衡量预测分割 Mask （

）和真实 Mask （

）之间的重叠，定义为：

\text{DSC}(P,G)=\frac{2\times|P\cap G|}{|P|+|G|} \tag{10}

其中

|\cdot|

表示集合的势。DSC值为1表示预测和真实之间完全重叠。

Hausdorff距离（HD）量化了预测和真实边界之间的最大距离，计算方式为：

\text{HD}(P,G)=\max\left\{\sup_{p\in P}\inf_{g\in G}d(p,g),\sup_{g\in G}\inf_{ p\in P}d(g,p)\right\} \tag{11}

其中

d(p,g)

表示点

和

之间的欧几里得距离。较低的HD值表示预测和真实边界之间的对齐更好。

Implementation Details

分割设置。在图像分割的数据增强过程中，作者加入了0度、90度、180度或270度的随机旋转，以及水平和垂直翻转，每种操作的几率都是50%。此外，作者使用双三次插值方法调整图像大小，以达到特定的图像尺寸。对于ACDC[1]和Synapse数据集[12]，作者的图像大小设置为

256\times 256

。训练以

1e-4

的学习率开始，衰减设置为

1e-4

。在训练期间，作者使用Adam优化器[13]来优化模型。

目标检测设置。作者采用VOC2007+2012[9, 10]和COCO[14]数据集作为训练数据，将VOC 2007验证集作为作者的基准结果。作者选择CenterNet[7]作为作者的基本检测方法，并选择AdamW[16]作为训练目标检测的优化器，学习率设置为

5e-5

，并进行了200个周期的 Warm up 。每张图像被调整大小并随机翻转，分辨率为

384\times 384

。

模型设置。在训练过程中，模型使用标准的损失函数进行优化，例如分类任务使用交叉熵，或者分割任务使用dice损失和交叉熵的组合。损失函数定义为：

\mathcal{L}=\mathcal{L}_{\text{task}}(\mathbf{X}^{L},\mathbf{Y}) \tag{12}

其中

\mathbf{Y}

表示 GT 标签，而

\mathcal{L}_{\text{task}}

是特定任务的损失函数（例如，分类任务的交叉熵，分割任务的dice损失）。作者提出的模型在各个块的比率和数量上提供了灵活性：默认设置为CFPFormer-Tiny，每个瓶颈设置为2,2,6,2，这代表了每个阶段的块数量。为了防止过拟合，drop-path率设置为0.15。

Results

结果部分的开始。

4.4.1 Medical Image Segmentation

在医学图像分割任务中，作者分别在表1和表2中报告了ACDC和Synapse数据集的DSC和HD指标。为了评估使用，作者的解码器与U-net作为编码器组装在一起，作为医学分割的一个 Baseline 模型，并结合了VGG-16和Resnet-50这两个 Backbone 网络。

作者的CFPFormer架构超越了其他相关方法，尤其是与其 Baseline U-net相比，证明了其在捕捉复杂解剖结构和描绘精确分割边界方面的有效性。与那些带有Resnet-50 Backbone 网络的模型相比，作者的VGG-16 CFPFormer尽管在 Backbone 网络中参数较少，但在RV和MYO类别中明显表现更佳。作者的R50 CFPFormer利用强大的上下文提取和较大的参数规模，在MYO类别中达到了更高的DSC。

为了提供定性的评估，图3展示了来自ACDC数据集的一个MRI切片样本，以及作者的CFPFormer模型生成的相应预测和真实分割 Mask 。该图展示了模型准确分割复杂解剖结构的能力，例如左心室、右心室和心肌。

4.4.2 Object Detection

表3展示了作者的CFPFormer模型在COCO和VOC数据集上获得的

AP_{50}

分数，并与几种相关方法进行了比较。作者选择了以Resnet-50作为编码器的CenterNet。与基准模型CenterNet及其相关变体相比，作者的模型表现出更优越的性能，这归功于其能有效捕捉细粒度细节和长距离依赖的能力。在这里，作者将CornerNet和CenterNet作为作者的基准模型进行比较，这些模型采用了 Anchor-Free 点方法在场景中检测目标。

Analysis

下游任务准确度的提升。与基准模型相比，作者的方法在平均性能上有更好的表现。由于作者的主要思想是在解码部分改进模型，作者将CFPFormer集成到CenterNet和U-Net的上采样层中，作者认为这些是需要改进的区域。表1和表3的结果表明，采用作者的方法可以获得更优秀的性能。

与Transformer编码器的结合提升。作者在表1中结合了金字塔视觉Transformer[26]并在ACDC数据集上进行测试。PVT现在主要作为图像 Backbone 网络，并且其准确性比Resnet50更高。为了与更大的编码器堆叠，特别是基于Transformer的网络，作者轻松地插入了CFPFormers，并通过训练函数传递编码器特征。为了在模型构建过程中减少复杂性，作者使用一组参数接收来自每个编码器层的张量。作者的CFPFormer解码器由4个Transformer解码器块组成，作者从这些块中替换CFP块，并固定与编码器层相对应的层的嵌入维度。结果是，PVT CFPFormer-T在DSC上比PVT-CASCADE[19]高出0.57个百分点，这证明了其比CASCADE解码器[19]具有更好的分解和重新排列能力。

上采样层。从选择不同的上采样层可以观察到一些细微的差异。在这里，作者实验了转置卷积层和Bilinear插值，如4所示。结果表明，上采样能力更优越，同时参数占用更少。

Ablation Studies

与相关工作的比较。 为了进一步分析作者CFPFormer架构中各种组件的影响，作者严格地将作者的模型与现有模型作为解码器进行比较。高斯注意力。 表中的“CFPFormer w/o GA”行指的是没有高斯注意力组件的CFPFormer模型。相反，作者用多头注意力（MHA）[24]的默认设置替换高斯注意力。通过比较其在Table 5中的

AP_{50}

得分63.9与CenterNet Baseline （63.7）之间的微小提升0.2分，作者可以观察到高斯注意力组件对整体性能有积极的贡献。

使用K & V进行特征重编码。 表中的“CFPFormer w/o FRE”行指的是没有使用键（K）和值（V）进行特征重编码组件的CFPFormer模型。其

AP_{50}

得分64.1比CenterNet Baseline 提高了0.4分，比“CFPFormer w/o GA”变体提高了0.2分。

CFPFormer-T。 “CFPFormer-T”行表示包含所有组件的完整CFPFormer架构。它实现了最高的

AP_{50}

得分66.0，比CenterNet Baseline 高出2.3分，比“CFPFormer w/o GA”和“CFPFormer w/o FRE”变体分别高出2.1分和1.9分。这表明CFPFormer架构中所有组件的结合使得其在比较的模型中性能最佳。

5 Conclusion

作者的工作主要贡献了一个新颖的解码器，它关联了编码器层间的特征，并通过U形金字塔重编码连接模块之间，这有助于削弱因长距离模型引起特征丢失的恶化。作者的高斯注意力机制在模型扩展时成功加快了计算速度，并有效地利用了高斯分布的 Mask 衰减来提升注意力的性能。得益于作者解码器的灵活性，它能够在多个图像下游任务中获得更高的性能，如医学图像分割和目标检测。