前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >精度与速度的双赢,很难拒绝 | SpectralMamba用动态卷积学习动态 Mask ,将 Mamba速度问题卷服!

精度与速度的双赢,很难拒绝 | SpectralMamba用动态卷积学习动态 Mask ,将 Mamba速度问题卷服!

作者头像
公众号-arXiv每日学术速递
发布2024-04-25 18:53:15
2820
发布2024-04-25 18:53:15
举报

递归神经网络和Transformer最近在光谱成像(HS)的大多数应用中占据主导地位,这归功于它们能够从光谱序列中捕捉长距离依赖关系。 然而,尽管这些序列架构取得了成功,但由并行化困难或计算上过于昂贵的注意力所引起的不可忽视的低效率仍然限制了它们的实用性,特别是在遥感场景中的大规模观测。 为了解决这个问题,作者提出了SpectralMamba——一种新颖的状态空间模型融合的高效深度学习框架,用于HS图像分类。SpectralMamba在两个层面上简化但对HS数据动态的建模是充分足够的。 首先,在空间-光谱空间中,通过有效的卷积学习动态 Mask ,同时编码空间规则性和光谱特殊性,从而降低在判别性表示学习中的光谱可变性和混淆。 其次,合并的光谱可以在隐藏状态空间中高效地操作,所有参数都依赖于输入学习,产生选择性的聚焦响应,而无需依赖冗余的注意力或不可并行的递归。 为了进一步探索计算缩小的空间,作者之间采用了一种分段扫描机制,将近似连续的光谱转换成长度压缩的序列,同时保持数百个波段之间的短期和长期上下文轮廓。通过在由卫星、飞机和无人机搭载的成像器获取的四个基准HS数据集上的大量实验,SpectralMamba在性能和效率方面出人意料地创造了双赢的局面。 关注公众号,私信「获取代码」获取链接地址。

I Introduction

高光谱(HS)成像技术的迅速发展显著增强了人类观察现实世界的能力,细节和深度都得到了提升[1]。与传统摄影仅在有限的几个宽光谱带内获取图像不同,高光谱成像系统通过测量每个像素的能量光谱,前所未有的同时实现了空间和光谱信息的捕获。生成的三维(3-D)高光谱数据立方体包含了每个空间分辨率元素的近乎连续的光谱轮廓,从而使得对成像内容的量化、识别和认定的准确性得到提高。得益于航空航天和仪器技术的最新进展[2],高光谱成像已逐渐成为遥感(RS)不可或缺的工具。在其广泛的应用中,高光谱图像分类在从环境监测、城市规划到军事科学等众多领域引起了广泛关注,展示了其潜在的普遍性和交叉重要性[3, 4]。

在遥感中,高光谱图像分类的主要目标是利用与每个像素相关联的详细光谱特征,准确识别图像内感兴趣的各种土地覆盖或土地利用类型[5]。尽管高光谱成像能够捕获数百个窄波长带(通常从可见光谱到近红外区域),为不同材料的光谱特性提供深入的表征,但在其实际应用中仍存在两个长期挑战。

  1. 维度灾难,也称为休斯现象,在处理高光谱图像分类时常常遇到,当观察到的光谱带越来越多时,分类精度最初会上升,但达到一定数量的波段后,精度会急剧下降。这个问题的根本原因在于,随着维度的扩展,特征空间体积呈指数增长,使得高光谱数据的计算处理和有效分析变得越来越负担沉重和具有挑战性。
  2. 光谱变异性和光谱混淆是高光谱数据中经常出现的另外两种现象。前者指的是同一种材料在不同条件下(如光照变化、大气效应或固有变异)显示不同的光谱特性,而后者是指不同材料表现出相似的光谱轮廓。

此外,与这些高光谱数据分析挑战伴随出现的还有其他一些问题,如标记训练样本的有限可用性,以及具有复杂分布的不可避免的传感器噪声,这使得仅基于光谱反射率精确区分地面目标变得更加困难。

为了应对这些挑战,研究行人在过去几十年中投入了大量精力,开发不断进步的维度降低和特征提取技术,以实现对高光谱图像的精确像素级识别。在早期阶段,研究行人探讨了统计方法的适用性,如主成分分析、独立成分分析、核方法[9]和线性判别分析,以及包括子空间学习、流形学习、集成方法和主动学习策略在内的机器学习和启发式技术,以有效地处理和分析高光谱数据。在此期间,像最近邻、决策树和支持向量机这样的浅层机器学习模型作为补充这些特征提取方法的有效的后端分类器而变得普遍。

随着过去十年深度学习(DL)在众多研究领域广泛应用,遥感社区也采纳了这一强大的学习范式来进行高光谱(HS)数据分析,利用其直接从数据中学习表示的能力,从而减轻了传统方法中由于数学建模不足而固有的认知偏差。在用于HS图像分类的各种DL架构中,卷积神经网络(CNN)长期以来一直占据着至高无上的地位。

得益于通过平移不变卷积的局部接收能力,典型的CNN成功地在端到端训练中实现了层次特征提取和语义抽象,从输入-目标对中学习。然而,尽管这个系列的模型擅长利用局部上下文信息,它们固有的局部连接性和权重共享不可避免地限制了在数据序列内部及跨序列的长距离相关性及动态的建模。

在这种情况下,序列模型,如循环神经网络(RNNs)和Transformers,因其在处理序列数据方面的有效性而受到关注。通过将HS光谱有序地展开成一条长序列,RNNs和Transformers本质上分别通过循环状态建模和注意力机制捕获长-短期的光谱指纹。此外,这些序列模型已被广泛证明在处理复杂遥感场景下的非线性数据动态方面比CNN更为胜任。

尽管有这些优点,它们本质上分别存在并行训练困难和繁重的成对乘法计算负担。尽管已经付出了巨大的努力来应对这些问题,但到目前为止,这些变体中的大多数在追求提高表示以实现准确性的突破时,网络结构或工作流程似乎越来越复杂,似乎已经达到了一个无法避免在性能与计算效率之间权衡的平台期。

幸运的是,状态空间模型(SSM)的最新进展使其得到广泛应用,并为序列性建模提供了一条新途径。基于来自控制理论的经典SSM理论基础和强大的现代DL优势,新兴的深度SSM首次允许在数万个时间步长上高效地进行非常长距离依赖的学习,并在各个领域越来越多地占据主导地位。然而,现有的SSM通常是为低维序列(如音频和语言)的因果学习而设计的,它们在处理如HS图像这样的高维视觉数据的实用性尚未充分探索。因此,在这项工作中,作者通过深入研究其特性,挖掘将SSM定制为HS数据的潜力。

更具体地说,作者提出了SpectralMamba——一个高效且有效的集成了SSM的DL框架,用于基于像素级和块级输入的HS图像分类。SpectralMamba利用在空间-光谱特征空间和隐藏状态空间中简化但充分地建模HS数据动态,从而减轻了光谱可变性和光谱混淆造成的影响。通过定制的扫描策略进一步减少了由参数大小和计算引起的底层计算开销,该策略可以增强序列表示,同时保持HS数据的局部光谱指纹。本文的主要贡献可以概括如下。

作者提出了一种基于SSM的新型 Backbone 网络,名为SpectralMamba,该网络从序列建模的角度进一步提高了对性能友好且计算效率高的高光谱图像分类。据作者所知,这是首次很好地将深度SSM适用于高光谱数据及其分析的工作。

针对高光谱数据的高维度、光谱可变性和混淆问题,作者提出了分段序列扫描(PSS)和门控空间-光谱融合(GSSM)的策略,以充分编码潜在的空间规律性和光谱独特性,通过完全轻量级的架构,产生更鲁棒的判别性表示。

通过在来自卫星、飞机和无人机平台的四个基准高光谱数据集上的广泛实验比较,作者的SpectralMamba在一般最小的计算资源成本下(如图1所示),显著优于具有经典 Backbone 的代表性竞争方法。消融研究进一步验证了作者关键组件的有效性,例如PSS在提高OA大约4%的同时,比作者的 Baseline 减少了60%的参数和40%的计算量。

本文的其余部分组织如下。第二节介绍状态空间模型的初步元素,详细阐述作者的SpectralMamba及其方法分析。第三节详细说明实验,包括数据集和实施的描述,性能和计算成本的评价,比较结果和分析,以及消融研究。最后,第四节总结这项工作,并指出可能的未来方向。

II Methodology

Preliminaries

Ii-A1 State Space Model

受到经典SSMs 和现代深度学习进展的启发,尤其是CNNs、RNNs和Transformers,结构化状态空间序列模型(S4)最近出现并引起了相当大的关注,用于建模序列数据。这类模型通常源于一个连续时间系统,该系统通过一个隐含的潜在状态

h(t)\in\mathbb{R}^{N}

将一个输入函数或序列

x(t)\in\mathbb{R}^{M}

映射到一个输出响应信号

y(t)\in\mathbb{R}^{O}

,可以用以下常微分方程组进行数学公式化:

h^{\prime}(t) =\mathbf{A}h(t)+\mathbf{B}x(t), \tag{1}
y(t) =\mathbf{C}h(t)+\mathbf{D}x(t), \tag{2}

其中

\mathbf{A}\in\mathbb{R}^{N\times N}

\mathbf{C}\in\mathbb{R}^{O\times N}

控制当前状态随时间演变并转换到输出,

\mathbf{B}\in\mathbb{R}^{N\times M}

\mathbf{D}\in\mathbb{R}^{O\times M}

分别描述输入如何影响状态和输出。在这里,作者考虑单输入单输出系统的情况,其中

O=M=1

,并通过将

\mathbf{D}x(t)

项作为跳过连接来省略它,正如S4模型所做的。

Ii-A2 Discretization

将SSMs应用于诸如语言、音频和图像等离散信号的第一步,是将系统参数转换为它们的“离散化”对应形式。常用的离散化方法是零阶保持规则,通过该规则,重新参数化的形式如下,

\mathbf{\bar{A}} =\exp(\Delta\mathbf{A}), \tag{3}
\mathbf{\bar{B}} =(\Delta\mathbf{A})^{-1}(\mathbf{\bar{A}}-\mathbf{I})(\Delta \mathbf{B})
\approx(\Delta\mathbf{A})^{-1}(\Delta\mathbf{A})(\Delta\mathbf{B})

(4)

=\Delta\mathbf{B},

其中使用了中的第一阶泰勒级数近似。时间尺度参数

\Delta

表示采样步长,即

x_{k}=x(k\Delta)

,在演变过程中它还平衡了状态和当前输入。然后,离散SSM可以形成以下递归表示,

h_{k} =\mathbf{\bar{A}}h_{k-1}+\mathbf{\bar{B}}x_{k}, \tag{5}
y_{k} =\mathbf{C}h_{k}, \tag{6}

这可以类似于RNNs进行计算。为了更好地适应GPU加速以高效训练,S4还展开了上述线性递归,得到其全局卷积表示为

\mathbf{y}=\mathbf{x}*\mathbf{\bar{K}}, \tag{7}

其中

\mathbf{\bar{K}}=(\mathbf{C}\mathbf{\bar{B}},\mathbf{C}\mathbf{\bar{A}} \mathbf{\bar{B}},\ldots,\mathbf{C}\mathbf{\bar{A}}^{L-1}\mathbf{\bar{B}})

表示SSM卷积核,

L

是输入序列的长度。

Ii-A3 Mamba

除了线性特性之外,上述系统的另一个简化假设是时间不变性,即所有系统参数都被定义为与时间无关。最近,一类新型选择性的SSM(S6)通过将

(\Delta,\mathbf{B},\mathbf{C})

参数化为输入

\mathbf{x}

的函数,打破了这一限制,从而赋予了SSM额外的选择能力,以关注重要的或忽略不重要的部分。作为一种常见的做法,一个简化的神经网络架构由线性层、卷积层、残差连接、非线性变换以及最重要的S6 Kernel 共同组成Mamba块。还提出了一个硬件感知优化以保障其高效的实现。

SpectralMamba: Overview

为了突破基于卷积神经网络(CNN)、循环神经网络(RNN)或Transformer骨架的现有方法在性能和效率上的瓶颈,作者提出了SpectralMamba,这是一个融合了Mamba-S6模型的深度学习解决方案,用于处理高光谱图像分类问题。SpectralMamba的关键在于它通过在空间-光谱空间中进行门控光谱融合同时对高光谱数据动态进行建模,并通过最小化参数化的网络架构在隐藏状态空间中进行选择性序列学习。此外,作者提出了一种针对高光谱数据量身定制的全新序列扫描策略,通过将数百个波段的光谱分解为片段,使得框架更具计算友好性。通过跳过空间-光谱编码主干,块状的SpectralMamba也可以灵活地转变为像素级的对应版本。

图2展示了作者提出的SpectralMamba的工作原理,详细的网络架构及其数据流在图3中展示。

SpectralMamba: Key Components

让作者用一维向量

\mathbf{x}^{pixel}=[\mathbf{x}_{1}^{pixel},\ldots,\mathbf{x}_{L}^{pixel}]\in \mathbb{R}^{1\times L}

来表示给定的高光谱图像中的一个像素,其中

L

是光谱的波段数。作者在光谱域内考虑状态空间建模,即作者的目标是找到一个定义良好的S6模型来得到其输出响应

\mathbf{y}^{pixel}\in\mathbb{R}^{L}

。然而,简单地将每个波段的反射率值视为表示可能会限制对序列模式的挖掘。因此,作者通过一个因子扩展模型维度,在作者的情况下是

E=8

,以增大状态空间的大小。

正如图3中的核心架构部分所示,为高光谱数据设计的Mamba块包含三个流。它的主流包括输入和扩展状态空间中的两个不同的LayerNorm层,用于扩展、保持和压缩特征维度的三个线性层,一个SiLU非线性激活函数,以及S6块。另外两个流是跳跃连接和一个类似激励的乘法,用于自适应地跨层转换原始信息。请注意,跳跃连接和非线性的使用对于稳定训练和快速收敛至关重要,而实际性能似乎对归一化和激活函数的选择不太敏感。

Iii-B1 Piece-wise Sequential Scanning

上述状态空间建模通过一种输入依赖的参数化方式,能够关注或忘记特定波长处的特征。当将其应用于具有数百个近乎连续波段的HS数据时,其高光谱冗余驱使作者重新思考输入方式。与最近在考虑自然图像处理中的空间多方向扫描来修改Mamba的努力不同,作者提出了一种沿着光谱维度的新颖的分段顺序扫描(PSS),以充分利用不同类型地面目标的反射特性。

具体来说,作者可以将PSS模块公式化为

PSS(\mathbf{x}^{pixel})=[S_{1}\mathbf{x}^{pixel},\ldots,S_{R}\mathbf{x}^{pixel}], \tag{8}

其中

S_{r}\mathbf{x}^{pixel}=[\mathbf{x}_{(r-1)C+1}^{pixel},\ldots,\mathbf{x}_{rC}^{ pixel}]^{\top}\in\mathbb{R}^{C\times 1}

从原始光谱

\mathbf{x}^{pixel}

中扫描连续片段,对于

r=1,\ldots,R

,而

R

是长度为

C

的片段数。这也类似于在每个序列位置的特征丰富时的重采样。

在应用PSS之前,作者的Mamba块相应的输出从1-D的

L

长度向量转变为形状为

C\times R

的2-D输出。然后,作者在常见的基于softmax的分类头之前增加了一个预层,最终得到

K

长度的分类逻辑值。

Iii-B2 Gated Spatial-Spectral Merging

在判别性表示学习中考虑空间信息至关重要。然而,传统的空间-光谱特征提取方法通常使用固定的卷积核平等对待每个 Patch 。受到S6模型启发,该模型以输入依赖的方式沿着序列学习交互作用,作者提出通过引入动态门控函数来进一步提高内容感知性,以实现自适应的空间光谱嵌入。在提出的门控空间-光谱合并(GSSM)方法中,作者可以用以下计算出的合并光谱替换方程(8)中的

\mathbf{x}^{pixel}

GSSM(\mathbf{x}^{patch})=h(f_{PW}(f_{DW}(\mathbf{x}^{patch})))\otimes\mathbf{x}^ {patch}, \tag{9}

其中

h

是sigmoid激活函数,

f

表示由深度卷积(DW)和点卷积(PW)组成的复合函数,

\otimes

表示沿着空间维度的爱因斯坦求和,将形状为

L\times P\times P

的两个张量组合成一个长度为

L

的一维向量。通过GSSM,作者希望自适应地编码中心像素与其邻域之间的语义关系,在学习更具判别性的“光谱”的同时,减弱光谱的变异性和混淆效应。

SpectralMamba: Method Analysis

直接将SSM扩展到HS数据的应用并非易事。在SSM的见解和HS数据结构先验知识的基础上,作者提出的SpectralMamba为解决HS图像密集预测应用提供了一个可行的基于SSM的 Baseline 。所提出的PSS策略不仅使模型能够揭示光谱剖面的局部特性,而且通过缩小核心操作网络的宽度进一步提高了效率。

此外,GSSM模块是基于观察到的中心像素与其邻近像素之间的语义关系通常在场景中空间上和光谱上有所变化而设计的。广泛存在的混合像素现象对于局部 Patch 内的像素也可能不同,特别是对于那些位于边界上的像素。作者希望通过轻量级的 Mask 学习器高效地捕捉这种高度空间-光谱可变性的HS数据动态,从而产生具有更高鉴别能力的合并光谱,以供后续在状态空间中的顺序学习。

作者提出的SpectralMamba与相关工作的联系也值得关注。一方面,尽管CasRNN——一个基于RNN的HS图像分类代表——通过从相邻光谱带到非相邻光谱带的分层学习考虑了类似的光谱冗余问题,但它们不可并行的递归特性仍然在追求稳定训练的过程中积累了计算和参数[23]。此外,传统Transformer中不可承受的二次复杂度自我关注机制,随着所谓的组嵌入中考虑的邻近光谱带数量的增加,显著增加了计算负担[24]。

相比之下,作者SpectralMamba中的提出的PSS完美地与S6中的状态演化高效特征选择相匹配,同时保留局部光谱模式并增大序列的特征维度,进而提高计算效率。更重要的是,作者的实践验证了非重叠扫描,即

R=L/C

,在较低的计算开销下足以产生有希望的性能。

另一方面,与针对自然图像的传统门控卷积[25]不同,作者的GSSM提供了一个轻量级的门控机制,捕捉高度空间-光谱可变性的HS数据动态。它不仅适合于保持光谱顺序性设置,而且通过有效的空间-光谱校正补充了后续在状态空间中的内容感知学习。在下面的实验部分,作者将展示SpectralMamba如何通过增强对HS数据的解释效力来超越这些前辈,同时保持高效率,计算资源需求低。

III Experiments

Datasets

作者选择了四个基准的高光谱(HS)数据集进行实验,涵盖了所有类型的获取平台,即机载、无人机(UAV)载和卫星载,希望对所提出的SpectralMamba进行全面且真实的验证。具体信息总结在表1中。

Iv-B1 Houston2013 HS Dataset

第一个HS数据集Houston2013由ITRES CASI-1500 HS成像器获取的HS图像组成,包含144个光谱波段,范围从380纳米到1050纳米。研究场景在地面采样距离(GSD)为10米时有349 × 1905像素,并包含15类土地利用和土地覆盖(LULC),覆盖了休斯顿大学校园及其周边城市区域。该数据集由2013年IEEE地球科学与遥感学会数据融合竞赛提供,并已被广泛应用于与HS图像分析和基于像素的分类相关的研究和竞赛[26]。

Iv-B2 Longkou HS Dataset

第三个龙口数据集,也称为WHU-Hi-LongKou,是在中国湖北省龙口镇获取的特定无人机载高光谱数据集。该数据集是通过在无人机上安装Headwall Nano-Hyperspec传感器,在500米的飞行高度捕获的。

作者使用了具有550

\times

400像素、0.463米的地面采样距离以及从400纳米到1000纳米的270个光谱波段的开源数据。超过20.4万次的标注用于评估,其中包括6种作物类型和3类土地利用和土地覆盖(LULC)类别。这个数据集是WHU-Hi数据集系列的一部分,该系列还包括其他两个数据集汉川和洪湖[29]。

Iv-B3 Augsburg HS Dataset

第二个HS数据集奥格斯堡由HySpex获取的高光谱图像组成,HySpex是由德国航空航天中心远程遥感技术研究所运营的机载成像光谱仪系统[11]。预处理后的HS图像包含180个波段,范围从400纳米到2500纳米,具有很高的质量。作者选定的子区域包括332 × 485个像素,分辨率为30米,覆盖了德国奥格斯堡市。地面参考地图包括7个类别,是通过对OpenStreetMap产品进行细致的手动标记产生的。

Iv-B4 Botswana HS Dataset

最后一个博茨瓦纳数据集是由美国宇航局EO-1卫星在2001年至2004年间获取的关于博茨瓦纳奥卡万戈三角洲地区的HS图像集合。这个数据集使用著名的Hyperion传感器捕获,该传感器在400-2500纳米的光谱范围内以30米的 spatial resolution 收集原始数据,共有242个波段。在去除未校准和噪声波段的前处理后,通常使用145个波段进行分类实验。地面参考包括14个识别出的类别,代表调查区域内不同的土地覆盖类型。

Experimental Setup

为了确保作者实验结果的复现以及对作者方法有效性的忠实验证,作者在此提供了在研究数据集上实现所有比较方法的必要细节。

Iv-B1 Train and Test Set Split

除了数据质量,训练集和测试集的划分对评估模型性能具有重大影响,特别是对深度模型而言。作者努力解释Houston2013数据集受欢迎的原因,并得出四个样本选择的准则,这些准则具有易于实践和广泛可接受性。

  1. 首先,用于训练的样本最好在场景中均匀分布,以改善可能导致大多数模型性能下降的光谱变异性现象。
  2. 其次,保持适中的训练集大小很重要,以防止评估过于简单或过于困难,从而在准确反映模型的性能和泛化能力之间取得平衡。
  3. 第三,与像素级采样相比,基于图像分割的采样或标记往往在逐步构建训练集到预设大小方面更为高效。
  4. 最后但同样重要的是,类别平衡采样总是更可取的,特别是对于未见场景,在没有先验类别分布知识的情况下。

基于以上准则,作者提出以下步骤来确定那些没有基准划分的数据集的训练集和测试集。第一步是应用SLIC超像素方法过度分割图像成大量片段[30],其中大部分可以由相同的地面物体组成。接下来的步骤是直截了当地逐步随机收集这些同质片段,直到达到每个类别的训练样本预算。作者采用的后三个HS数据集的类别预算分别是经验性地设置为80、50和20。这种方法也可以用来组织一个独立的验证集[31]。

Iv-B2 Evaluation Metrics

除了传统的性能指标,如类别准确度(CA)、总体准确度(OA)、平均准确度(AA)和卡帕系数(

\kappa

)之外,作者还引入了两个更多的指标来评估不同方法的有效性,它们是每个网络的乘积累加操作(MACs)和参数(Params)。顾名思义,MACs指的是在实际网络训练过程中的乘积累加操作次数。在本次实验中,作者将所有方法的批处理大小设置为64,以公平地计算和比较它们一次批处理的MACs。MACs和Params的值越小,相应的模型消耗的计算资源就越少。

Iv-B3 Compared Methods

作者的实验主要目的是评估提出的SpectralMamba是否可以被视为一种革新性的深度学习工具,用于高光谱图像分类任务。因此,作者选择了四种流行的基于深度学习的解决方案进行比较,分别是MLP、CNN、基于RNN的模型和基于Transformer的模型。作者的竞争对手的详细信息如下:

  1. MLP包含一个输入块、两个隐藏块和一个分类头。前三个块各自由一个全连接(FC)层、一个一维批量归一化(BN)层和一个ReLU激活函数[27]组成。
  2. CNN包含两个卷积块和一个分类头。卷积块根据像素级或块级输入[28]包含一维或二维卷积层,相应的一维或二维BN层和ReLU。
  3. 选择CasRNN代表基于RNN的模型[23]。它有像素级和块级版本。像素级CasRNN主要包含级联的门控循环单元,而块级版本在像素级CasRNN1之前额外引入了两个可分离卷积块和一个最大池化层。脚注1:https://github.com/RenlongHang/CasRNN
  4. 选择像素级SpectralFormer和块级SpectralFormer代表基于Transformer的模型[24]。前者配备了分组光谱嵌入以增强局部光谱细节,而后者添加了一个FC层来编码来自扁平图像块的空间信息2。脚注2:https://github.com/danfenghong/IEEE_TGRS_SpectralFormer

Iv-B4 Implementation Details

作者所有的实验主要基于PyTorch框架进行,使用了一台配备Nvidia GeForce GTX 3080 GPU的工作站。作者通过在区间

\{10^{-4},5\times 10^{-4},10^{-3},5\times 10^{-3}\}

上进行粗略的网格搜索来调整学习率和权重衰减的超参数。将迭代次数设置为500。采用了StepLR调度器,每20个epoch将学习率乘以0.9进行缩减。

另一个常被忽视的问题是信息泄露,即随着训练样本的 Patch 大小增加,将看到更多的测试样本[32]。为了减轻这一问题造成的影响,作者将所有 Patch 模型的 Patch 大小设置为3。作者声称,从趋势的角度来看,这种设置足以进行评估,它也消耗更少的能源,符合可持续发展的目标。

Results and Analysis

作者汇总了所有比较方法在六个指标上的定量结果,即性能指标CA、OA、AA和

\kappa

,以及效率指标MACs和Params,分别在表2至5中针对Houston2013、Augsburg、Longkou和Botswana数据集。

全场景的分类图相应地在图4至7中进行了可视化。

从表中作者可以得出几个在四个数据集上一致的结论。逐块实现的性能通常优于逐像素实现,这得益于对空间信息的利用(除了在Houston2013数据集上的CasRNN,这可能是由于训练不稳定问题)。具体来说,逐像素MLP和逐像素CNN的计算量小于CasRNN和SpectralFormer。

然而,逐块CNN由于使用了不可分离的2-D卷积,在MACs方面显著增加。如果作者从计算效率的角度进一步审视,尽管SpectralFormer的参数比CasRNN少得多,但其自注意力操作导致了更高的MACs,特别是处理中间两个数据集中的更长序列时。最重要的是,作者的SpectralMamba在大多数类别中出人意料地获得了最佳的CA,最佳的OA、AA和

\kappa

,同时还有最佳的Params,以及仅略低于简单MLP的MACs。

还有一些其他有趣的观察也值得注意。如果作者以Houston2013数据集上的定量趋势为参考,传统的逐像素MLP和逐像素CNN在Botswana和其他两个数据集上的表现正好相反。这可能是因为Botswana数据集上的训练和测试样本分布比其他两个数据集更接近。逐块CNN在中间两个数据集上以OA提高了逐像素CNN的性能,达到

12.43\%

28.79\%

,但仍然处于较低水平。无论是逐像素还是逐块实现,CasRNN、SpectralFormer和作者的SpectralMamba都一致显示出稳定且理想的分类性能,这验证了它们顺序建模能力的重要性和优越性。此外,作者的SpectralMamba通过利用适当的空间-光谱融合、顺序扫描和状态空间建模,成功解决了前两种流行序列模型中的计算弱点。

作者从可视化结果中可以找到与上述定量结果相似的线索。例如,在Houston2013场景中,作者的SpectralMamba为道路和高速公路等类别提供了更可靠的预测。至于Augsburg场景,尽管CasRNN和SpectralFormer在森林上的表现与作者的相当,但它们通常将居民区与其他类别混淆。

此外,作者的SpectralMamba可以清晰地描绘河流的轨迹和稻田的形状,即水域类别。在Longkou场景中,作者方法的优势更为明显。以稻田区域为例,与其他容易将其与水域或混合杂草混淆的方法相比,作者的发现了一个最规则、最均质用于种植水稻的区域。尽管Botswana场景中的标签更为稀疏,作者仍然可以看出,作者的逐块SpectralMamba生成的分类图具有较少的椒盐噪声模式,这些模式更可能与地物的真实分布相一致。

Ablation Studies

Iii-D1 Module Effectivity

作者首先对SpectralMamba中的三个关键组件进行了消融实验,这三个组件分别是GSSM、PSS和Mamba。作者通过移除一个或两个组成部分来进行定量比较,结果总结在表6中。在大多数情况下,基于像素级实现下单独使用Mamba,可以观察到明显的相对改进。例如,作者提出的扫描策略在像素级和块级设置下分别带来了近1%和3%的准确度提升。

更重要的是,与仅关闭此模块的场景相比,它可以分别减少20M和50K的MACs和Params。作者还观察到,在块级情况下激活GSSM模块,在OA和AA方面分别有2.78%和2.10%的显著提升。需要注意的是,Mamba仍然可以被认为是价值最高的模块,因为移除它会导致超过5%的OA下降。

Iii-D2 Scanning Pieces

另一个值得进行的消融实验是研究改变扫描片段数量,即

R

的影响。定量结果在图8中展示,通过将

R

设置为从2到8,间隔为2的值。从图中,作者可以观察到,不使用扫描策略的 Baseline 仍然能够获得可接受的性能,而其计算量和参数规模要远远高于使用扫描的情况。

具体来说,在像素级和 Patch 级的情况下,MACs和Params指标都显示出随着

R

的增加,先减少后增加的趋势,与性能的趋势相反。这一现象背后的原因是过多的片段不可避免地扩大了SSM的网络,并增加了从产生的短长度光谱序列中进行模式识别的难度。幸运的是,通过权衡所有指标,作者可以找到针对Houston2013数据集的最优

R=6

,其计算量和参数最大可减少46%和79%,同时在OA上带来大约1%到4%的改进。

IV Conclusion

光谱冗余和光谱可变性一直是困扰人类通过高光谱成像精确感知和认识世界的问题。现有的智能方法,无论是基于传统的卷积神经网络(CNN)还是流行的序列模型如递归神经网络(RNNs)和 Transformer (Transformers),在解决这些问题时都难以同时做到高效。

在最近在状态空间模型(SSMs)方面取得的进展基础上,作者首次建立了面向高光谱数据的深度SSM模型,即SpectralMamba,通过精心提出位置状态编码(PSS)和空间光谱修正模块(GSSM)来简化状态域中的序列性学习,并在空间光谱域中校正光谱。SpectralMamba具有令人惊讶的简化和轻量级架构,在大多数方面都取得了确信的高光谱图像分类性能优势。将来,作者将努力揭示在资源受限场景下使用高光谱数据的更多关键应用的潜力。

参考

[1].SpectralMamba: Efficient Mamba for Hyperspectral Image Classification.

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-19,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 arXiv每日学术速递 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • I Introduction
  • II Methodology
    • Preliminaries
      • Ii-A1 State Space Model
      • Ii-A2 Discretization
      • Ii-A3 Mamba
    • SpectralMamba: Overview
      • SpectralMamba: Key Components
      • Iii-B1 Piece-wise Sequential Scanning
      • Iii-B2 Gated Spatial-Spectral Merging
        • SpectralMamba: Method Analysis
        • III Experiments
          • Datasets
            • Iv-B1 Houston2013 HS Dataset
            • Iv-B2 Longkou HS Dataset
            • Iv-B3 Augsburg HS Dataset
            • Iv-B4 Botswana HS Dataset
          • Experimental Setup
          • Iv-B1 Train and Test Set Split
            • Iv-B2 Evaluation Metrics
              • Iv-B3 Compared Methods
                • Iv-B4 Implementation Details
                  • Results and Analysis
                    • Ablation Studies
                      • Iii-D1 Module Effectivity
                      • Iii-D2 Scanning Pieces
                  • IV Conclusion
                  • 参考
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
                  http://www.vxiaotou.com