网刊加载中。。。

论文引用格式：Shi Z H， Li C J， Zhou L， Zhang Z J， Wu C W， You Z Z and Ren W Q. 2023. Survey on Transformer for image classification. Journal of Image and Graphics， 28（09）：2661-2692（引用格式:石争浩，李成建，周亮，张治军，仵晨伟，尤珍臻，任文琦. 2023. Transformer驱动的图像分类研究进展. 中国图象图形学报， 28（09）：2661-2692）［0　引言图像分类旨在识别图像中存在目标对象所属具体类别，是图像处理和计算机视觉领域的重要研究方向，具有重要实际应用价值。然而由于实际应用中，图像目标的形态、类型多样，且成像环境复杂，现有方法的分类效果却总是差强人意，存在分类准确性低、假阳性高等问题，严重影响其在后续图像及计算机视觉相关任务中的应用。因此，如何通过后期算法提高图像分类的精度和准确性，具有重要研究意义，受到越来越多的关注。在近十几年间，由于优异的特征提取能力，以卷积神经网络（convolutional neural network，CNN）及其变体，如VGGNet（Visual Geometry Group network）（Simonyan和Zisserman，2015）、Inceptions （Szegedy等，2015）、ResNet（X）（residual network）（He等，2016；Xie等，2017）、DenseNet（densely connected convolutional network）（Huang等，2017）、MobileNet （Howard 等，2017）、EfficientNet （Tan和Le，2019）、RegNet （Parmar等，2019）和ConvNeXts （Liu等，2022a）等为代表的深度学习技术广泛应用于各种图像处理任务，取得了较好的处理效果。作为后起之秀，在自然语言处理领域大放异彩的Transformer（Vaswani等，2017）模型，由于较强的远距离建模和并行化序列处理能力，逐渐引起图像处理和计算机视觉领域研究者的兴趣，并在目标检测（Carion等，2020）、语义分割（Wang等，2021a）、目标跟踪（Chen等，2021a）、图像生成（Jiang等，2021）和图像增强（Chen等，2021b）等应用中表现出良好的性能。ViT（vision Transformer）（Dosovitskiy等，2021）是Google团队提出的第一个利用堆叠的 Transformer 编码器代替传统CNN的网络模型。相较于传统CNN，ViT通过将输入图像划分为一个个的图像块（Patch），实现对待处理图像的全局建模和并行化处理，极大提升了模型的图像分类能力。然而，尽管ViT模型在图像处理和计算机视觉应用中已取得了很好成效，但研究（Guo等，2022）发现，与目前最先进的CNN模型相比，现有ViT模型在视觉任务中的表现仍存在差距。分析其原因，主要有：1）绝对位置编码导致现有模型可扩展性能差；2）自注意力机制与分辨率计算上呈二次方关系带来高昂的计算开销；3）缺乏归纳偏置导致数据饥饿和收敛速度慢问题；4）深层Transformer存在注意力崩溃问题。针对上述问题，研究者开展了更为深入的研究，并先后推出数篇关于Transformer的技术综述。Tay等人（2023）回顾了Transformer的效率；Khan等人（2022）和Han等人（2023）总结了一些早期的视觉Transformer和一些注意力模型；Lin等人（2022）提供了对Transformer的各种变体的系统评论，并粗略地给出了Transformer在不同视觉任务中的应用；Liu等人（2022b）提出根据动机、结构和使用场景组织这些方法；Xu等人（2022）根据任务场景对它们进行分类。与以上综述不同，为了使读者对最新研究进展有一个更为全面、更为系统、更为深入的了解，紧跟最新研究进展，本文对2021年和2022年发表的各种Transformer驱动的深度学习图像分类方法和模型进行了系统梳理，重点对ViT变体驱动的图像分类方法进行了归纳和总结，包括可扩展的位置编码、低复杂度和低计算代价、局部信息与全局信息融合以及深层ViT模型等。本文主要贡献如下：1）分类总结近年来Transformer驱动的深度学习图像分类方法和模型，介绍各类方法的核心思想，分析存在的问题及可能的解决方案；2）系统梳理Transformer驱动的深度学习图像分类任务需要解决的关键性科学问题，并对未来的研究方向及发展趋势进行展望。1　传统TransformerTransformer（Vaswani等，2017）最早应用在序列到序列的自然语言处理自回归任务中，其整体架构为 encoder-decoder结构，其中编码部分采用多头自注意力机制（multi-head self-attention，MHSA）实现全局信息的提取，随后采用前馈神经网络（feed-forward network，FFN）来完成维度的变换和提取更丰富的语义信息。本节先介绍注意力机制和多头注意力机制，然后介绍前馈神经网络和位置编码，最后给出传统Transformer的模型结构。1.1　注意力机制和多头注意力机制注意力机制是Transformer的重要组成部分，其整体结构可以分为线性映射模块和注意力模块两部分。线性映射模块的作用是将输入序列X和Y映射成其投影Q、K和V。给定输入序列X和Y，其中X∈Rn×d，Y∈Rn×d，n表示输入序列长度，d代表输入数据的维度。令Q表示X投影，K和V表示Y的投影。其数学表述为Q=XWQ （1）K=YWK （2）V=YWV （3）式中，WQ∈Rd×dq，WK∈Rd×dk和WV∈Rdy×dv分别表示不同的线性矩阵；dq，dk，dv分别代表经过特征映射后的Q， K， V的序列维度。当Y = X时，dq=dk=dv，注意力机制也变为自注意力机制。这种机制由于减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。注意力模块的作用是显式地将查询Q与对应的键K进行相似度计算获得注意力权重，根据权重矩阵为V分配关注度权值，并更新输出向量，其数学表述为fAttention(Q, K, V)=fsoftmaxQKTdkV （4）式中，1/dk为缩放因子，fsoftmax为激活函数。由于特征子空间的限制，单头注意力机制的建模能力通常较差。为此，Vaswani等人（2017）提出多头注意力机制，即将输入矩阵线性映射到由多个独立注意力头组成的特征子空间中进行点乘运算，随后拼接特征向量和线性映射得到最终输出，具体为Zi=fAttention(Qi, Ki, Vi), i=1,⋯, head （5）fMultiHead(Q, K, V)=fConcat(Z1, Z2,⋯, Zhead)WO （6）式中， i代表头的序号，head代表头的个数，fConcat代表拼接，WO代表输出映射矩阵。多头注意力将输入序列维度d拆分成head个维度为d/head的独立注意头，每个头完成自注意计算后进行拼接（结果定义为MH）。在不增加额外计算成本的情况下，多头注意力机制丰富了特征子空间的多样性。1.2　前馈神经网络在编码器和解码器结构中，前馈神经网络在Self-attention层之后，主要由两个线性层和一个非线性激活层组成，即FFN(MH)=W2δ(W1MH+b1)+b2 （7）式中，W1和W2是两个线性映射矩阵，b1和b2为偏移量。δ为非线性激活函数，如GELU（Gaussian error linear unit）（Hendrycks和Gimpel，2020）。1.3　位置编码在提取序列数据特征过程中，有效利用数据的先后顺序对于获得更好的特征表示至关重要。但Transformer模型中的Self-attention模块缺乏捕获数据先后顺序的能力，限制了其在序列数据处理中的应用。针对该问题，Vaswani等人（2017）将绝对位置编码引入Transformer模型结构中，通过正弦余弦的相对位置学习，提高了Transformer模型获取序列位置信息的能力。绝对位置编码的定义为PE(pos, j)=sin(pos, ωm) j=2mcos(pos, ωm) j=2m+1 （8）ωm=110 0002m/d, m=1,⋯, d/2 （9）式中，m和j代表向量索引， pos表示序列中每个元素的位置。为了进一步提高Transformer模型获取序列位置信息的能力，Devlin等人（2019）、Dosovitskiy等人（2021）和Li等人（2022a）还提出了可学习位置编码（Gehring等，2017）、相对位置编码（Shaw等，2018）和动态位置编码。本文主要介绍可扩展的位置编码。1.4　Transformer模型架构Transformer模型首先通过线性映射层对输入数据进行编码，并将输入数据与绝对位置编码相加，为输入Transformer encoder的数据添加位置信息（此时的数据称之为Token）。然后，Tokens集合通过编码器完成特征编码，将编码特征输入到解码器实现解码操作。最后，通过Linear层和softmax将数据转化为概率，完成对数据的分类。上述结构中，编码层由MHSA（multi-head self-attention）聚合编码信息，FFN（feed-forward network）层完成维度的变换和提取更丰富的语义信息。解码器通过掩码多头自注意力机制（mask multi-head self-attention， Mask-MHSA）完成对输入数据Y的有序解码，其中，交叉注意力层（cross-attention）则是编码信息和解码信息融合的关键。除上述主干网络外，Vaswani等人（2017）还将残差网络连接（He等，2016）和层归一化（layer normalization）（Hu等，2019）引入Transformer模型。2　Vision Transformer图1按时间顺序给出了近年来Transformer模型及其在图像处理应用中的研究发展演化过程。由图1可见，基于Transformer模型的图像处理方法已经成为近年图像处理的主流研究方法。10.11834/jig.220799.F001图1Transformer研究演化进程Fig.1The evolution of research on Transformer and its application in image classification本节首先介绍传统的ViT模型，然后根据ViT面临的问题及其所采用解决策略的不同，对近年来的ViT变体模型进行梳理总结，主要包括可扩展的位置编码、低复杂度和低计算代价、局部信息与全局信息融合以及深层ViT模型，如图2所示。10.11834/jig.220799.F002图2基于视觉Transformer的变体分类Fig.2Visual Transformer-based variant classification2.1　ViTViT模型的整体结构如图3所示，首先将输入图像I∈RH×W×3划分为一个个不重叠的图像块，其维度为x∈RN×(P2×3)，这里H和W分别代表图像的高与宽，3代表输入图像的通道数，P代表了Patch块的高和宽，N代表了根据高和宽为P的尺寸划分图像块的个数。然后，将图像块线性映射为Tokens集合，此时的维度为x∈RN×C，C为映射的Hidden Embedding。再后，为Tokens集合添加绝对位置编码以保证输入Tokens之间的空间位置信息和添加CLS（Class Token）用于后续分类任务。最后，将Tokens经过堆叠6层的Transformer 编码器提取特征，并取出最后一层输出的CLS进行图像分类。10.11834/jig.220799.F003图3ViT模型（Dosovitskiy等，2021）Fig.3ViT model（Dosovitskiy et al.， 2021）2.2　可扩展位置编码在传统的标准ViT中，为确定图像块之间的先后顺序，绝对位置编码为每个图像块线性映射后的Tokens集合添加一个唯一的位置编码，但破坏了模型提取特征的平移不变性（Kayhan 和van Gemert，2020）。针对该问题，可学习位置编码通过定义输入序列长度相同的向量与网络权重联合更新，但导致模型在测试阶段遇到更长序列时性能下降。而相对位置编码不仅带来额外的开销，而且需要修改ViT的实现方式。由此可见，具有良好可扩展性及较小计算成本的编码方式变得非常必要。为此，先后提出了一种可扩展的位置编码和其变体CPVT（conditional position encoding vision Transformer）（Chu等，2023）、ResT（efficient multi-scale vision Transformer）（Zhang和 Yang，2021）、Uniformer（unified Transformer）（Li等，2022a）和 CMT（convolutional neural networks neet vision Transformers）（Guo等，2022）。CPVT（Chu等，2023）中的位置编码方式与绝对位置编码不同，提出了一种条件位置编码，如图 4（a）所示，通过对Tokens序列进行维度变换转为一幅图像，对图像进行F操作后再转为Tokens序列，以此实现可扩展位置编码。F可以是深度卷积（depth wise convolution，DWconv）、可分离卷积（separable convolution， Sconv）或其他复杂的运算（Chu等，2023）。10.11834/jig.220799.F004图4可扩展位置编码Fig.4Scalable position encoding （（a） CPVT （Chu et al.， 2023）；（b） ResT （Zhang and Yang， 2021））ResT（Zhang和Yang，2021）是一种多尺度的ViT，主要通过高效的多头注意力机制和基于空间注意力机制的位置编码结合，让整个模型相较于绝对位置编码方式具有更大的灵活性，可以处理任意大小的输入图像，无需插值和微调就能获得很好的实验效果。空间注意力机制（如图4（b）所示）的位置编码为x^=PA(x)×σ(fDW(x)) （10）式中，PA为线性映射函数，fDW为深度卷积，σ为sigmoid激活函数，x为输入Patch块的序列。CMT（Guo等，2022）主要致力于融合CNN的局部信息提取和Transformer的长距离建模能力，以此获得更高的性能。如图5所示，在模型设计过程中，首先通过在Stem层堆叠3层卷积使得减少图像尺寸的同时增加局部信息的提取能力。随后，通过设计局部感知单元（local perception unit，LPU）来解决绝对位置编码破坏Transformer的平移不变性问题，整个局部感知单元通过将深度卷积提取特征与原输入特征求和来实现可扩展位置编码，具体为10.11834/jig.220799.F005图 5CMT模型的核心架构（Guo等，2022）Fig.5Core architecture of the CMT model （Guo et al.， 2022）x⃗=fDW(x)+x （11）式中，fDW表示深度卷积，x为输入Patch序列。再后，为缓解Transformer高昂计算代价问题，设计了轻量级多头注意力（lightweight multi-head self-attention，LMHSA），将大卷积核的深度可分离卷积应用到K，V上，减少尺寸降低计算量。最后，在原始逆残差结构基础上，逆残差前馈神经网络（inverted residual feed-forward network，IRFFN）通过改进残差路线提升梯度在本层的传播能力。Uniformer（Li等，2022a）与CMT（Guo等，2022）类似，都通过堆叠多层卷积实现局部特征的提取和降低分辨率。此外，在位置编码上将经过深度卷积后的数据与线性变化后的数据进行相加，来完成可扩展的位置编码，如式（11）所示。基于可扩展位置编码的ViT模型及其特点如表1所示。10.11834/jig.220799.T001表1基于可扩展位置编码的ViT模型Table 1ViT model based on scalable positional coding模型特点CPVT（Chu等，2023）设计条件位置编码，提高Transformer模型的可扩展性ResT（Zhang和Yang，2021）通过空间注意力机制来实现可扩展位置编码的设计Uniformer（Li等，2022a）将经过深度卷积后的数据与线性变化后的数据进行相加，来完成可扩展的位置编码CMT（Guo等，2022）通过设计局部感知单元来实现可扩展位置编码功能2.3　低复杂度和低计算代价由于采用softmax作为注意力分数概率化的Self-attention与编码后的Tokens数量呈二次方关系，ViT的计算复杂度为Ω(2(hw)2C+4hwC2)。其中，Ω为计算复杂度，h与w为Patch的高和宽，C为每个块的维度。在自然语言处理（natural language processing，NLP）任务中，虽然Wang等人（2020）和Wu等人2021）引入了线性注意力来缓解此类问题，但将NLP领域设计的线性注意力直接应用于ViT中，效果并不理想。因此，一种基于计算机视觉领域降低Self-attention或整个Transformer encoder计算复杂度的模型是必要的。为了从图像处理的基本属性出发降低ViT的计算复杂度，以Swin Transformer（hierarchical vision Transformer using shifted windows）（Liu等，2021）为代表的许多工作，对于低复杂度模型进行研究。代表性工作有VOLO（vision outlooker）（Yuan等，2021a）、CSwin Transformer（cross-shaped window Transformer）（Dong等，2022）和VVT（vicinity vision Transformer）（Sun等，2022）。Swin Transformer（Liu等，2021a）将图像划分为一个个Patch后，先在Patch内部进行自注意力机制运算，通过Patch的划分与合并，实现空间缩减和通道扩充任务，这种方法称为Window attention。然后，沿着空间维度移动窗口来对全局信息和边界信息进行建模，此方法称为Shift attention。两者在模型搭建过程中顺次交替进行局部和全局信息的提取。Swin Transformer中引入Window attention后复杂度缩减为Ω(2M2hwC+4hwC2)。其中， M为Patch中再次划分子Patch的高和宽。Swin Transformer核心架构如图6所示，其中， l层为Window attention， l + 1层为Shift attention， l为层数。10.11834/jig.220799.F006图6Swin Transformer的核心架构（Liu等，2021）Fig.6Core architecture of Swin Transformer （Liu et al.， 2021）VOLO（Yuan等，2021a）采用了两阶段的架构设计。首先，通过Outlooker生成精细级的Token表示。然后，堆叠多层Transformer 模块聚合全局信息。其核心模块Outlooker由实现空间信息编码的Outlook attention和通道信息交互的多层感知机（multi-layer perceptron，MLP）组成。如图7所示，对于图像上的每个空间位置(wi,hj)，其中wi代表横坐标，hj代表纵坐标，Outlook attention首先将输入特征图通过线性映射后划分为若干个以(wi,hj)为中心、Ws×Ws大小的局部窗口，计算每个中心点与局部窗口内的所有邻居的相似度。随后通过Reshape操作和softmax激活函数获得注意力权重矩阵（如图7中绿色虚框和黑色虚框所示），并将其作为以(wi,hj)为中心的局部窗口内所有值组成的V的权重（如图7中的Linear+Unfold）。最后，将来自V的不同局部窗口同一位置的不同加权值求和得到最终输出（如图7中的Fold操作）。Outlook attention相较于多头自注意力计算量与Tokens数量呈现二次方关系而言，通过Reshape操作简化了求解注意力的流程，并在一定程度上保留了视觉任务的关键位置信息（Hou等，2021；Hu等，2019）。计算复杂度缩减为Ω(hwC(2C+head(Ws)4)+hwC(Ws)2)。其中，Ws为滑动窗口大小。10.11834/jig.220799.F007图7Outlook attention的整体架构（Yuan等，2021a）Fig.7The overall architecture of Outlook attention （Yuan et al.， 2021a）CSwin Transformer（Dong等，2022）为了在减小计算量的同时解决Swin Transformer中窗口注意力的Token之间信息交互受限问题，提出一种十字形窗口自注意力机制。该注意力机制通过平行水平和垂直条纹来实现自我注意，形成十字形窗口，扩大感受野提升Token之间的信息交互能力。计算复杂度缩减为Ω(HWC×(4C+Sw×H+Sw×W)),Sw是超参数，每层Sw为［1，2，7］，前期小后期大是为了增加CSwin的感受野，并使计算复杂度控制在可接受范围内。VVT（Sun等，2022）提出了Vicinity attention，在具有线性复杂度的ViT中引入局部偏差。具体来说，对于每个划分的图像块，根据其相邻块测量的 2D 曼哈顿距离调整其注意力权重。在这种情况下，邻近的Patch将比远处的Patch受到更多的关注。此外，由于Vicinity attention需要的Token数量远大于特征维度，VVT模型在不降低分类准确率的情况下，模型计算复杂度从Ω(2(hw)2C+4hwC2)缩减为Ω(hw(2C)2+2C2),(2C)2≪(hw)2。基于低复杂度和低计算代价的ViT模型及其特点如表2所示。10.11834/jig.220799.T002表 2基于低复杂度和低计算代价的ViT模型Table 2ViT model based on low complexity and low computational cost模型特点Swin Transformer(Liu等，2021a)在Patch内划分子Patch并进行自注意力计算VOLO (Yuan等，2021a)使用Outlook attention对特征图划分若干个中心点及其对应的局部窗口计算注意力，提取空间全局信息CSwin Transformer (Dong等，2022)设计十字形窗口自注意机制降低计算量的同时提升了窗口Token之间的信息交互VVT (Sun等，2022)Vicinity attention通过使用2D曼哈顿距离调整相邻Patch之间的注意力权重，使得所设计的注意力机制为线性复杂度2.4　局部与全局信息融合本节从问题和架构设计两个角度组织叙述逻辑，分“数据饥饿”问题、CNN与Transformer结合和纯Transformer架构3个部分展开。2.4.1　“数据饥饿”问题“数据饥饿”问题（Hassani等，2022b）是指ViT模型从头开始训练到模型收敛性能达到与CNN一样好或更好的效果所需的数据量规模更大。Self-attention是ViT模型提取全局信息获得远距离建模能力的关键，但这种模型设计缺乏CNN中所固有的归纳偏置，如平移不变性和局部性。导致模型训练过程中所需数据量更大，收敛速度在相同数据量的情况下相对于CNN模型速度更慢。虽然随着数据量的增大可以使得模型收敛并取得更好的效果，但针对一些研究领域，由于数据集标记比较困难，导致数据量较小。在这种情况下，模型的处理性能和收敛速度都不能达到令人满意的效果。因此，DeiT（data-efficient image Transformers）（Touvron等，2021a）、SLViT（vision Transformer for small-size datasets）（Lee等，2021）和CCT（compact convolutional Transformer）（Hassani等，2022b）从解决数据饥饿问题出发设计模型。DeiT（Touvron等，2021a）为了缓解ViT模型对于大数据集的依赖，通过引入数据增强和正则化策略，在ImageNet上获得了81.8%的准确率。此外，在训练中，DeiT使用知识蒸馏策略，将训练好的CNN模型作为老师，Transformer模型作为学生，在CNN模型的指导下为Transformer模型带来了归纳偏置。基于这种蒸馏策略在不借助外部数据的情况下获得了83.4%的准确率，既说明了蒸馏策略的有效性，也说明归纳偏置的添加对于提升ViT模型性能和解决数据饥饿问题是有效的，如图8所示，其中Class Token负责模型分类，Distillation负责知识蒸馏引入归纳偏置， LCE代表学生模型分类交叉熵损失，Lteacher代表老师模型损失。10.11834/jig.220799.F008图8DeiT模型（Touvron等，2021a）Fig.8DeiT model（Touvron et al.， 2021a）SLViT（Lee等，2021）从ViT在小数据集训练慢、效果差现象的本质出发，提出了一种新的基于空间特征平移的标记化方法（shifted patch tokenization，SPT）。此外，为了解决注意力分数分布平滑问题，Lee等人（2021）还提出了局部自注意力机制（locality self-attention，LSA），在仅增加少量参数和简单操作的情况下显著提升了ViT的性能。CCT（Hassani等，2022b）为了解决数据饥饿问题提出了一种新型的序列池化操作，使得模型消除了对于Class Token和位置编码的依赖。整个模型小而灵活，在参数量0.28 M的情况下即可取得很好的效果。序列池化操作为Xl'=fsoftmax(g(Xl)T) （12）z=Xl'Xl （13）式中，g为线性映射层，Xl∈Rn×d为Transformer第l层的输出，Xl'∈R1×n为通过通道注意力后的特征，z为分配权重后的输出特征。整个流程如下：首先，将Xl输入到线性映射层g(Xl)∈Rd×1，并使用softmax激活函数进行归一化和概率化。随后，将计算的概率与Xl相乘获得z，并通过池化层移除z中的第2个维度，此时z∈Rd。最后，将z输入到线性层进行分类或其他工作。基于解决“数据饥饿”问题的ViT模型及其特点如表3所示。10.11834/jig.220799.T003表 3基于解决“数据饥饿”问题的ViT模型Table 3Based on the ViT model to solve the “data hunger” problem模型特点DeiT（Touvron等，2021a）通过使用知识蒸馏Token为Transformer模型引入软归纳偏置SLViT（Lee等，2021）提出局部自注意力机制提高模型提取局部信息的能力，为模型引入归纳偏置，在仅增加少量参数和简单操作的情况下显著提升ViT性能CCT（Hassani等，2022b）在Stem层添加卷积操作增加模型的归纳偏置，并提出序列池化操作消除分类模型对Class Token的依赖2.4.2　CNN与Transformer结合由于Transformer强大的全局信息提取能力，在不同的领域取得了很大的成就，有力地推动了NLP和计算机视觉工作的发展。但由于缺乏归纳偏置，收敛速度慢，信息利用不充分。CNN因其具有的局部性和平移不变性，能够很好地提取局部信息，但其感受野受限（刘启超等，2021），在一定程度上限制了卷积神经网络在大数据集上的吞吐量和提取能力。SLaK（sparse large kernel network）（Liu等，2023）、 RepLKNet（revisiting large kernel design in CNNs）（Ding等，2022）和ConvNeXt（a convnet for the 2020s）（Liu等，2022a）提出采用大卷积核策略扩大模型感受野，但带来了更高的计算代价，且视野范围小于自注意力机制。为了更充分地利用有效信息，弥补两种模型的缺陷，Xiao等人（2021）提出了将卷积与ViT结合的模型（Early Conv）。该模型的实验结果证明了两种模型的联合对增强特征提取能力具有重要意义（孙旭辉等，2023）。目前，CNN与Transformer的结合，主要有3种模式，即CNN+Self-attention、串行机制和并行机制。其中，CoTNet（contextual Transformer networks）（Li 等，2023）、LG-Transformer（local-to-global Self-attention in vision Transformers）（Li等，2021a）和BoTNet（bottleneck Transformers for visual recognition）（Srinivas等，2021）等都采用CNN + Self-attention模式。该模式通过堆叠多层卷积提取局部信息，在分类前一层添加Self-attention及其变体以增强模型的全局信息提取能力。最终实现局部信息与全局信息的融合。基于CNN + Self-attention的模型架构图如图9所示。本文以BoTNet模型作为CNN + Self-attention模式的代表进行阐述。10.11834/jig.220799.F009图9CNN + Self-attention模型架构Fig.9CNN + Self-attention model architectureBoTNet（Srinivas等，2021）提出了一种all2all attention机制，相较于原始的Self-attention通过Token的序列化表示，所提出的注意力直接作用于2D特征图，并在Self-attention的基础上添加了内容—编码和内容—内容的交互。其中，内容—编码的信息交互主要通过定义高和宽的相对位置编码来表达特征之间的相对距离，并通过与Q计算注意力得分获得Q中所查询对象在图像中的位置信息；内容—内容的交互与原始的自注意力一致，将线性映射的Q和K进行内积获得内容之间的相关关系。随后，将内容—编码和内容—内容得分进行求和并通过与V的运算获得交互后的位置和内容信息，以提高模型全局定位和分类能力，模型如图10所示。当应用于图像分类任务中时，先将所设计的all2all attention模块替换残差结构中的3×3卷积，以获得具有全局建模能力的残差结构。然后，将该残差结构堆叠多层替换ResNet架构的最后一个stage，以实现局部信息与全局信息交互，增强模型分类性能。10.11834/jig.220799.F010图10BoTNet中all2all attention整体架构（Srinivas等，2021）Fig.10Overall architecture of all2all attention in BoTNet （Srinivas et al.， 2021）基于CNN + Self-attention的模型及其特点如表4所示。10.11834/jig.220799.T004表4基于CNN + Self-attention的模型Table 4CNN + Self-attention-based model模型特点CoTNet（Li等，2023）通过堆叠多层卷积提取局部信息，在分类前一层添加Self-attention及其变体以增强模型的全局信息提取能力，最终实现局部与全局信息的融合LG-Transformer（Li等，2021a）BoTNet（Srinivas等，2021）串行机制主要是将CNN模型添加到Transformer的不同位置，为模型增加局部信息提取能力。如CNN进行位置编码、CNN将Patch编码为Token，亦或是将ViT中的线性层变为卷积层或添加一些其他的注意力机制。DeiT通过使用知识蒸馏策略为Transformer引入归纳偏置。CCT通过将卷积与Transformer结合完成局部和全局信息融合的同时利用蒸馏的方式增强CCT性能。上述两个模型既是数据饥饿问题的解决方法，也是串行机制的经典模型。除了通过上述方法为模型添加软归纳偏置外，串行机制还包括如下3类：1）位置编码或Patch编码中添加CNN引入归纳偏置。如CPVT、ResT、CMT、MobileViT（light-weight，general-puprose and mobile-friendly vision Transformer）（Mehta和Rastegari，2022）和GC ViT（global context vision Transformers）（Hatamizadeh等，2023）、MFT（multimodal fusion Transformer）（Roy等，2022）、MCT（multiscale convolutional Transformer）（Jia等，2022）、CTN（convolutional Transformer network）（Zhao等，2022）、DHViT（deep hierarchical vision Transformer）（Xue等，2022）、DSS-TRM （deep spatial-spectral Transformer）（Liu等，2022c）等。2）自注意力模块添加CNN。如CoAtNet（convolution and Self-attention）（Dai等，2021）、ConViT（improving vision Transformers with soft convolutional inductive biases）（D’Ascoli等，2021）、CvT（convolutional vision Transformer）（Wu等，2021b）、CMT（Guo等， 2022）、 PVTv1（pyramid vision Transformer）（Wang等，2021b）、 PVTv2（improved baselines with pyramid vision Transformer）（Wang等，2022）、MViTv1（multiscale vision Transformers）（Fan等，2021）、 MViTv2（improved multiscale vision Transformers for classification and detection）（Li等，2022b）、EdgeViTs（light-weight Transformers）（Pan 等，2022）、EdgeNeXt（efficiently amalgamated CNN-Transformer architecture for mobile vision applications）（Maaz等，2022）、ScalableViT（scalable vision Transformer）（Yang等，2022）等。3）MLP或FFN中添加深度可分离卷积为ViT引入归纳偏置。如LeViT（a vision Transformer in convnet’s clothing for faster inference）（Graham等，2021）、CMT、GLiT（global local image Transfomer）（Chen等，2021c）、LocalViT（bringing locality to vision Transformers）（Li等，2021b）、CeiT（convolution-enhanced image Transformer）（Yuan等，2021b）、PiT（pooling-based vision Transformer）（Heo等，2021）等。在类型1）中，CPVT和ResT通过使用深度卷积神经网络实现可扩展位置编码的设计，将CNN的归纳偏置引入到ViT中。CMT的设计不仅在编码阶段使用深度卷积作为可扩展位置编码的一部分，在自注意力机制和FFN中都使用CNN来帮助ViT模型引入归纳偏置提高模型的收敛速度。MobileViT（Mehta和Rastegari，2022）主要致力于将轻量级卷积与Transrformer结合应用于移动端，网络模型采用类似于UNet的网络架构。首先，通过n×n的卷积提取局部信息，将特征序列化后输入ViT完成全局信息的提取。其中，ks为卷积核大小。然后，通过卷积操作升维和残差连接完成局部信息和全局信息融合。GC ViT（Hatamizadeh等，2023）提出一种全局Token生成模块，利用卷积的方式产生全局Token，将生成的Token作为全局自注意力机制的Q完成全局信息提取。局部注意力与全局注意力交替提取局部和全局信息。MFT（Roy等，2022）提出多模态信息融合方案。首先，将高光谱图像（hyperspectral image，HSI）信息作为输入Transformer的Patch token，激光雷达（light detection and ranging，LiDAR）合成图像与高光谱图像对应位置的图像信息作为CLS。随后，对高光谱图像的Patch token和CLS通过CNN进行标记化，将标记化后的Token输入到Transformer模型提取全局信息。最后，通过跨Patch的注意力实现两种模态信息的交互，完成局部和全局信息融合。MCT（Jia等，2022）提出一种多尺度卷积Transformer，可以有效捕获局部与全局空间光谱信息。此外，还定义了一个自监督预置任务，使得骨干网络在自监督学习过程中有效地建模中心像素点与邻域像素的关系。CTN（Zhao等，2022）通过设计中心位置编码，将位置和光谱特征相结合生成空间位置特征，并使用卷积Transformer将局部信息与全局信息融合，提高模型的分类性能。DHViT（Xue等，2022）利用光谱序列Transformer沿光谱维度从高光谱图像中提取特征，捕获光谱长期依赖。并通过CNN和Transformer结合的空间层次Transfromer提取HSI和LiDAR图像中的空间特征。最后，堆叠多层交叉注意力机制自适应融合多模态信息实现高光谱图像的分类。DSS-TRM（Liu等，2022c）提出了一种局部—全局信息融合和空间光谱交互的Transformer模型。该模型中，两个注意力机制通过二维卷积实现Patch的编码。其中，空间注意力提取高光谱图像的空间特征，光谱自注意力负责光谱维度的信息交互。最后，通过将两种注意力提取的特征进行拼接输入到分类器完成图像分类。在类型2）中，CoAtNet（Dai等，2021）提出了一种将深度卷积与自注意力机制有效结合的垂直堆叠方式，在提高泛化性、容量和效率方面取得了惊人的成果。ConViT（D’Ascoli等，2021）提出一种门控位置自注意力（gated positional self-attention，GPSA）模块。模块分为两个分支：Wq和Wk用于全局建模，Trpos提取局部信息。为了进行局部信息和全局信息的平衡，引入一个可学习参数λ，对CNN和Self-attention占比进行动态调节，如图 11所示，r代表相对位置编码， Awi,hj为注意力矩阵。CvT（Wu 等，2021b）模型采用CNN代替线性映射层和Self-attention中的Linear以构建卷积ViT。10.11834/jig.220799.F011图11GPSA模型块（Dai等，2021）Fig.11GPSA model block（Dai et al.， 2021）PVTv1（Wang等，2021b）主要是对自注意模块进行改进，即将Linear层设计为空间收缩注意力（spatial reduction attention，SRA），在降低空间分辨率的同时加深模型深度类似于MaxPooling，实现金字塔结构以利用空间信息。PVTv2（Wang等，2022）针对PVTv1中存在的问题做出3点改进：1）采用卷积提取连续特征；2）带Zero-padding的重叠块嵌入提取位置信息的编码；3）均值池化的注意力层。相对于PVTv1，PVTv2更能充分利用局部和全局信息，以提升模型的性能。MViTv1（Fan等，2022）提出了一种Pool attention，在整个注意力中对Q、K、V进行池化操作，降低输入图像分辨率，从而减少序列长度，降低计算量，使得模型能够应对不同时空分辨率的输入。MViTv2（Li等，2022b）采用池化操作来增强模型的空间建模能力，同时又利用多尺度信息提高模型性能。MViTv2提出了Improved pooling attention，如图12所示。该注意力模型采用与MViTv1中相同的池化操作来进行特征降维，降低参数量。此外，为了解决MViTv1使用绝对位置编码忽略平移不变性的问题和增强池化模块的训练，MViTv2在MHPA中添加相对位置编码指导K获知所处位置，Q处添加残差池化连接与Self-attention后的信息融合，增强了信息流，便于池化模块的训练。最后，通过线性层和池化层完成全局信息建模，同时在模型Patch转Token中使用CNN提取局部信息。10.11834/jig.220799.F012图12Improved pooling attention架构图（Li等，2022b）Fig.12Diagram of the improved pooling attention architecture（Li et al.， 2022b）EdgeNeXt（Maaz等，2022）提出一种卷积编码器和分割深度转置注意编码器（split depth-wise transpose attention，SDTA）。卷积编码器由深度卷积和线性层组成负责提取局部信息。SDTA编码器主要由特征编码模块和自注意计算模块组成。特征编码模块将输入数据按通道维度进行拆分，每个部分经深度卷积提取局部信息后进行拼接。而自注意计算模块则负责对经过特征编码模块提取局部信息后的特征进行全局建模。最终实现局部信息和全局信息的融合。EdgeViTs（Pan等，2022）提出一种局部—全局—局部的结构。该结构通过深度可分离卷积聚合局部信息，全局稀疏的Self-attention提取全局信息，最后通过转置卷积将代表Token 中的全局上下文信息传播到它们相邻的Token。从而实现局部—全局融合。ScalableViT（Yang等，2022）提出了可扩展的自注意力机制（scalable self-attention，SSA）和基于窗口交互的注意力机制（interactive window-based self-attention，IWSA）。SSA通过引入用于控制空间和通道维度数量的两个参数，解除ViT结构中固定维度带来的约束，以增强上下文信息的学习能力和提升网络效率。而IWSA则通过对V矩阵重新组合并从相邻窗口中提取空间信息实现窗口之间的信息交互。在类型3）中，LeViT（Graham等，2021）采用4层3×3卷积降低图像分辨率和图像化编码，随后通过attention与MLP交替堆叠搭建模型。其中，MLP与Self-attention数量关系上由一对一变为多对多。GLiT（Chen等，2021c）模型提出将ViT中的FFN替换为由深度卷积神经网络、Swish和GELU激活函数组成的卷积MLP。整个模块负责局部信息提取和优化。LocalViT（Li等，2021b）主要通过将Self-attention处理后的全局信息重构为图像。随后，通过Conv(1×1)→Conv(3×3)→Conv(1×1)等卷积操作来实现全局信息的整合与局部信息的提取。最后，将特征图转为序列Token作为下层Transformer的输入。CeiT（Yuan等，2021b）与LocalViT、GLiT类似，通过卷积降低分辨率，设置类似于LocalViT的卷积MLP结构增强模型局部信息提取和全局融合能力。最后，将每个阶段的Class Token进行拼接，并通过ViT模型完成图像分类。MLP改进图如图13所示。10.11834/jig.220799.F013图13MLP改进图（Li等，2021b）Fig.13MLP improvement diagram（Li et al.， 2021b）PiT（Heo等，2021）从CNN模型进行图像分类任务时维度升高和空间维度下绛的角度考虑ViT模型是否存在同样的空间维度变化出发，设计了由深度卷积实现池化操作的池化层，在降低模型空间维度的同时提升模型通道数量。在与ResNet相同的超参数配置时明显优于ResNet，说明了PiT的有效性。PiT与ViT的对比说明，空间降维对ViT架构有利。基于串行机制的局部与全局信息融合ViT模型及其特点如表5所示。10.11834/jig.220799.T005表5基于串行机制的局部与全局信息融合ViT模型Table 5Local and global information fusion ViT model based on serial mechanism类别模型特点位置编码和Patch编码添加CNNMobileViT（Mehta和Rastegari，2022）使用类似于UNet结构的架构设计通过卷积提取局部信息，ViT提取全局信息，随后采用卷积将局部与全局信息进行融合GC ViT（Hatamizadeh等，2023）通过卷积生成全局Token，信息交互过程中完成局部与全局信息融合MFT（Roy等，2022）将两个模态的信息通过CNN进行Token化，通过设计的跨Patch注意力进行模态信息的交互MCT（Jia等，2022）采用多尺度卷积提取局部信息，Transformer提取全局信息，将两者进行融合提升模型性能，采用自监督方法对中心像素点与邻域像素的关系进行建模CTN（Zhao等，2022）通过设计的中心位置编码将位置信息和光谱特征相结合，生成空间位置特征，并使用卷积Transformer将局部与全局信息融合DHViT（Xue等，2022）设计由CNN和Transformer组成的光谱Transformer和空间Transformer提取光谱特征和空间特征，并使用交叉注意力进行空间—光谱信息融合DSS-TRM（Liu等，2022c）设计空间注意力和光谱注意力来实现空间—光谱信息捕获和融合，其中两个注意力中均采用卷积提取局部信息，Transformer提取全局信息自注意力机制添加CNNCoAtNet（Dai等，2021）提出一种将深度卷积与自注意力机制有效结合的垂直堆叠方式ConViT（D’Ascoli等，2021）提出一种门控位置自注意力机制，将卷积和注意力动态融合CvT（Wu等，2021b）通过将CNN代替线性映射层和Self-attention中的Linear以构建卷积ViTPVTv1（Wang等，2021b）设计使用卷积作为池化层的spatial reduction attention降低计算量，并引入局部信息PVTv2（Wang等，2022）在Patch和位置编码中引入卷积，使用均值池化代替自注意力线性映射层，增强特征的空间信息提取能力MViTv1（Fan等，2021）将自注意力的线性映射层替换为池化层，降低参数量和增强空间信息提取能力MViTv2（Li等，2022b）在MHPA中添加相对位置编码指导K获知所处位置，Q处添加残差池化连接与Self-attention后的信息融合，增强信息流动便于池化模块训练EdgeViTs（Pan等，2022）通过深度可分离卷积聚合局部信息，全局稀疏的Self-attention提取全局信息，使用转置卷积增强全局上下文信息提取EdgeNeXt（Maaz等，2022）通过设计的卷积编码器和分割深度转置注意编码器实现局部信息和全局信息的融合ScalableViT（Yang等，2022）可扩展的自注意力机制负责调节空间和通道维度，基于窗口交互的注意力机制提高窗口之间的信息交互MLP添加CNNLeViT（Graham等，2021）通过使用Stem层提取局部信息，注意力和MLP交替组合完成全局信息提取GLiT（Chen等，2021c）设计卷积MLP负责局部信息提取和优化自注意力提取的全局信息LocalViT（Li等，2021b）将序列Token转为图像，提取局部信息并重构为TokenCeiT（Yuan等，2021b）设置卷积MLP和多层Class Token交互PiT（Heo等，2021）使用卷积实现池化操作，增强ViT模型空间信息的提取并行机制实现局部信息和全局信息的融合方式可以分为以下两种：1）CNN分支和ViT分支通过桥接来进行数据交互。如ConFormer（local features coupling global representations for visual recognition）（Peng等，2021）、MobileFormer（bridging mobileNet and Transformer）（Chen等，2022a）和 MixFormer（mixing features across windows and dimensions）（Chen等，2022b）。2）将输入特征按通道维度进行划分，随后对不同通道的特征进行计算，将计算的结果进行拼接以完成新的自注意力变体设计。如IFormer（inception Transformer）（Si等，2022）、LITv2（fast vision Transformers with HiLo attention）（Pan等，2023）和ASF-Former（adaptive split-fusion Transformer）（Su等，2022）。在方式1）中，ConFormer（Peng等，2021）模型通过CNN分支进行局部信息的提取，ViT分支提取全局信息，中间通过特征耦合单元（feature coupling unit，FCU）解构器来并行传输数据，实现局部信息和全局信息的融合，如图14所示。10.11834/jig.220799.F014图14ConFormer架构（Peng等，2021）Fig.14ConFormer architecture（Peng et al.， 2021）MobileFormer（Chen等，2022a）是Google团队设计的一个并行ViT，整个模型可以分为两个阶段：1) Mobile→Former; 2) Former→Mobile；其中Mobile表示轻量级的卷积提取网络，Former表示Cross-attention。整个模型并行传递信息流，完成局部信息和全局信息的交互。MixFormer（Chen等，2022b）提出了一种并行交互模块。该模块通过局部窗口自注意力提取局部信息，深度卷积提取全局信息中间则利用通道和空间交互模块进行信息并行传输，从而提高窗口之间的信息交互能力，实现局部和全局信息的融合。在方式2）中，主要是在完成通道划分的同时对划分后的通道信息进行计算和融合。其中，IFormer（Si等，2022）从图像数据的高低频角度出发看待模型的全局信息和局部信息融合问题。由于模型提取的全局信息对应了图像中的低频成分，从ViT模型特征提取能力角度可以得到结论：Transformer模型提取低频信息能力强、提取高频信息能力弱。因此，为增强高低频信息的提取，模型将输入的特征图在通道维度上划分为3块，一块采用Self-attention完成低频信息的提取，另外两块分别采用Maxpool和DWconv完成高频信息的提取。最后，使用Fusion模块完成高低频信息融合，如图15所示。10.11834/jig.220799.F015图15IFormer核心架构（Si等，2022）Fig.15IFormer core architecture（Si et al.， 2022）LITv2（Pan等，2023）的核心是一种新颖的自注意力机制，灵感来源于图像中的高频捕捉局部精细细节、低频聚焦于全局结构，而多头自注意力层忽略了不同频率的特征。因此，模型通过将头部分成两组来解开注意力层中的高/低频模式。其中，一组通过每个局部窗口内的自注意力对高频进行编码；另一组对每个窗口使用平均池化获得输入图像的低频特征，随后将低频特征进行线性映射为K和V，并将其与来自原始图像的Q进行注意力计算提取低频信息。最后通过拼接和ConvFFN完成高频信息和低频信息的融合。ASF-Former（Su等，2022）提出了HMCB（half-residual mobile convolutional branch），根据模型所处层数和分类重要程度的不同，将数据通道划分为两半，并行提取局部信息和全局信息，并采用Adaptive Fusion方法，动态地生成通道信息融合标量，以更加合理的方式融合局部和全局信息。基于并行机制的局部与全局信息融合ViT模型及其特点如表6所示。10.11834/jig.220799.T006表6基于并行机制的局部与全局信息融合ViT模型Table 6ViT model of local and global information fusion based on parallel mechanism类别模型名称特点桥接法ConFormer（Peng等，2021）CNN和ViT两个分支并行提取特征，并设计FCU结构器完成局部和全局信息传递MobileFormer（Chen等，2022a）设计卷积提取网络和交叉注意力进行信息并行传输MixFormer（Chen等，2022b）通过局部窗口自注意力提取局部信息，深度卷积提取全局信息，中间则利用通道和空间交互模块进行信息并行传输，从而提高窗口之间的信息交互能力划分通道法IFormer（Si等，2022）划分通道从高低频角度融合局部和全局信息LITv2（Pan等，2023）使用不同的头数提取和融合高低频信息ASF-Former（Su等，2022）根据模型所处层数和分类重要程度的不同，将数据通道划分为两半，并行提取局部信息和全局信息。随后采用Adaptive Fusion方法，动态完成通道信息融合2.4.3　纯Transformer架构相较于在Transformer架构中引入CNN为ViT模型添加归纳偏置，实现局部信息与全局信息的融合，纯Transformer架构更偏向于修改ViT架构，使得模型兼具局部信息与全局信息提取能力。典型的模型代表有Swin Transformer、PoolFormer（Yu等，2022b）、 CAT（cross attention Transformer）（Lin等，2021）、CrossFormer（Wang等，2021c）、TNT（Transformer in Transformer）（Han等，2021）、Twins-SVT（twins spatial attention in vision Transformers）（Chu等，2021）、LightViT（light-weight vision Transformers）（Huang等，2022）、SpectralFormer（spectral Transformer）（Hong等，2022）、PyramidTNT（improved Transformer-in-Transformer baselines with pyramid architecture）（Han 等，2022）、NAT（neighborhood attention Transformer）（Hassani 等，2022a）、BOAT（bilateral local attention vision Transformer）（Yu等，2022a）、Sequencer（Tatsunami 和 Taki，2023）和SepViT（separable vision Transformer）（Li等，2022c）。PoolFormer（Yu等，2022b）通过实验分析证明Self-attention层主要提取空间信息，而FFN负责提取通道信息。最后通过实验将由AvgPool组成的模型与Self-attention组成的模型顺次结合获得最优实验结果，既体现了局部信息与全局信息的融合对于提升模型性能的有效性，又为随后的研究者设计更加有效的ViT变体提供了思路。CAT（Lin等，2021）提出一种新的注意力机制，即交叉注意力机制。该注意力通过在图像块内部进行自注意力获取局部信息，并从单通道特征图划分的图像块之间应用注意力捕获全局信息。随后，交替应用Patch内和Patch间注意力，实现交叉注意，以较低的计算成本保持性能，并为其他视觉任务构建一个分层网络。CrossFormer（Wang等，2021c）提出了跨尺度嵌入层（cross-scale embedding layer，CEL）和长短距离注意力（long short distance attention，LSDA）来解决跨尺度、计算开销大以及局部—全局信息融合能力弱等问题。一方面，CEL 将每个嵌入与多个不同尺度的Patch混合在一起，为自注意力模块本身提供跨尺度特征；另一方面，LSDA 将 Self-attention 模块分为短距离和长距离对应模块，不仅减少了计算负担，而且在嵌入中同时保留了小规模和大规模的特征。通过以上两种设计，实现了跨尺度注意力。TNT（Han等，2021）和PyramidTNT（Han等，2022）都通过两层嵌套的方式完成Patch和像素级编码，即外部Transformer将图像划分为一个个Patch提取全部特征，而内部Transformer块则从像素编码中提取局部特征。通过线性变换层将像素级特征投影到Patch编码的空间，然后将其添加到Patch中。区别之处在于PyramidTNT引入了金字塔结构，可以更好地利用空间信息。Twins-SVT（Chu等，2021）由局部分组自注意力（locally-grouped self-attention，LSA）和全局子采样自注意力（global sub-sampled attention，GSA）组成。LSA将输入的特征图划分为子窗口，在窗口内进行自注意力计算，实现降低参数量的同时提取局部信息。但划分窗口的方式无法有效实现窗口之间的信息交互，进而影响了模型的性能。因此，通过设计GSA模块选择窗口代表信息，并通过代表信息之间的交互完成全局信息的提取。最后，通过LSA和GSA的交替堆叠，完成局部和全局信息的融合，提升模型分类性能。LightViT（Huang等，2022）为降低模型的计算量，实现局部信息和全局信息的融合，对ViT模型中的自注意力和FFN模块进行改进。首先，提出一种局部全局广播注意力，通过窗口注意力降低参数量。同时，引入可学习全局Token，动态地聚合局部信息和全局信息，解决经过局部窗口注意力后窗口之间交互能力差的问题。最后，通过空间注意力和通道注意力结合的方式，增强FFN的特征表达能力。SpectralFormer（Hong等，2022）提出一种纯Transformer的高光谱图像分类模型，可以接受像素级或Patch级的输入，旨在从附近的高光谱波段捕获光谱局部序列信息。整个模型由分组光谱嵌入（group-wise spectral embedding ，GSE）和跨层自适应融合（cross-layer adaptive fusion，CAF）模块组成。其中，GSE主要学习局部光谱表示，以提高模型捕获细微光谱差异的能力。CAF模块通过设计跨层跳跃连接将信息从浅层传递到深层，增强层间的信息交互能力。两个模块的设计与Transformer架构结合，能够有效将局部信息与全局信息融合，提升模型的分类能力。NAT（Hassani等，2022a）提出了邻域注意力（neighborhood attention，NA），其实质是点积自注意力的局部化，主要将每个查询Token的感受野限制在键值对对应Token周围的固定大小邻域。这种结构能够使较小的区域引起更多的局部关注，而较大的区域会产生更多的全局关注，从而在平移不变性和等变性之间取得平衡，实现对感受野的控制，进而通过这种邻居形式，获得局部信息与全局信息的融合，提升了模型性能，降低了计算开销。BOAT（Yu等，2022a）提出一种双向局部注意力模块，由特征空间局部注意力模块和图像空间局部注意力模块组成。图像空间局部注意力模块将图像划分为多个局部窗口，通过注意力运算提取局部信息。而特征空间局部注意力模块则根据Patch的特性，采用平衡分层聚类法（如图16所示），将其分组到多个集群中，在每个集群中进行自注意力机制计算。这种特征空间局部注意力方法能够有效地捕获跨不同局部窗口的Patch之间的连接，但仍然具有相关性。10.11834/jig.220799.F016图16平衡分层聚类法示例（Yu等，2022a）Fig.16Example of balanced hierarchical clustering （Yu et al.， 2022a）Sequencer（Tatsunami和Taki，2023）提出一种基于双向LSTM（long short-term memory）提取局部与全局信息的网络模型。首先将图像按照行与列进行划分并采用双向LSTM提取特征，随后将提取的特征进行拼接和通道混合。实现局部信息和全局信息的融合。SepViT（Li等，2022c）提出一种深度可分离的注意力机制，结构如图17所示。首先将图像分割为不同的Patch，然后为不同的Patch添加Window Token，计算窗口注意力。随后将Window Token通过卷积转变为Q、K，Patch作为新的Self-attention的V进行点积注意力，实现局部信息和全局信息融合。10.11834/jig.220799.F017图17SepViT模型（Li等，2022c）Fig.17SepViT model（Li et al.， 2022c）基于纯Transformer的局部与全局信息融合ViT模型及其特点如表7所示。10.11834/jig.220799.T007表7基于纯Transformer的局部与全局信息融合ViT模型Table 7Local and global information fusion ViT model based on pure Transformer模型特点PoolFormer（Yu等，2022b）通过实验验证了Transformer架构的有效性，并使用平均池化和自注意力机制交替作为提取全局信息的方式设计模型CAT（Lin等，2021）设计交叉注意力实现Patch内和Patch间的信息交互CrossFormer（Wang等，2021c）通过设计的跨尺度嵌入层和长短距离注意力模块，实现跨尺度注意力TNT（Han等，2021）像素级特征和Patch特征进行交互PyramidTNT（Han等，2022）像素级特征和Patch特征提取的同时利用金字塔结构丰富模型空间信息Twins-SVT（Chu等，2021）设计局部分组自注意力和全局子采样自注意力，将局部和全局信息进行结合LightViT（Huang等，2022）设计局部全局广播注意力与改进的FNN结合，提取局部和全局信息SpectralFormer（Hong等，2022）通过分组光谱嵌入和跨层自适应融合模块，提取局部光谱的同时完成局部和全局信息的融合NAT（Hassani等，2022a）设计Neighborhood attention，在平移不变性和等变性之间取得平衡，以控制感受野BOAT（Yu等，2022a）提出双向局部注意力模块，提取局部窗口空间信息的同时完成信息的交互Sequencer（Tatsunami 和 Taki，2023）双向LSTM对行列划分的图像进行特征提取来代替自注意力机制的全局信息建模SepViT（Li等，2022c）使用深度可分离思想对ViT进行改进，提取局部和全局信息2.5　深层ViT模型He等人（2016）和张珂等人（2021）研究发现，随着模型层数加深，模型性能得到显著提升。因此，有很多研究尝试将ViT模型层数加深，以提升分类性能。但研究表明，随着ViT层数增加，会产生注意力崩溃问题。为解决这个问题，DeepViT（towardsdeeper vision Transformer）（Zhou等，2021）、CaiT（class-attention in image Transformers）（Touvron等，2021b）和T2T-ViT（tokens-to-token vision Transformer）（Yuan等，2021c）等通过巧妙的模型结构设计提升ViT性能。DeepViT（Zhou等，2021）发现随着模型层数的不断加深，ViT每层的相似度差异会逐渐减小。针对该问题，提出了两种解决方法：1）扩大输入Token的维度，增加参数量扩大相似度；2）通过引入Re-attention解决注意力崩溃问题，即在Self-attention计算过程中添加归一化因子，打破相似度一致化。CaiT（Touvron等，2021b）从两个角度加深模型和提升性能，如图18所示。1）引入LayerScale层，在每个残差块的输出上添加一个可学习的对角矩阵，以提高训练的动态性和获得更深层次的模型；2）构建了一个CA（class-attention）模块，即通过前期的多层Transformer完成特征提取，在后期添加Class Token聚合分类信息，将Class Token的任务从概括全局信息进行分类与实时更新特征图分离，通过堆叠多层Transformer提升模型性能。10.11834/jig.220799.F018图18CaiT 归一化因子（Touvron等，2021b）Fig.18CaiT normalization factor（Touvron et al.， 2021b）T2T-ViT（Yuan等，2021c）提出Tokens-to-Token（T2T）模块，将相邻的Tokens 聚合为一个Token，以模拟周围Tokens的局部结构信息，迭代地减少Tokens的长度。具体来说，在每个Token-to-Token步骤中，由Transformer 输出的Tokens被重建为一个图像，然后通过软分割将周围的Token分割平铺聚集在一起生成新的Token。因此，周围的局部结构被嵌入到生成的Token中，并输入到下一个Transformer层。随后，在T2T引入局部先验性的基础上堆叠多层提升模型性能。深层ViT模型及其特点如表8所示。10.11834/jig.220799.T008表8深层ViT模型Table 8Deep ViT model模型特点DeepViT（Zhou等，2021）通过扩大Token维度和相对注意力解决注意力崩溃问题CaiT（Touvron等，2021b）通过可学习对角矩阵即归一化因子和Class-attention解决类别不平衡问题T2T-ViT（Yuan等，2021c）通过层层聚合Token加深模型3　实验本节主要通过ViT变体在ImageNet、CIFAR-10（Canadian Institute for Advanced Research）和CIFAR-100这3个数据集上的分类准确率来衡量模型对于ViT设计之初所面临问题的解决程度。考虑到近年来Transformer在遥感图像分类中也得到广泛应用，本文对基于Transformer的遥感图像分类方法也通过实验进行了对比分析。3.1　数据集CIFAR-10数据集由10个类别共60 000幅32×32像素的彩色图像组成，每个类6 000幅图像。训练集50 000幅图像，测试集10 000幅图像。测试集图像包含10个类别，每个类别1 000幅图像。CIFAR-100数据集有100个类，每个类包含600幅图像。每类分为500幅训练图像和100幅测试图像。ImageNet（Deng等，2009）是美国斯坦福大学和普林斯顿大学根据WordNet层次结构合作组织建立的用于视觉对象识别软件研究的大型可视化数据库，涵盖1 000 个对象类别，包含 1 281 167 幅训练图像，50 000幅验证图像和100 000幅测试图像。本文中的ImageNet数据集特指ImageNet-1K。Indian Pines是第一个高光谱（hyperspectral，HS）图像数据集。1992年在美国印第安纳州西北部使用机载可见光/红外成像光谱仪（airborne visible/ infrared imaging spectrometer，AVIRIS）传感器收集所得。HS图像由145×145像素组成，地面采样距离（ground sample distance，GSD）为20 m，220个光谱波段覆盖400 nm至2 500 nm波长范围，光谱分辨率为10 m。去除20个噪声和水吸收波段后，保留200个光谱波段。该研究场景中有16个主要研究类别。Trento数据集收集了意大利南部特伦托一个农村地区的高光谱图像和LiDAR 数据。该数据集的覆盖范围内包含6个不同的类别。Salinas由机载可见光/红外成像光谱仪（AVIRIS）在美国加利福尼亚州萨利纳斯谷地区收集。数据集的空间大小为512×217像素，空间分辨率为3.7 m/像素，光谱范围为400～2 500 nm，去除20个噪声波段后有204个波段。除了未标记的像素外，数据集还包含16个手动标记的类。3.2　评价指标实验结果的评价主要采用准确率和参数量两个指标。此外，为了更全面地分析模型的性能，采用浮点运算数（floating point operations，FLOPs）作为模型性能评价指标。对遥感图像分类结果采用与Hong等人（2022）相同的评价指标。如总体分类精度（overall accuracy，OA）、平均分类精度（average accuracy，AA）和Kappa（κ）系数。3.3　实验结果表9给出了16个模型在ImageNet、CIFAR-10和CIFAR-100数据集上的实验结果。可以看出，对应ResNet系列模型，随着模型堆叠残差连接网络数量增加，模型深度加深，准确率上升，但参数量和计算复杂度也随之增加。上述结果表明，残差网络在解决深层卷积神经网络的梯度消失和梯度爆炸问题中比较有效，但其参数规模巨大，计算复杂度大，不利于移动端部署。相比于ResNet系列模型，由于采用了深度可分离卷积，EfficientNet系列模型的参数量显著降低，采用较少计算量，就能完成较高分类性能。该结果表明，深度可分离卷积对于降低参数量十分有效且不会降低分类性能。10.11834/jig.220799.T009表 9可扩展位置编码类别ViT变体与CNN和ViT在不同数据集上的Top-1准确率、参数量和FLOPs对比Table 9Comparison of Top-1 accuracy， number of parameters and FLOPs of the scalable location coding class ViT variant with CNN and ViT on different datasets方法模型参数量/MFLOPsTop-1准确率/%ImageNetCIFAR-10CIFAR-100CNNResNet-50（He等，2016）25.64.1 B76.2--ResNet-101（He等，2016）44.77.9 B77.4--ResNet-152（He等，2016）60.211.5 B78.3--RegNetY-4GF（Radosavovic等，2020）214.0 G80.0--EfficientNet-B0（Tan和Le，2019）5.30.39 B76.398.188.1EfficientNet-B1（Tan和Le，2019）7.80.70 B78.8--EfficientNet-B2（Tan和Le，2019）9.21.0 B79.8--EfficientNet-B3（Tan和Le，2019）121.8 B81.1--TransformerViT-B/16（Dosovitskiy等，2021）8655.4 G77.998.187.1ViT-L/16（Dosovitskiy等，2021）307190.7 G76.597.986.4可扩展位置编码ViT变体ResT-B（Zhang 和 Yang，2021）30.284.3 G81.6--ResT-L（Zhang 和 Yang，2021）51.637.9 G83.6--CPVT-S（Chu等，2023）234.6 B80.5--CPVT-B（Chu等，2023）8817.6 B82.3--CMT-S（Guo等，2022）25.14.0 B83.599.291.7CMT-B（Guo等，2022）45.79.3 B84.5--注：加粗字体表示各列最优结果， “-”表示没有相关数据。为了获得更高的图像分类准确率，提出了基于可扩展位置编码的ViT模型。由表9可见，CMT模型取得了84.5%的准确率，相比于CNN系列最高准确率高出3.4%，同时具有较低的计算复杂度。该结果表明，可扩展位置编码能够有效解决ViT模型中绝对位置编码带来的可扩展性差问题，提升了ViT模型性能，为模型应用于高分辨率图像提供了可能。表10给出了14个模型在ImageNet图像分类数据集上的实验结果。可以看出，根据模型所采用方式的不同，可以划分为窗口注意力型（Swin Transformer， CSWin Transformer）和自注意力改进型（VOLO， VVT）两种方式。其中，窗口注意力型核心思想是二次划分Patch进行Self-attention运算，从而减少计算复杂度。而改进自注意力型主要将Self-attention中的运算顺序进行[ϕ(Q)ϕ(K)T]V→ϕ(Q)[ϕ(K)TV]的交换以及将softmax替换为线性复杂度的函数来降低计算复杂度。通过表10中的FLOPs对比可以发现，两种方式的复杂度都低于ViT的同时分类准确率更高。此外，窗口注意力型模型性能在相同计算复杂度下不如自注意力改进型。由此可得出结论，两种降低复杂度的方式对于降低复杂度都有效，其中从模型架构上对于Self-attention的改进更直接也更有效，未来改进模型降低复杂度时，为保证复杂度与准确率平衡，可以寻找线性复杂度的函数代替softmax函数。10.11834/jig.220799.T010表10低复杂度和低计算代价类别ViT变体在ImageNet数据集上的Top-1准确率和计算复杂度对比Table 10Comparison of Top-1 accuracy and computational complexity of low-complexity and low-computational-cost class ViT variants on ImageNet dataset模型参数量/MFLOPs计算复杂度Top-1准确率/%Swin-T（Liu等，2021）294.5 GΩ(2M2hwC+4hwC2)81.3Swin-S（Liu等，2021）508.7 G83.0Swin-B（Liu等，2021）8815.4 G83.5VOLO-D1（Yuan等，2021a）276.8 BΩ(hwC(2C+head(Ws)4)+hwC(Ws)2)84.2VOLO-D2（Yuan等，2021a）5914.1 B85.2VOLO-D3（Yuan等，2021a）8620.6 B85.4VOLO-D4（Yuan等，2021a）19343.8 B85.7VOLO-D5（Yuan等，2021a）29669.0 B86.1CSWin-T（Dong等，2022）234.3 GΩ(HWC×(4C+Sw×H+Sw×W))82.7CSWin-S（Dong等，2022）356.9 G83.6CSWin-B（Dong等，2022）7815.0 G84.2VVT-S（Sun等，2022）25.55.6 GΩ(hw(2C)2+2C2)82.6VVT-M（Sun等，2022）47.99.4 G83.8VVT-L（Sun等，2022）61.810.8 G84.1注：加粗字体表示最优结果。表11给出了8个模型（*表示蒸馏）在ImageNet、CIFAR-10和CIFAR-100图像分类数据集上的实验结果。可以看出，DeiT、CCT模型添加知识蒸馏策略时，模型在ImageNet、CIFAR-10和CIFAR-100数据集上分类准确率都有所提升，表明了知识蒸馏策略在少量增加甚至不增加参数量的情况下为模型引入归纳偏置提升分类性能具有重要作用，从中可得出结论：归纳偏置的缺乏影响ViT模型在小数据集上的准确率，进而需要大量数据来缓解这个问题。10.11834/jig.220799.T011表 11“数据饥饿”问题解决方法在CIFAR-10、CIFAR-100和ImageNet数据集上的准确率对比Table 11Comparison of accuracy rates for “data hungry” problem on CIFAR-10， CIFAR-100 and ImageNet datasets模型参数量/MFLOPsTop-1 准确率/%ImageNetCIFAR-10CIFAR-100DeiT-Ti（Touvron等，2021a）51.3 B72.2--DeiT-S（Touvron等，2021a）224.6 B79.8--DeiT-B（Touvron等，2021a）8617.6 B81.899.190.8DeiT-B*（Touvron等，2021a）8752.8 B83.499.191.3CCT-7/3×1（Hassani等，2022b）3.761.19 G-98.0082.87CCT-14/7×2（Hassani等，2022b）22.365.53 G80.67--CCT-14/7×2*（Hassani等，2022b）22.365.53 G81.34--SL-ViT（Lee等，2021）2.9199.2 M-94.5376.92注：加粗字体表示各列最优结果， “-”表示没有相关数据，“*”表示蒸馏。表12给出了9个模型在ImageNet、CIFAR-10和CIFAR-100图像分类数据集上的实验结果。可以看出，3种模型在ResNet为基础的Backbone上合理添加Self-attention及其变体实现局部信息与全局信息的融合，相较于ResNet系列、ViT-B和ViT-L具有较高的分类准确率，从中可得出结论：两者的结合既降低了参数量（CNN参数量≪多层Self-attention堆叠）又降低了计算复杂度。10.11834/jig.220799.T012表12CNN+Self-attention模型及其变体在CIFAR-10、CIFAR-100和ImageNet数据集上的准确率对比Table 12Accuracy comparison of CNN+Self-attention model and its variants on CIFAR-10， CIFAR-100 and ImageNet datasets模型参数量/MFLOPsTop-1 准确率/%ImageNetCIFAR-10CIFAR-100CoTNet-50（Li等， 2023）22.23.3 G81.3--CoTNeXt-50（Li等， 2023）30.14.3 G82.1--CoTNet-101（Li等， 2023）38.36.1 G82.8--CoTNeXt-101（Li等， 2023）53.48.2 G83.2--LG-T（Li等，2021a）32.64.8 G82.1--LG-S（Li等，2021a）619.4 G83.3--BoTNet-S1-59-T2（Srinivas等，2021）33.57.3 G81.7--BoTNet-S1-110-T4（Srinivas等，2021）54.710.9 G82.8--BoTNet-S1-128-T5*（Srinivas等，2021）75.119.3 G83.5--注：加粗字体表示每列最优结果，“-”表示没有相关数据。表13给出了26个模型在ImageNet、CIFAR-10和CIFAR-100图像分类数据集上的实验结果。可以看出，相较于CNN+Self-attention的模式而言，CNN和Transformer的串行机制重点是对Transformer的改进。表中CvT、CCT模型代表了使用CNN代替线性映射层将Patch映射到Token的方法提取特征的局部信息；CeiT和LocalViT则是利用CNN降低分辨率，以及FFN模块中添加深度卷积来聚合空间局部信息。通过将CvT、CeiT与ViT相比证明两种模型的有效性，从中可得出结论：前期引入CNN对于提升性能相较于后期FFN处添加更加有效，深度卷积能够降低模型参数量并提升性能。此外，由表13可以看出，PVT v1和PVT v2通过引入金字塔结构为模型带来了丰富的多尺度空间信息和相较于原始ViT更低的参数量和更好的性能。PiT、MViTv1和MViTv2为模型引入Pool操作增加了模型的空间信息。PVT v2和MViTv2除了引入主要架构外，还在模型中添加CNN带来归纳偏置，相较于单独添加CNN模型引入金字塔结构和空间信息的模型，参数量降低且准确率上升。从而得出结论：CNN带来的归纳偏置和金字塔结构以及Pool操作带来的空间信息结合是使得全局信息与局部信息融合，降低参数量、复杂度和性能提升的重要手段。其中ScalableViT与GC ViT主要对窗口注意力进行改进，将它们与Swin Transformer对比可知，增加窗口之间信息交互，对提升模型性能至关重要。10.11834/jig.220799.T013表 13串行机制中引用量300以上的模型在不同数据集上的准确率对比Table 13Comparison of accuracy on different datasets for models with 300+ citations in the serial mechanism模型参数量/MFLOPsTop-1 准确率/%ImageNetCIFAR-10CIFAR-100CvT-13（Wu等，2021b）204.5 G81.6--CvT-21（Wu等，2021b）327.1 G82.5--CeiT-T（Yuan等，2021b）6.41.2 G76.498.588.4CeiT-S（Yuan等，2021b）24.24.5 G8299.090.8PVT v2-B1（Wang等，2022）13.12.1 G78.7--PVT v2-B2（Wang等，2022）22.63.9 G82.1--PVT v2-B3（Wang等，2022）45.26.9 G83.2--PVT v2-B4（Wang等，2022）62.610.1 G83.6--PVT v2-B5（Wang等，2022）8211.8 G83.8--MViTv2-T（Li等，2022b）244.7 G82.3--MViTv2-S（Li等，2022b）357 G83.6--MViTv2-B（Li等，2022b）5210.2 G84.4--MViTv2-L（Li等，2022b）21842.1 G85.3--EdgeNeXt-XXS（Maaz等，2022）1.3261 M71.2--EdgeNeXt-XS（Maaz等，2022）2.3538 M75--EdgeNeXt-S（Maaz等，2022）5.61.30 G79.4--EdgeViT-XXS（Pan等，2022）4.10.6 G74.4--EdgeViT-XS（Pan等，2022）6.71.1 G77.5--EdgeViT-S（Pan等，2022）11.11.9 G81--ScalableViT-S（Yang等，2022）324.2 G83.1--ScalableViT-B（Yang等，2022）818.6 G84.1--ScalableViT-L（Yang等，2022）10414.7 G84.4--GC ViT-XT（Hatamizadeh等，2023）202.6 G81.9--GC ViT-T（Hatamizadeh等，2023）284.7 G83.2--GC ViT-S（Hatamizadeh等，2023）518.5 G83.9--GC ViT-B（Hatamizadeh等，2023）9014.8 G84.4--注：加粗字体表示各列最优结果， “-”表示没有相关数据。表14给出了13个模型在ImageNet、CIFAR-10和CIFAR-100图像分类数据集上的实验结果。可以看出，并行机制分为两种方式：1）CNN分支和ViT分支通过桥接来进行数据交互，如Conformer与Mobile-Former；2）将输入特征按通道维度进行划分，随后对不同通道的特征进行计算，将计算的结果进行拼接以完成新的自注意力变体设计，如IFormer与ASF-Former。从实验结果来看，桥接的并行方式相较于使用划分通道的方法在相同参数量和计算复杂度情况下，IFormer取得的准确率更高。从中可得出结论：相较于通过桥接模型完成局部信息和全局信息融合的并行方式，利用交叉Self-attention具有的交互能力直接进行信息传递，省去复杂的传输网络大幅降低了模型复杂度和模型参数量。但交叉注意力方式交互相较于并行模型较低的准确率说明此类方法有待进一步完善。此外，表14中的划分通道类型的模型，解决了并行桥接和交叉注意力在交互过程中存在的数据冗余，影响模型性能的问题，不同通道各司其职，这种合理的通道融合机制为局部信息和全局信息融合做出重要贡献。10.11834/jig.220799.T014表14并行机制模型及其变体在CIFAR-10、CIFAR-100和ImageNet数据集上的准确率对比Table 14Comparison of accuracy of parallel mechanism models and their variants on CIFAR-10， CIFAR-100 and ImageNet datasets模型参数量/MFLOPsTop-1 准确率/%ImageNetCIFAR-10CIFAR-100Conformer-Ti（Peng等，2021）23.55.2 G81.3--Conformer-S（Peng等，2021）37.710.6 G83.4--Conformer-B（Peng等，2021）83.323.3 G84.1--Mobile-Former-294M（Chen等，2022a）11.4294 M77.9--Mobile-Former-508M（Chen等，2022a）14.0508 M79.3--IFormer-S（Si等，2022）204.8 G83.4--IFormer-B（Si等，2022）489.4 G84.6--IFormer-L（Si等，2022）8714.0 G84.8--LITv2-S（Pan等，2023）283.7 G82.0--LITv2-M（Pan等，2023）497.5 G83.3--LITv2-B（Pan等，2023）8713.2 G83.6--ASF-former-S（Su等，2022）19.35.5 G82.798.790.4ASF-former-B（Su等，2022）56.712.9 G83.998.891.0注：加粗字体表示各列最优结果， “-”表示没有相关数据。表15给出了14个模型在ImageNet、CIFAR-10和CIFAR-100图像分类数据集上的实验结果。可以看出，纯Transformer架构融合全局与局部信息的方法，从窗口注意力存在的Patch块之间信息交互能力差出发，设计了增强窗口之间信息交互能力的模型。由表15可以看出，对距离权重分配法（BOAT，NAT）、窗口级嵌套法（TNT，Twins-SVT，PyranidTNT）以及Windows Token窗口信息交互法（SepVit）等3种方法进行了对比，BOAT模型获得的准确率最高。此外，NAT模型取得了第2的成绩。实验结果表明，距离权重分配法进行局部和全局信息融合相对于另外两种方式获得了更优异的性能，证明了引入归纳偏置对于ViT网络提升性能至关重要。10.11834/jig.220799.T015表 15基于纯Transformer中引用量200以上的模型在不同数据集上的准确率对比Table 15Comparison of accuracy on different datasets based on models with 200+ citations in the pure Transformer architecture模型参数量/MFLOPsTop-1 准确率/%ImageNetCIFAR-10CIFAR-100TNT-S（Han等，2021）23.85.2 B81.5--TNT-B（Han等，2021）65.614.1 B82.9--Twins-SVT-S（Chu等，2021）242.9 G81.7--Twins-SVT-B（Chu等，2021）568.6 G83.2--Twins-SVT-L（Chu等，2021）99.215.1 G83.7--PyramidTNT-M（Han等，2022）85.08.2 B83.5--PyramidTNT-B（Han等，2022）157.016.0 B84.1--NAT-S（Hassani等，2022a）517.8 G83.7--NAT-B（Hassani等，2022a）9013.7 G84.3--BOAT-CSWin-T（Yu等，2022a）275.1 G83.7--BOAT-CSWin-S（Yu等，2022a）418.0 G84.1--BOAT-CSWin-B（Yu等，2022a）9017.5 G84.7--SepViT-S（Li等，2022c）46.67.5 G83.5--SepViT-B（Li等，2022c）82.313.1 G84.0--注：加粗字体表示各列最优结果， “-”表示没有相关数据。表16给出了9个模型在ImageNet、CIFAR-10和CIFAR-100图像分类数据集上的实验结果。可以看出， DeepViT、CaiT和T2T-ViT这3个模型主要通过合理的架构设计来解决深层ViT带来的注意力崩溃问题。从表16中实验结果对比发现，CaiT获得了最高的分类准确率。从中可以得出结论，通过层归一化因子可以减缓层与层之间的相似度增加，缓解注意力崩溃问题，进而加深模型层数提升模型性能。10.11834/jig.220799.T016表16深层ViT模型在CIFAR-10、CIFAR-100和ImageNet数据集上的准确率对比Table 16Comparison of accuracy of deep ViT models on CIFAR-10， CIFAR-100 and ImageNet datasets模型参数量/MFLOPsTop-1 准确率/%ImageNetCIFAR-10CIFAR-100DeepViT-S（Zhou等，2021）276.2 G81.4--DeepViT-L （Zhou等，2021）5512.5 G82.2--CaiT-XS-24（Touvron等，2021b）26.65.4 G81.8--CaiT-S-24（Touvron等，2021b）46.99.4 G82.7--CaiT-S-36（Touvron等，2021b）68.213.9 G83.399.292.2CaiT-M-24（Touvron等，2021b）185.936 G83.4--CaiT-M-36（Touvron等，2021b）270.953.7 G83.899.393.3T2T-ViT-14（Yuan等，2021c）21.54.8 G81.597.588.4T2T-ViT-19（Yuan等，2021c）39.28.5 G81.998.389注：加粗字体表示各列最优结果， “-”表示没有相关数据。表17给出了29个模型在ImageNet、CIFAR-10和CIFAR-100图像分类数据集上的实验结果。表17还给出了本文按照4个大类别8个子类别展开叙述的8个最优模型。图19是根据本文所划分的4个类别，在图像尺寸为224×224像素情况下获得的每个类别的最高准确率与参数量的关系。10.11834/jig.220799.T017表174个大类别8个子类的最优模型在CIFAR-10、CIFAR-100和ImageNet数据集上的准确率对比Table 17Comparison of accuracy of the best models in four broad categories and eight subcategories on CIFAR-10， CIFAR-100 and ImageNet datasets模型类别参数量/MFLOPsTop-1 准确率/%ImageNetCIFAR-10CIFAR-100CMT-S（Guo等，2022）可扩展位置编码25.14.0 B83.599.291.7CMT-B（Guo等，2022）45.79.3 B84.5--VOLO-D1（Yuan等，2021a）低复杂度和低计算代价276.8 B84.2--VOLO-D2（Yuan等，2021a）5914.1 B85.2--VOLO-D3（Yuan等，2021a）8620.6 B85.4--VOLO-D4（Yuan等，2021a）19343.8 B85.7--VOLO-D5（Yuan等，2021a）29669.0 B86.1--DeiT-Ti（Touvron等，2021a）局部与全局信息融合（数据饥饿问题）51.3 G72.2--DeiT-S（Touvron等，2021a）224.6 G79.8--DeiT-B（Touvron等，2021a）8617.6 G81.899.190.8DeiT-B*（Touvron等，2021a）8752.8 G83.499.191.3BoTNet-S1-59-T2（Srinivas等，2021）局部与全局信息融合（CNN+self-attention）33.57.3 G81.7--BoTNet-S1-110-T4（Srinivas等，2021）54.710.9 G82.8--BoTNet-S1-128-T5*（Srinivas等，2021）75.119.3 G83.5--MViTv2-T（Li等，2022b）局部与全局信息融合(串行机制)244.7 G82.3--MViTv2-S（Li等，2022b）357 G83.6--MViTv2-B（Li等，2022b）5210.2 G84.4--MViTv2-L（Li等，2022b）21842.1 G85.3--IFormer-S（Si等，2022）局部与全局信息融合（并行机制）204.8 G83.4--IFormer-B（Si等，2022）489.4 G84.6--IFormer-L（Si等，2022）8714.0 G84.8--BOAT-CSWin-T（Yu等，2022a）局部与全局信息融合（纯Transformer架构）275.1 G83.7--BOAT-CSWin-S（Yu等，2022a）418.0 G84.1--BOAT-CSWin-B（Yu等，2022a）9017.5 G84.7--CaiT-XS-24（Touvron等，2021b）深层Vit模型26.65.4 G81.8--CaiT-S-24（Touvron等，2021b）46.99.4 G82.7--CaiT-S-36（Touvron等，2021b）68.213.9 G83.399.292.2CaiT-M-24（Touvron等，2021b）185.936 G83.4--CaiT-M-36（Touvron等，2021b）270.953.7 G83.899.393.3注：加粗字体表示各列最优结果， “-”表示没有相关数据，“*”表示蒸馏。10.11834/jig.220799.F019图194分类中ImageNet上准确率最高模型的参数量和准确率图Fig.19Plot of number of parameters and accuracy of the most accurate models on ImageNet in the four classifications由表 17和图19可见：1）通过最优模型的参数量逐渐增大，模型的整体性能不断提升，从中可以得出结论，当基础设计有效时，随着模型参数的增加，性能也会不断提升；2）DeiT蒸馏模型和DeiT-B的实验效果对比可以得出结论，蒸馏的方式使得模型在参数量少量增加甚至不变的情况下提升了性能；3）随着模型深度加深模型性能提升，证明了CaiT缓解注意力崩溃的方法有效；4）通过上述模型的内部结构发现，将CNN与Transformer有效结合，对于图像分类效果具有明显增益。表18给出了ViT、SpectralFormer（Hong等，2022）、MFT（Roy等，2022）、MCT（Jia等，2022）、CTN（Zhao等，2022）、DHViT（Xue等，2022）和DSS-TRM（Liu等，2022c）等7个模型在Indian Pines、Salinas和Trento遥感高光谱图像分类数据集上的实验结果。10.11834/jig.220799.T018表18基于Transformer的遥感高光谱图像分类模型在不同数据集上的OA、AA、κ对比Table 18Comparison of OA， AA and κ of Transformer-based remote sensing hyperspectral image classification model on different datasets /%模型Indian Pines数据集Salinas数据集Trento数据集OAAAκOAAAκOAAAκViT（Dosovitskiy等，2021）71.8678.9768.0489.994.1888.7794.6291.3392.81SpectralFormer（Hong等，2022）81.7687.8179.19---88.4279.3884.68MFT（Roy等，2022）------98.3295.9897.75MCT（Jia等，2022）---92.0496.2691.13---CTN（Zhao等，2022）99.1198.8298.99------DHViT（Xue等，2022）------99.5899.0299.43DSS-TRM（Liu等，2022c）99.4399.4999.3399.2699.0299.18---注：加粗字体表示各列最优结果， “-”表示没有相关数据。由表18可见，相比于使用原始ViT模型进行高光谱图分类而言，使用局部信息与全局信息结合的方法有效提高了分类准确率，证明了局部与全局信息融合的有效性。此外，通过使用数据的不同可将模型划分为单模态和多模态。其中，SpectralFormer、MCT、CTN、DSS-TRM仅使用高光谱图的单模态数据，MFT和DHViT则是使用高光谱图像和LiDAR图像作为输入数据的多模态模型。通过将SpectralFormer在Trento数据集上的实验结果与MFT和DHViT对比发现，针对多模态数据设计的模型相较于设计之初仅使用一个模态数据的SpectralFormer的OA、AA和κ分别提高了11.16%、19.64%和14.75%。实验结果表明，合理利用多模态信息能够提升模型的整体性能。Indian Pines数据集上的实验结果对比可以发现，DSS-TRM相较于SpectralFormer、CTN取得了更好的实验效果，表明有效捕捉和利用空间—光谱信息能够提升高光谱图像分类的准确率。4　结语目前基于ViT的图像分类研究尽管已经取得了一定进展，然而在实际应用中，由于图像分类问题的复杂性，仍面临很多挑战性问题，亟需解决。具体体现如下：1）由于ViT设计之初将图像划分为固定的图像块，破坏了固有的对象结构，减少了输入Patches提供的信息量，使得模型聚焦于背景，对图像分类造成信息干扰，影响分类结果。2）Transformer模型中通过添加CNN的方式引入归纳偏置只是缓解了数据饥饿问题，并未解决发生此类问题的根源。3）目前使用Transformer和CNN模型进行图像分类，在相同性能情况下，Transformer仍比CNN模型参数量和计算复杂度大，且不利于移动端部署。针对上述问题，本文认为在后续工作中，可以从如下方面展开研究：1）设计一种不从固定位置采样，以迭代方式更新采样位置，通过上下文信息交融聚焦分类关键区域的方案。2）分析产生数据饥饿问题的根本原因，在CNN与Transformer结合的基础上进行改进，设计更加合理的模型。3）设计低复杂度、低计算量和轻量级便于部署的模型。4）增加解决问题的数量或设计统一的框架对于推动计算机视觉领域的发展具有里程碑的意义，也是未来主要研究的方向之一。5）将Transformer应用到小众科研领域和工业实景下解决具体的工业问题，对于推动国家工业智能化发展，具有重要意义。