网刊加载中。。。

论文引用格式：Sun Y， Ding J W， Zhang Q and Deng Q Y. 2024. Images super-resolution reconstruction of transposed self-attention with local feature enhancement. Journal of Image and Graphics， 29（04）：0908-0921（引用格式:孙阳，丁建伟，张琪，邓琪瑶. 2024. 局部特征增强的转置自注意力图像超分辨率重建. 中国图象图形学报， 29（04）：0908-0921）［0　引言单图像超分辨率（single image super-resolution，SISR）技术旨在将低分辨率（low resolution，LR）图像重建为高分辨率（high resolution，HR）图像。相较于LR图像来说，HR图像具有更丰富的细节信息和更友好的视觉感知，图像质量和可用性都更高。SISR技术是图像复原领域的一个热点研究问题，通常应用于刑侦、遥感和医学诊断等领域。SISR技术具有非常典型的不适定（ill-posed）特性，即一个LR输入对应许多可能的HR输出，映射空间太大，映射对象不唯一，具有非常大的挑战性。常见的超分辨率技术主要分为以下3类：基于插值的方法、基于重建的方法和基于学习的方法。基于插值的方法主要依赖于图像先验信息和统计模型等进行插值计算，具有简单易用和计算复杂度低的优点。然而插值得到的图像容易出现锯齿状的伪影，并且性能严重依赖于原始图像的质量。基于重建的方法通过融合同一场景下的多个低分辨率图像中的高频信息生成高分辨率图像。但是在实际场景中，难以收集足够多的低分辨率图像。此外，基于重建的方法对先验的依赖较强，生成的结果容易出现伪影或失真问题。基于学习的方法对大量HR和LR图像对的学习来构建高低分辨率字典，并通过深度学习网络进行图像重建。在这个过程中，算法从大量数据对中学习图像的特征和结构信息，从而实现更加准确的重建效果。相较于基于插值和基于重建的方法，基于学习的方法能够获得更多的高频信息，从而得到更清晰的纹理细节和更丰富的信息特征，在准确性和计算效率等方面具有很大的优势，因此受到越来越多的关注。Dong等人（2014）提出的SRCNN（convolutional neural network for image super-resolution）采用经典的端到端结构，通过简单的3层卷积结构在保证图像质量的同时又可以实现高分辨率图像的快速重建，开创了基于学习的超分辨率技术的先河。Shi等人（2016）提出的ESPCN（efficient sub-pixel convolutional neural network）方法提高了基于学习的方法的计算效率，获得了良好的重建效果。Kim等人（2016）采用深度残差网络的思想，通过构建具有20层的深度网络VDSR（accurate image super-resolution using very deep convolutional network），获得了比SRCNN更好的重建图像质量，证明加深网络深度有助于学习图像特征。Zhang等人（2017）提出了深度卷积神经网络DnCNN（denoising convolutional neural network），通过学习图像残差进行去噪。Lim等人（2017）通过舍弃SRResNet（super-resolution residual network）（Ledig等，2017）中残差块的批归一化（batch normalization，BN）层并优化网络结构，使图像重建效果得到大幅提升。Zhang等人（2018a）首次将通道注意力（channel attention，CA）机制引入到SR任务中，提出的嵌套残差结构（residual in residual，RIR）成为目前SR任务中残差块堆叠的标准范式，其所提出的RCAN（image super-resolution using very deep residual channel attention network）网络通过通道注意力机制区分不同通道特征对重建图像的贡献程度，自适应调整通道权重，图像重建质量获得极大程度的提升。基于Transformer的方法在自注意力（self-attention，SA）的建模方面具有出色的能力，因此在处理输入数据时可以更好地捕捉数据之间的关系，在自然语言处理领域大放异彩。Dosovitskiy等人（2021）提出的ViT（vision Transformer）首次将广泛应用于自然语言处理（natural language processing，NLP）任务中的Transformer（Vaswani等，2017）迁移至视觉任务中。其首先将输入图像经过一个嵌入层转换为一组一维向量，并通过多个自注意力层学习图像中的信息。SwinIR（image restoration using Swin Transformer）（Liang等，2021）将Swin Transformer（Liu等，2021）引入到SR任务中，将重建图像质量提高到了新的高度。通过将输入图像分割为很多小块，然后将每个小块作为Swin Transformer的输入来处理图像，通过跨窗口交流保持对像素之间长距离关系的建模，显著减少了模型的计算成本，同时这也是Transformer首次应用于SR任务中。刘花成等人（2022）提出了一种用于模糊图像超分辨重建的Transformer融合网络（Transformer fusion network，TFN），采用了双分支策略，在对模糊图像进行重建的同时能有效去除部分模糊特性。邱德粉等人（2023）根据红外图像的特性并针对深度网络中存在的特征冗余问题和计算效率问题，在超分辨率模块使用通道拆分策略，提出了一种使用高分辨率可见光图像引导红外图像进行超分辨率的神经网络模型。王美华等人（2022）使用Transformer模型计算图像深层语义信息，提出了TDATDN单幅图像去雨算法。UFormer（U-shaped Transformer for image restoration）（Wang等，2022）应用8×8的局部窗口并引入U-Net（Ronneberge等，2015）架构捕捉全局信息。ViT将自注意力引入到视觉任务中，并在高级任务中表现优异。但在应用到图像超分辨率这类低级计算机视觉中，考虑到需要逐像素进行操作，其复杂性与输入特征图的尺寸呈平方关系，尤其是对于像素更多、分辨率更高的图像而言，需要的计算成本极高，这限制了Transformer在低级计算机视觉任务中的使用。Mei等人（2021）提出的NLSA（non-local sparse attention）通过将图像划分为不重叠的块，独立计算注意力，但这样会引入伪影并降低恢复图像的质量。SwinIR虽然也通过划分窗口进行自注意力的计算，但是其通过移位机制与其他窗口建立联系。然而SwinIR的计算量会随着窗口大小的增加而急速增长，同时局部窗口会限制上下文的聚合范围，不利于各像素之间长距离依赖关系的建模。针对目前Transformer在SR任务中存在的一系列问题，本文提出一种全新的基于转置自注意力的超分辨率神经网络（super-resolution network based on transposed self-attention，SRTSA），主要的贡献点包括：1）提出了一个全局和局部信息提取模块（global and local information extraction block，GLEIB），该模块通过计算交叉协方差矩阵构建各像素点之间的长距离依赖关系对全局信息进行建模，同时引入通道注意力结构对局部信息进行建模。通过不同层级提取图像信息，提高模型的学习能力。2）在GLEIB中构建一个全新的双门控深度卷积前馈网络（double gated-dconv feed-forward network，DGDFN），控制信息在模型中的流动，提高模型对特征的建模能力及其鲁棒性。3）提出的SRTSA网络通过对图像的全局信息和局部信息进行建模，使用门控网络控制信息流动以进一步改善网络的学习能力。在5个基准数据集上的测试结果验证了本文方法的先进性和有效性，在SR任务中展现出极大的优势。1　本文方法1.1　网络结构本文提出的SRTSA网络结构如图1所示，主要由浅层特征提取模块、深层特征提取、上采样模块、重建模块4部分组成。定义输入图像为ILR∈RH×W×C，输出图像ISR∈RH×W×C，H、W、C分别为图像的高度、宽度、通道数。10.11834/jig.230320送排稿.F001图1SRTSA网络整体结构Fig.1Overall architecture of the SRTSA network首先，使用一个3×3卷积从输入图像ILR中提取浅层特征F0，具体为F0=HSF(ILR) （1）式中，HSF(⋅)表示卷积核大小为3×3的卷积层，其可以将图像空间映射到更高的维度上。然后，将F0送入深层特征提取模块中，可得FDF=HDF(F0) （2）式中，HDF(⋅)表示深层特征提取模块，由M个全局和局部信息提取组（global and local information extraction groups，GLEIG）和1个卷积层堆叠而成，GLEIG由N个GLEIB和1个卷积层构成，M和N的详细参数见2.1节。深层特征FDF主要负责图像的高频部分的恢复，浅层特征F0负责图像低频部分的重建，因此需要将F0与FDF通过跳跃连接聚合再送到上采样模块中，得到FUP=HUP(F0+FDF) （3）式中，HUP(⋅)表示由Shi等人（2016）提出的ESPCN一文中的亚像素卷积。它通过像素平移按给定上采样系数的比例采样。经过上采样模块后将得到相应尺寸的特征图，最后，再将上采样特征FUP送入重建模块中，得到ISR=HREC(FUP)=HSRTSA(ILR) （4）式中，HREC(⋅)表示卷积核大小为3×3的卷积层，用于将特征图转换为RGB空间的SR图像。HSRTSA(⋅)表示整个SRTSA模型映射。1.2　全局和局部信息提取模块全局和局部信息提取模块（GLEIB）结构如图2所示，该模块主要由3部分构成：10.11834/jig.230320送排稿.F002图2全局和局部信息提取模块结构Fig.2Architecture of the global and local information extraction block （GLEIB）1）全局信息建模模块。主要通过转置自注意力机制计算交叉协方差矩阵进行图像全局关系建模。考虑到如果只在通道维度建立长距离关系相关的话会损失一些有用的空间纹理和结构信息，这些信息对于重建高质量图像十分重要。因此在采用转置自注意力机制前使用一种轻量高效的特征提取块进行简单关系建模保存部分空间结构信息。2）局部信息建模模块。自然图像通常包含全局和局部信息结构，在对全局信息进行建模的同时也需要注意到图像部分特性具有局部性，因此使用通道注意力块补充局部信息，增强模型的学习能力。3）双门控深度卷积前馈网络。DGDFN通过在两个并行路径中采用门控机制抑制信息量较少的特征，并将筛选后的信息进行融合，进一步增强了模型对输入特征的建模能力，提高模型的性能。1.2.1　全局信息建模模块Transformer中的计算资源主要消耗于自身的自注意力层中。对于一幅H×W像素的图像来说，其需要计算任意两个像素之间的相似度，计算复杂度为O(W2H2)，将其应用于SR任务中显然是十分困难的。SwinIR采用的Swin Transformer虽然通过划分窗口减轻了计算成本，但是划分窗口限制了聚合上下文的范围，不能有效连续提取特征。为了缓解这个问题，采用Zamir等人（2022）提出的转置自注意力机制隐式构建全局注意力图。转置自注意力机制的结构如图3所示，输入由NAFBlock输出的张量X∈RH×W×C经过一个层归一化（layer normalization，LN）之后生成张量Y∈RH×W×C。接着将Y输入到卷积核大小为1×1的卷积中聚合跨通道信息，然后使用3×3大小的深度卷积生成Q，K，V，具体为Q=WdQWpQY （5）K=WdKWpKY （6）V=WdVWpVY （7）式中，Wp(⋅)表示卷积核大小为1×1的卷积，Wd(⋅)表示3×3的深度卷积。10.11834/jig.230320送排稿.F003图3转置自注意力机制结构图Fig.3Architecture of transposed self-attention接着通过Reshape操作重塑Q和K，使其生成大小为RC×C的转置注意力图，而不是大小为RHW×HW的常规注意力图。整个过程可以表示为Xout=WPfAttentionQ,K,V+Xin （8）式中，WP(⋅)表示1×1大小的卷积，fAttention为转置自注意力机制。Li等人（2023）提出经过softmax归一化生成的自注意力会影响特征聚合。根据ReLU（rectified linear unit）激活函数自身的特点，可以在保留对图像重建呈积极效果的特征的同时去除负面特征，这样极大地提升了网络模型重建图像的性能。因此本文搭建的转置自注意力机制可以表示为fAttentionQ, K, V=V⋅ReLUK⋅QTdk （9）式中，dk是一个可学习的缩放参数，ReLU(⋅)表示ReLU激活函数。转置自注意力机制通过在通道维度对全局注意力图进行隐式建模很好地解决了计算复杂度与特征图空间维度呈二次方的关系，但是考虑到如果只在通道维度建立长距离依赖关系的话会损失一些有用的空间纹理和结构信息，这些信息对于重建高质量图像十分重要。因此在使用转置自注意力机制前需要对特征进行简单关系建模保存部分空间结构信息。Chen等人（2022）通过揭示GELU（Gaussian error linear unit ）、GLU（gated linear unit）和通道注意力之间的联系，通过移除或替换非线性激活函数（例如sigmoid，ReLU，GELU），提出了一个适用于图像复原领域的简单基线模型非线性无激活函数模块（nonlinear activation free block，NAFBlock）。该模型通过将Transformer内较为成熟的模块和机制应用于卷积神经网络中，提升了卷积神经网络的学习能力。NAFBlock的网络结构如图4所示，其主要由两个部分组成：移动卷积（mobile convolution，MBConv）模块和具有两个全连接层的前馈网络（feedforward network，FFN）。在MBConv和FFN之前都加入了层归一化（layer norm，LN）用于标准化输入数据，提高模型的泛化性能。同时对两个模块使用了残差连接，加速网络训练和收敛。整个过程可以表示为Xmid=MBConv(LN(Xin))+Xin （10）Xout=FFN(LN(Xmid))+Xmid （11）10.11834/jig.230320送排稿.F004图4非线性无激活函数模块结构图Fig.4Architecture of nonlinear activation free blockNAFBlock通过引入SimpleGate单元来替代非线性激活函数，给定输入X∈RH×W×C，将特征沿通道维度分割成两个特征X1和X2，X1、X2∈RH×W×C/2，然后使用线性门控来计算输出，具体计算为fSimpleGate(X)=X1⊙X2 （12）式中，⊙表示逐元素相乘。由于简化的SimpleGate引入了非线性，所以常用的激活函数就不需要再加入到网络中。需要注意的是，NAFBlock分别在MBConv和FFN中采用正则化（dropout）技术随机丢弃部分神经元以达到减少模型过拟合、增强模型泛化性能的作用。但是GLEIB将经过NAFBlock进行简单关系建模后的特征送入转置自注意力机制中进行全局信息建模，为防止全局信息建模时特征信息不全，本文不使用NAFBlock中的dropout层以使得转置自注意力机制对所有特征进行全局关系建模，转而将舍弃部分内容增强模型泛化性能的任务交给转置自注意力机制中的ReLU激活函数。1.2.2　局部信息建模模块自然图像包含全局信息和局部信息，通常使用自注意力机制对图像的全局依赖关系进行建模，但是只使用自注意力机制对图像信息进行建模会丢失图像特有的局部相关性。图像局部信息只涵盖了几个像素，典型局部特征表现为边缘、局部色彩等，因此使用通道注意力块（channel attention block，CAB）对图像局部信息进行补充。CAB的结构如图5所示，由两个标准的卷积层组成，两者之间使用GELU激活函数，并且还包含一个通道注意力。CAB通过压缩和扩展通道特征，以及通过通道注意力模块的自适应调整，实现了对输入特征的处理和提取。这个过程有助于提取重要的特征信息，并为后续模型提供更有代表性的特征表示。整个过程可以表示为Xout=CA(Xmid)⋅Xmid （13）Xmid=W1(σ(W2(Xin))) （14）式中，σ(⋅)表示GELU激活函数，W(⋅)表示3×3大小的卷积，CA(⋅)表示通道注意力机制。10.11834/jig.230320送排稿.F005图5通道注意力块结构图Fig.5Architecture of channel attention block1.2.3　双门控深度卷积前馈网络在传统Transformer中，FFN通常包含两个线性变换层和一个非线性激活函数。第1个线性变换层用于扩展特征通道，第2个用于将通道减回原始输入维度。为了更好地捕捉输入图像的特征信息，本文在Restormer（Zamir等，2022）的基础上提出一个全新的双门控深度卷积前馈网络（DGDFN），其结构如图6所示。10.11834/jig.230320送排稿.F006图6双门控深度卷积前馈网络结构图Fig.6Architecture of double gated-dconv feed-forward networkDGDFN引入深度卷积对空间相邻像素的信息进行编码，丰富局部信息。在每条路径上都通过GELU激活函数以实现双门控机制。在两个并行路径中将通过门控机制处理后的特征进行逐元素相乘操作，这样可以过滤掉两个路径中相应位置上特征向量中的较小值，从而减少信息量较少的特征的影响。之后逐元素求和操作将对应位置的特征值相加，以合并两个路径中有用的信息，同时由于双门控机制具有更强的非线性建模能力，因此可以学习更复杂的模式，提高模型的泛化性和建模能力。整个过程可以表示为Xout=Wp0GatingXin+Xin （15）GatingXin=σ(Wd1Wp1(LN(Xin)))⊙Wd2Wp2(LN(Xin))+σ(Wd2Wp2(LN(Xin)))⊙Wd1Wp1(LN(Xin)) （16）式中，σ(⋅)表示GELU激活函数，即门控机制，Wp(⋅)表示卷积核大小为1×1的卷积，Wd(⋅)表示3×3大小的深度卷积，⊙表示逐元素相乘。1.3　损失函数虽然L1损失函数、L2损失函数、感知损失以及对抗损失等多种损失函数的组合可以提高重建图像的视觉效果，但为了验证SRTSA网络的有效性，本文采用了与上述相关工作相同的损失函数——L1损失函数进行优化。相较于其他损失函数，L1损失函数提供了稳定的梯度，并有助于模型快速收敛，使用L1损失函数进行优化是验证SR网络性能的可靠方式。给定包含N个LR-HR图像对的训练集{ILRi,IHRi}i=1N，通过最小化L1损失优化SRTSA的模型参数L(θ)=1N∑i=1NHSRTSA(ILRi)-IHRi1 （17）式中，θ表示SRTSA网络模型的参数。2　实验结果及分析2.1　数据集及训练细节本文使用DIV2K数据集（Agustsson和Timofte，2017）的800幅训练图像对SRTSA网络进行训练，采用双三次插值法（Bicubic）得到×2、×3、×4共3个比例因子的低分辨率图像。为了增加训练图像的数据多样性，将这800幅训练图像水平翻转或者随机旋转90°，180°，270°。在每次迭代中将16个48×48像素的低分辨率图像送入网络（batch size = 16），使用Adam优化器进行训练，其中，β1=0.9，β2=0.999，ε=1×10-8，初始学习率lr=5×10-4，总共迭代500 000次，迭代到200 000次时学习率减半。使用具有不同特性的5个标准测试集验证网络的有效性：Set5（Bevilacqua等，2012）、Set14（Zeyde等，2012）、BSD100（Berkeley segmentation dataset 100）（Martin等，2002）、Urban100（Huang等，2015）、Manga109（Matsui等，2017），并在输出图像的YCbCr空间Y通道上计算峰值信噪比（peak signal-to-noise ratio， PSNR）和结构相似度（structural similarity， SSIM）指标评价SR结果。使用PyTorch框架在两张NVIDIA GeForce RTX 3090显卡上训练模型。在整个网络中，为保持与SwinIR模型进行公平对比，设置GLEIG数M = 6，GLEIB数为N = 6，CAB输出缩放权重α=0.05，转置自注意力特征通道设置为120，多头数设置为6。2.2　实验结果分析为了展示SRTSA模型的先进性，本文与Bicubic算法、SRCNN、VDSR、EDSR（enhanced deep residual network for single image super-resolution）、RCAN、SAN（second-order attention network for single image super-resolution）（Dai等，2019）、HAN（single image super-resolution via a holistic attention network）（Niu等，2020）、NLSA、SwinIR等模型在×2、×3、×4共3个比例因子上对PSNR指标和SSIM指标进行对比。较高的PSNR值表示重建效果更好，SSIM越接近1表示SR图像与HR图像在结构上更为相似。Chu等人（2022）指出在图像复原工作中由于计算资源限制，一般都将要修复的图像裁剪成小块（Patch）送入到模型中进行训练。而在推理过程，一般则直接将需要修复的图像送入到网络中进行复原。这种模式存在着训练与推理过程的不一致性，对利用全局信息的模型会产生负面影响。因此在测试过程中采用Chu等人（2022）提出的测试时间局部转换器（test-time local converter，TLC）维持训练与推理过程的一致性。按照2.1节的实验设置对模型进行完整训练，得到×2、×3、×4共3个不同比例因子的PSNR和SSIM，分别展示在表1—表3中。可以看到，在×4倍SR任务中，SRTSA较SwinIR在Set5、Set14、BSD100和Urban100上，PSNR分别提升0.07 dB、0.01 dB、0.03 dB和0.08 dB，SSIM也有较大提升。在×3倍SR任务中，SRTSA较SwinIR在Set5、BSD100、Urban100和Manga109上，PSNR分别提升0.02 dB、0.04 dB、0.15 dB和0.02 dB，SSIM在5个测试集上都获得最佳指标。在×2倍SR任务中，SRTSA较SwinIR在Set5、Set14、BSD100、Urban100和Manga109上，PSNR分别提升0.03 dB、0.21 dB、0.05 dB、0.29 dB和0.10 dB，SSIM在除Manga109以外的4个测试集上，分别提升0.000 4、0.001 6、0.000 9和0.002 7，足以说明SRTSA的优势十分明显。10.11834/jig.230320送排稿.T001表1各模型在不同数据集上的表现（×2）Table 1Performance of each model on different datasets （scale×2）方法Set5Set14BSD100Urban100Manga109PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMBicubic33.660.929 930.240.868 829.560.843 126.880.840 330.800.933 9SRCNN36.660.954 232.450.906 731.360.887 929.500.894 635.600.966 3VDSR37.050.956 033.050.913 031.900.896 030.770.914 037.220.975 0EDSR38.110.960 233.920.919 532.320.901 332.930.935 139.100.977 3RCAN38.270.961 434.110.921 632.410.902 633.340.938 439.430.978 6SAN38.310.962 034.070.921 332.420.902 833.100.937 039.320.979 2HAN38.270.961 434.160.921 732.410.902 733.350.938 539.460.978 5NLSA38.340.961 834.080.923 132.430.902 733.420.939 439.590.978 9SwinIR38.350.962 034.140.922 732.440.903 033.400.939 339.600.979 2SRTSA(本文)38.380.962 434.350.924 332.490.903 933.690.942 039.700.978 8注：加粗字体和下划线字体分别表示每列最优结果和次优结果。10.11834/jig.230320送排稿.T002表2各模型在不同数据集上的表现（×3）Table 2Performance of each model on different datasets （scale×3）方法Set5Set14BSD100Urban100Manga109PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMBicubic30.390.868 227.550.774 227.210.738 524.460.734 926.950.855 6SRCNN32.750.909 029.300.821 528.410.786 326.240.798 930.480.911 7VDSR33.670.921 029.780.832 028.830.799 027.140.829 032.010.934 0EDSR34.650.928 030.520.846 229.250.809 328.800.865 334.170.947 6RCAN34.740.929 930.640.848 129.320.811 129.080.870 234.430.949 8SAN34.750.930 030.590.847 629.330.811 228.930.867 134.300.949 4HAN34.750.929 930.670.848 329.320.811 029.100.870 534.480.950 0NLSA34.850.930 630.700.848 529.340.811 729.250.872 634.570.950 8SwinIR34.890.931 230.770.850 329.370.812 429.290.874 434.740.951 8SRTSA (本文)34.910.931 230.750.850 429.410.813 629.440.876 334.760.951 9注：加粗字体和下划线字体分别表示每列最优结果和次优结果。10.11834/jig.230320送排稿.T003表3各模型在不同数据集上的表现（×4）Table 3Performance of each model on different datasets （scale×4）方法Set5Set14BSD100Urban100Manga109PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMBicubic28.420.810 426.000.702 725.960.667 523.140.657 724.890.786 6SRCNN30.480.862 827.500.751 326.900.710 124.520.722 127.580.855 5VDSR31.350.883 028.020.768 027.290.725 125.180.754 028.830.887 0EDSR32.460.896 828.800.787 627.710.742 026.640.803 331.020.914 8RCAN32.630.900 228.870.788 927.770.743 626.820.808 731.220.917 3SAN32.640.900 328.920.788 827.780.743 626.790.806 831.180.916 9HAN32.640.900 228.900.789 027.800.744 226.850.809 431.420.917 7NLSA32.590.900 028.870.789 127.780.744 426.960.810 931.270.918 4SwinIR32.720.902 128.940.791 427.830.745 927.070.816 431.670.922 6SRTSA (本文)32.790.902 128.950.791 627.860.747 227.150.817 131.630.922 2注：加粗字体和下划线字体分别表示每列最优结果和次优结果。SRTSA网络在BSD100和Urban100这两个包含丰富的结构和纹理信息且具有更高复杂度的测试集上的优势更为显著。说明SRTSA网络可以在复杂场景中保持高水平的细节保留和纹理重建能力，具有较强的结构感知能力和泛化性能，可以适应不同类型的图像数据并提供高质量的超分辨率重建图像。图7展示了Urban100数据集044_img.png图像通过不同算法模型重建得到的图像。可以看到，Bicubic算法所重建图像十分模糊，VDSR、RDN（Zhang等，2018b）等网络只能重建出图像较为模糊的轮廓且细节信息基本丢失，RCAN、SAN、SwinIR可以重建出较为清晰的轮廓，但对于纹理结构的重建并不完善，SRTSA网络所重建的图像不但轮廓清晰，结构合理，并且对于细节纹理的恢复也最接近HR图像。10.11834/jig.230320送排稿.F007图7Urban100数据集中044_img.png的测试结果（×4）Fig.7Test results of 044_img.png in Urban100 dataset （scale×4）图8展示了Urban100数据集092_img.png图像经过不同模型重建后的效果对比。Bicubic插值法得到的结果呈现出非常模糊的特征，几乎无法重建出图像的细节。基于深度学习的其他方法在重建过程中虽然保留了主要的轮廓信息，但在纹理结构和细节方面却存在明显的扭曲和伪影。而使用SRTSA网络进行重建的图像则具有纹理清晰、边缘锐利以及细节丰富等优点，通过恢复更多的信息获得更好的结果。10.11834/jig.230320送排稿.F008图8Urban100数据集中092_img.png的测试结果（×4）Fig.8Test results of 092_img.png in Urban100 dataset （scale×4）图8中，不同方法重建结果差异性较大是因为SR任务是一个典型的不适定问题，LR图像无法唯一确定对应的HR图像。VDSR、EDSR等SR模型受感受野较小、模型学习能力较弱等限制，无法充分考虑图像的全局结构恢复细节信息，在生成SR图像时都出现了将竖状条纹重建为斜状条纹、交叉条纹或者出现伪影等错误范式。相比之下，SRTSA通过对全局信息进行建模，获得更多纹理结构信息，极大地缓解了不适定问题，重建得到的SR图像也与HR图像更为相似。2.3　局部归因分析局部归因图（local attribution maps，LAM）是由Gu和Dong（2021）针对SR领域具有不可解释性而提出的归因分析方法，通过局部归因图的形式将对输出结果产生强烈影响的像素重点标注出来。通过这种方式，可以很直观地看到SR网络的有效性。为了直观地展示SRTSA的优势，本文将SRTSA和SwinIR同时使用LAM工具进行比较，比较结果如图9所示。在LAM中，作者提出扩散指数（diffusion index，DI）衡量LAM的结果，表示形式为DI=(1-GI)×100 （18）式中，GI表示基尼系数（Gini index，GI）。GI是国际上通用衡量一个国家或者地区收入差距的指标。在LAM中，GI是衡量LAM差距的指标，它可以反映LAM所涉及的像素范围。简单理解就是对于重建图像的某一部分来说，如果重建该部分只涉及少数像素点，则GI系数相对较高。因此DI和GI呈反比例关系，DI越大说明重建某一部分网络考虑到更多的像素点。10.11834/jig.230320送排稿.F009图9不同模型的LAM结果Fig.9LAM results for different models从图9可以直观地看到，SRTSA生成SR图像时考虑到的像素范围远大于SwinIR所考虑的像素范围。实验结果和客观指标评价、主观视觉感知高度一致，从可解释性的角度证明了SRTSA的优越性。2.4　消融实验为了验证SRTSA网络各组成部分的有效性，本文对不同结构进行消融实验，并对实验结果进行对比分析。1）实验中把只有转置自注意力机制和门控前馈网络（GDFN）的模型作为Baseline；2）在Baseline上引入NAFBlock以验证其对特征进行的简单关系建模是否可以补充转置自注意力机制损失的部分空间纹理和结构信息；3）在Baseline上引入CAB验证补充局部信息是否可以增强图像重建效果；4）同时引入NAFBlock和CAB验证对特征进行简单关系建模是否与对特征进行局部关系建模产生冲突；5）由于DGDFN相对独立，在实验4）的基础上引入DGDFN即可验证其是否可以提高模型的建模能力。在消融实验中设置batch size = 8，其余均按照2.1节的设置重新训练网络。在Set5测试集上的PSNR如表4所示。由表4中实验2）可知，在Baseline模型的基础上引入NAFBlock模块之后PSNR/SSIM获得了0.01 dB/0.000 3的提升，说明对特征进行简单关系建模可以保存部分空间结构信息。实验3）结果表明，引入CAB模块后，PSNR和SSIM分别提升了0.02 dB和0.000 3，说明CAB通过捕捉图像特有的局部相关性从而增强了网络的建模能力。在实验4）中，同时引入以上两个模块后，PSNR和SSIM分别提升了0.05 dB和0.000 7。由实验5）可知，本文DGDFN的PSNR和SSIM分别提升了0.03 dB和0.000 9，说明DGDFN可以提高模型的泛化性能和建模能力，同样也说明在Transformer模型中，自注意力机制和前馈网络均发挥着不可或缺的作用。它们共同构成了模型的核心组件，并相互协作以实现高效的特征提取和建模。10.11834/jig.230320送排稿.T004表4在 Set5 （×4）测试上的消融实验Table 4Ablation study on Set5 （scale×4）实验NAFBlockCABDGDFNPSNR/dBSSIM1）×××32.670.901 12）√××32.680.901 43）×√×32.690.901 44）√√×32.720.901 85）√√√32.750.902 0注：“√”表示采用，“×”表示未采用。同时，为了更直观地展示各个模块在SRTSA模型中所做出的贡献，采用LAM工具分析模型的感受野，过程性结果如图10所示。10.11834/jig.230320送排稿.F010图10过程性结果展示Fig.10Process results display3　结论为了解决主流方法通过在窗口内使用自注意力机制，会限制特征聚合范围而导致图像重建效果不佳的问题，提出了基于转置自注意力机制的超分辨率网络（SRTSA）。通过转置自注意力机制和通道注意力模块分别对全局特征和局部特征进行建模，同时提出一个全新的双门控深度卷积前馈网络（DGDFN）提高模型的泛化性能。大量实验结果表明，本文方法在客观指标、主观视觉和模型可解释性方面均优于目前主流的单图像超分辨率算法。然而，本文算法也存在较多不足：1）用于局部信息增强的通道注意力块在大通道数时会使用较大参数量，使得模型推理速度变慢，后期将构建一个全新的轻量级局部信息增强模块对局部特征信息进行补充。2）尽管本文方法通过引入转置自注意力机制隐式构建全局上下文关系节省了较多的参数，但是全局信息建模网络结构较为冗余，使得网络复杂度更高。在未来的工作中，将设计一个更为简洁的自注意力机制用于图像全局信息的提取。