网刊加载中。。。

论文引用格式：Xiong W， Xiong C Y， Gao Z R， Chen W Q， Zheng R H and Tian J W. 2023. Image super-resolution with channel-attention-embedded Transformer. Journal of Image and Graphics， 28（12）：3744-3757（引用格式:熊巍，熊承义，高志荣，陈文旗，郑瑞华，田金文. 2023. 通道注意力嵌入的Transformer图像超分辨率重构. 中国图象图形学报， 28（12）：3744-3757）［0　引言在如今数字化与信息化高度集中的时代，图像已经成为人们获取信息的重要途径之一。图像分辨率体现了图像反映物体细节信息的能力，相较于低分辨率（low-resolution， LR）图像，高分辨率（high-resolution，HR）图像通常具有更优秀的视觉效果与更详细的纹理信息（蒋梦洁等，2022）。单幅图像超分辨率（single image super-resolution，SISR）技术旨在单幅低分辨率图像的基础上重建出对应的高分辨率图像。SISR技术目前成功应用于许多领域，例如安全监视、医疗以及卫星成像等（Wang等，2021）。由于缺乏信息，对于给定的LR图像，可能会有多个超分辨率结果，因此SISR是一个具有挑战性的不适定问题。随着深度学习技术的快速发展和GPU（graphic processing unit）计算能力的大幅度提升，基于深度学习的超分辨率技术已经成为主流，并在重构效果上取得了巨大的飞跃（雷鹏程等，2020）。Dong等人（2014）提出了首个基于深度学习的超分辨率重建卷积神经网络（convolutional neural network for image super-resolution，SRCNN），采用了3层的卷积神经网络（convolutional neural network，CNN）学习LR图像与HR图像之间的映射关系。Kim等人（2016a）构建了具有20层的深度网络VDSR（accurate image super-resolution using very deep convolutional network），获得了比SRCNN更好的结果，表明增加网络的深度可以获得更好的SR性能。EDSR（enhanced deep residual network for single image super-resolution）（Lim等，2017）对ResNet（deep residual learning for image recognition）（He等，2016）的残差块进行了适用于图像恢复任务的改进，并深化和拓宽网络的整体架构，大幅提升了重建效果。WDSR（wide activation for efficient and accurate image super-resolution）（Yu等，2018）在EDSR的基础上进行了宽度特征激活的改进，通过激活更多的特征提升重建性能。RCAN（image super-resolution using very deep residual channel attention network）（Zhang等，2018）将通道注意力（channel attention，CA）机制引入超分辨率任务，以学习不同通道之间的相关性，并大幅加深网络深度。虽然基于卷积神经网络（CNN）的模型已经取得了大幅的效果提升，但仍然面临一些卷积自身的限制。首先，图像和卷积核之间的交互与图像的自身内容无关，使用相同的卷积核来恢复不同的图像区域并非最佳的选择。其次，在局部处理的原则下，卷积无法对图像进行长距离关联性建模。为此，Transformer （Vaswani等，2017）架构提供了一种可以捕获全局信息并利用图像的自相似特性的自注意力机制（Dosovitskiy 等，2021），已经应用于计算机视觉的多个领域，而SISR任务也开始出现基于Transformer模型的网络。IPT（pre-trained image processing Transformer）（Chen等，2021）构建了一个基于Transformer的超大图像处理预训练模型，依靠大规模的模型参数与大量的训练集取得了良好的性能。TransENet（Transformer-based multistage enhancement for remote sensing image super-resolution）（Lei等，2022）对于遥感图像的超分辨率任务提出了不同特征维度结合的Transformer网络。Liang等人（2021）则在ST（swin Transformer）模块（Liu等，2021）的基础上提出了适用于图像恢复任务的SwinIR（image restoration using swin Transformer）。基于深度学习的超分辨率方法总体可以得到图像重建质量的显著提升，但目前大部分成果网络模型复杂，因此导致系统实现的高计算成本与资源需求难以满足实际应用需要。因此，如何平衡模型的复杂度和系统重构性能，设计更好满足实际应用需要的轻量化超分辨率网络一直是该领域关注的重要方面。以往的工作主要集中在基于卷积网络超分辨率模型的轻量化。比如，FSRCNN（accelerating the super-resolution convolutional neural network）（Dong等，2016）首次将卷积神经网络直接应用于低分辨率图像，大幅减少了计算复杂度。DRCN（deeply-recursive convolutional network）（Kim等，2016b）和DRRN（deep recursive residual network）（Tai等，2017）采用了递归神经网络来减少网络深度，可以有效控制参数量。IMDN（information multi-distillation network）（Hui等，2019）提出了一种信息蒸馏机制，可以逐步提取层次特征，并针对图像恢复改进了通道注意力。RFDN（residual feature distillation network）（Liu等，2020）改进了IMDN的体系结构，将信息蒸馏改为特征提取，提出了残差特征提取网络，获得了更好的重建效果。ST模块依靠其窗口局部注意力与移动交互的特性，相较于标准Transformer大幅减少了复杂度，在图像恢复任务上也展示了良好的性能。基于以上背景，本文提出了通道注意力嵌入的Transformer超分辨率重构方法（image super-resolution with channel-attention-embedded Transformer，CAET），以期利用卷积网络与Transformer网络的各自优势，在保证图像超分辨率性能提升与网络模型轻量化方面得到更好平衡。一方面，利用Transformer变换与卷积运算的交替，发挥两种变换网络在特征提取中的不同优势，并将对应特征进行不断融合增强；另一方面，采用通道注意力，实现图像Transformer特征与卷积特征的自适应判别融合，进一步改善了网络的学习能力。在多个数据集的实验比较结果验证了本文方法在改善超分辨率重构图像质量及平衡网络模型轻量化方面的有效性。本文的主要特点如下：1）提出了注意力嵌入的Transformer模块（channel-attention-embedded Transformer block，CAETB），该模块有效结合卷积与Transformer在图像特征提取的各自优势，并将通道注意力自适应地嵌入Transformer变换特征与卷积运算特征，有较好的提取特征能力。2）采用了基于通道注意力的卷积特征与Transformer特征的自适应判别增强策略，将不同层级和不同滤波器输出特征结合通道注意力判别加权处理，有效提升网络的学习能力。3）大量实验验证，与现有类似的图像超分辨率方法相比，CAET以较小的模型复杂度在多个数据集上取得了明显的性能改进。1　相关工作1.1　轻量级超分辨率因在现实常用的设备上实现超分辨率任务的需求，轻量级超分辨率模型受到了广泛关注。FSRCNN（Dong等，2016）取代了SRCNN（Dong等，2014）先上采样图像后输入到网络的方式，将网络的主体直接应用于LR图像，大幅减少了网络所需的计算资源。DRCN（Kim等，2016b）与DRRN（Tai等，2017）引入了递归神经网络，这种方式虽然可以减少参数量和网络深度，但重复的递归也导致了模型的计算量大幅增加。LapSRN（deep Laplacian pyramid network for fast and accurate super-resolution）（Lai等，2017）采用了渐进式逐步提高图像分辨率，以获得更稳定的高倍率放大结果。IMDN（Hui等，2019）提出了一种轻量级信息多蒸馏网络，该网络利用信息蒸馏机制有效提取不同层次特征。LatticeNet（image super-resolution with lattice block）（Luo等，2020）受快速傅里叶变换的启发，设计了一种晶格网络，可以有效利用并调整不同层级的信息。ECBSR（edge-oriented convolutional block for real-time super resolution）（Zhang等，2021）基于重参数化技术提出了一种结合边缘信息的卷积块，在提高模型学习能力的同时减少了推理时间。尽管轻量级的超分辨率算法已经取得了较大的进展，但在重建效果上仍需要进一步的提升。1.2　基于Transformer的图像恢复来自自然语言处理领域的Transformer依靠长距离建模与自注意力的特性，得到了计算机视觉领域的广泛关注。随着Transformer模型开始应用于计算机视觉的各个领域，与本文相关的图像恢复领域也出现了许多采用Transformer架构的算法。IPT（Chen等，2021）针对各种类型的图像恢复任务，提出了主干Transformer预训练模型，依靠大量参数、大规模的训练数据集和多任务学习获得了良好的性能。TransEnet （Lei等，2022）对于遥感图像超分辨率任务提出了不同维度结合的Transformer网络。SwinIR（Liang等，2021）将ST模块引入到图像恢复领域，在多个任务上取得了良好的成绩。Uformer（U-shaped Transformer for image restoration）（Wang等，2022）则将Transformer与经典卷积网络U-Net（convolutional network for biomedical image segmentation）（Ronneberger等，2015）相结合，在图像去噪任务上取得了优秀的效果。ESRT（efficient super-resolution Transformer）（Lu等，2022）设计了efficient Transformer，通过压缩通道的方式进行特征输入，相较于标准的Transformer，大幅减少了参数量与运算时间。总体来说，Transformer在图像恢复领域的研究与应用，特别是以此为基础的轻量化实现上仍处于初级阶段。2　本文方法2.1　整体结构基于Transformer与卷积结合的轻量化超分辨率网络方案的具体设计框图如图1所示，主要由4部分组成，包括浅层特征提取阶段、深度特征提取阶段、多层特征融合阶段和图像重建阶段。其中，深度特征提取阶段由注意力嵌入的Transformer模块（CAETB）组成，将在2.2节做详细介绍。网络对于给定的ILR和ISR作为输入的低分辨率图像和预测的高分辨率图像。10.11834/jig.221033.F001图1通道注意力嵌入的Transformer网络整体结构Fig.1Overall structure of channel-attention-embedded Transformer network1）浅层特征提取阶段。此阶段采用了一个卷积核大小为3 × 3卷积层从给定的LR图像中提取浅层特征F0，其过程可以表示为F0=HSFILR （1）式中，HSF代表卷积操作，提取的浅层特征F0会进一步用于深层特征提取。同时，特征F0会直接传输到重构模块，以保留图像的低频信息。2）深层特征提取阶段。此阶段以浅层特征F0作为输入，并使用多个CAETB提取深度特征信息。假设CAETB的数量为k，则对于第i个CAETB的输出Fi 1≤i≤k 可以表示为Fi=HCAETBFi-1, i=1, 2, ⋯, k （2）式中，HCAETB代表CAETB的操作，用于提取图像的深度特征，其结构如图2所示。10.11834/jig.221033.F002图2CAETB内部结构图Fig.2Internal structure of the CAETB3）多层特征融合阶段。不同阶段的分层信息有助于最终重建结果。因此，网络在多层特征融合阶段结合了所有来自深层特征提取阶段的低层和高层信息，可以将融合结果FM记为FM=HMFFF1, F2, ⋯, Fi, ⋯, Fk （3）式中，HMFF代表多层特征融合操作，为最终的信息重建提供充分的参考与引导。4）图像重建阶段。上述的融合结果FM与浅层特征F0会进一步输入到图像重建阶段，以恢复出适应于不同任务的高分辨率图像。最终的高分辨率图像ISR获得过程可以表示为ISR=HRECF0+FM （4）式中，HREC表示重建阶段的操作，选择了一个3 × 3卷积层和ESPCN（Shi等，2016）中的亚像素卷积层将特征上采样到对应尺寸的超分辨率图像。2.2　注意力嵌入的Transformer块卷积层在前期视觉处理上会有更稳定的优化与更好的提取结果，而且具有空间不变滤波器的共解层可以增强网络的平移等效性（Liang等，2021）。卷积层的叠加可以有效地增大网络的感受野。因此，将3个级联的卷积层放置于CAETB的前端，以接收前一个模块输出的特征，为了更好地调整不同层级与不同变换单元输出的特征，网络采用了基于通道注意力特征判别增强策略，将Transformer特征与卷积特征进行通道注意力判别增强与交互融合。即对输入的Transformer变换特征与卷积处理后的特征进行可学习的通道注意力特征增强与交叉融合。通道注意力的生成方式将在2.4节中进行详细介绍。将特征的输入设置为Fi，通道注意力特征判别增强的过程可以表示为FP=A×HCLFi+Fi （5）FQ=HCLFi+D×Fi （6）式中，A与D代表通道注意力参数，HCL表示级联的卷积层操作，3个卷积层的通道数为60-45-60，中间采用LeakyReLU（leaky rectified linear unit， LReLU）函数进行特征激活。随后使用一个核大小为1 × 1的卷积层将级联的特征调整为原通道数，其输出FR可表示为FR=HCConcatFP, FQ （7）式中，Concat代表特征级联操作，HC表示1 × 1的卷积层操作，在经过注意力嵌入部分后，特征将输入到ST模块进行进一步特征提取，模块的输出FS可表示为FS=HSwinFR （8）式中，HSwin代表ST模块的操作，STL（swin Transformer layer）在CAETB模块中的层数设置为4。CAETB的具体结构如图2所示，由于CAETB采用了残差连接结构，模块的最终输出Fi+1可以表示为Fi+1=FS+Fi （9）2.3　ST模块ST模块改进于标准Transformer架构的多头注意力。标准Transformer架构会对图像进行全局自注意力计算，但全局注意力机制在图像尺寸增大时会出现复杂度急剧增长的情况，所以标准Transformer在视觉里的下游任务中，遇到较大尺寸的图像，会出现显存需求过高的问题。为了解决这个问题，ST模块进行了局部注意力机制和窗口移位机制的改进。STL（swin Transformer layer）的总体结构如图3所示。10.11834/jig.221033.F003图3STL内部结构图Fig.3Internal structure of STL对于给定大小为H×W×C的输入，ST首先使用不重叠大小为M×M的局部窗口，将输入特征重塑为HWM2×M2×C，式中，HWM2代表窗口总数，然后分别计算每个窗口的标准自注意力。对于本地窗口特征X∈RM2×C，查询、键和值矩阵Q、K和V的计算分别为Q=XPQ, K=XPK, V=XPV （10）式中，PQ、PK和PV是跨不同窗口的共享可学习投影矩阵，且Q, K, V∈RM2×d。注意力矩阵AttentionQ,K,V是通过局部窗口中的自注意力机制计算的，可以表示为AttentionQ, K, V=softmaxQKTd+BV （11）式中，B代表可学习的相对位置编码，d代表多头注意力的维度。多头自注意力（multi-head self-attention，MSA）的结果会串联起来，以保持特征的维数不变。接下来，使用多层感知器（multilayer perceptron，MLP）进行进一步的特征增强，该感知器具有两个全连接层，层之间使用了GELU（Gaussian error linear unit）函数以激活特征。在MSA和MLP之前添加LN（layer normalization）层，两个部分都使用残差连接。将特征的输入设置为FINP，则整体过程可用数学表达式描述为FMSA=HMSAHLNFINP+FINP （12）FMLP=HMLPHLNFMSA+FMSA （13）式中，HLN表示LN层操作，HMSA表示多头注意力操作，HMLP表示多层感知机操作。虽然基于窗口分割的局部注意力机制可以降低计算的复杂度，但固定的窗口分区并没有相互的信息交流。ST模块采用了移位窗口分割和交替使用规则以实现跨窗口连接。其中，移位窗口分割表示在进行特征窗口分割之前将特征移位M/2,M/2像素，交替使用规则表示移位与非移位的STL会交替使用。这种方式解决了不重合的窗口之间不能进行信息交流的问题，显著增加了ST模块的感受野。2.4　通道注意力机制本节对2.2节中的通道注意力参数A与D的计算进行详细介绍。通道注意力机制（Hu等，2018）通过建模特征通道间的相互依赖性，可以自适应调整不同通道的特征响应，为其分配相应的权重。通道注意力的嵌入可以将CAETB中卷积与Transformer的对应特征进行自适应增强与融合。此外，由于卷积的局部操作特性，每个输出值不能概括整个图像的整体信息，为了在完整图像中选择最有效的特征，需要通道注意力的全局信息作为指导（Xiong等，2021）。通道注意力机制的具体操作如图4所示，将输入记为X=x1,x2,⋯,xc，其包含c个通道平面大小为H×W的特征图。为了得到特征通道之间的全局特性，采用全局平均池化（global average pooling，GAP）以获得每个通道特征的统计特性，记为Z=z1,z2,⋯,zc，则有zC=HGAPxC=1H×W∑i=1H∑j=1Wxci, j （14）式中，xci,j代表特征图xC中的位置i,j的数值，HGAP代表全局池化操作，用于计算代表每个特征图全局信息的平均值。10.11834/jig.221033.F004图4通道注意力模块结构图Fig.4Architecture of channel attention module将上述信息输入第2个过程，即权重学习（weight learning，WL）过程。权重学习过程包含两个全连接层、一个 ReLU函数和一个sigmoid函数，前者通过通道的挤压与激励以学习通道间的非线性交互关系，后者则将通道复原并对参数进行归一化，以保证网络能够同时关注多个重要的通道，该过程可以表示为W=HWLZ=sf2rf1Z （15）式中，HWL代表权重学习的整体过程，r(⋅)和s(⋅)分别代表ReLU函数和sigmoid函数， f1和f2则代表两个全连接层。将学到的权重W=w1,w2,⋯,wc与原输入特征相乘。将调整后的结果记为X'=x1',x2',⋯,xc'，则对应于第c幅特征图的调整结果可以表示为xc'=wcxc （16）式中，wc表示权重因子，用于改变原特征的权重比例，使得重要特征信息的权重能够增大。2.5　损失函数为了对比的公平性，仅使用L1函数作为损失函数来优化网络，其中给定N对图像作为训练数据集ILRi,IHRii=1N，可以将优化的过程表示为Lθ=1N∑i=1NISRi-IHRi1 （17）式中，ISRi表示网络对于ILRi所预测的高分辨率图像，IHRi代表标签高清图像，θ代表网络中的可学习参数。3　实验结果及分析3.1　实验设置对于模型训练部分，本文的训练数据集采用了广泛应用于图像超分辨率任务的DIV2K数据集（Agustsson和Timofte，2017）。其中，在800幅训练图像上以3个比例因子（×2、×3和×4）进行双三次下采样，以获得低分辨率输入图像，并通过随机垂直旋转与水平翻转来增强训练图像的数据多样性。网络的优化器采用了Adam优化器（Kingma和Ba， 2017），其中，β1=0.9，β2=0.999，ϵ=10-8。训练的初始学习率为2 × 10-4，并分别在第150 000、300 000、400 000、450 000批次减少到原学习率的一半，总共训练500 000个批次。网络训练时每次输入32幅（batchsize = 32）尺寸为64 × 64像素的随机裁剪低分辨率图像。对于×3，×4放大倍数的超分辨率网络，将在×2放大倍数的预训练模型基础上进行训练，并将总训练迭代次数减半。对于模型评估部分，本文采用了5个常用的公共基准数据集：Set5 （Bevilacqua等，2012）、Set14 （Zeyde等，2010）、BSD100（berkeley segmentation dataset 100）（Timofte等，2014）、Urban 100（Huang等，2015）和Manga 109（Matsui等，2017），它们涵盖了各种类型的图像特征与分辨率。峰值信噪比（peak signal-to-noise ratio，PSNR）和结构相似度（structure similarity index measure，SSIM）将作为客观评价标准，并在亮度通道上对数值进行定量评估。与此同时，采用模型的参数量与乘加量衡量各个模型的复杂度。其中，乘加量表示输入单个图像时，模型所需乘法与加法的累积操作数量，以输出图像为1 280 × 720像素作为基准值。所有实验都是在PyTorch平台上进行的，实验显卡为NVIDIA GTX 1080Ti GPU。3.2　CAETB结构与数量的分析为了验证CAETB结构的有效性，将对通道注意力与Transformer进行不同的嵌入组合对结果带来的影响进行探究。图5展示了通道注意力嵌入于Transformer之后的情况，通道注意力嵌入于Transformer之前的情况则与CAETB相同。10.11834/jig.221033.F005图5通道注意力（CA）嵌入在Transformer层后Fig.5Channel attention （CA） after Transformer layers表1显示了不同组合方式在放大比例因子×2时，对Urban100与Set5数据集重建质量的影响。可以看出，通道注意力嵌入于Transformer层之前可以获得更好的重建性能。10.11834/jig.221033.T001表1CAETB的组合方式对重建性能的影响Table 1Effect of the combination style in CAETB onthe reconstruction performance组合模式参数量/kUrban100Set5PSNR/(dB)/SSIMPSNR/(dB)/SSIMCA在前嵌入85132.79/0.934 838.15/0.961 8CA在后嵌入85132.74/0.934 038.12/0.961 5注：加粗字体表示各列最优结果。针对网络深度对提高重建性能起着重要作用，因此探究了CAETB的个数从2增加到5时，对于网络重建效果的影响。表2显示了在Set14数据集上具有不同CAETB数量的网络比例因子×2的重建效果以及所需参数量的分析。如表2所示，由于深度网络良好的非线性抽象能力，模块的数量越多，网络的性能也会随之提升。但同时也可以观察到，随着CAETB个数的增加，恢复效果的提升会出现放缓的情况，这称为深层网络的饱和现象。为了平衡模型的复杂度与性能，选用4个CAETB组成基本的重建网络。10.11834/jig.221033.T002表2CAETB数量对参数规模和在Set14上的重建质量影响Table 2Effect of the number of CAETBs on parameter size and reconstruction performance on Set14数量参数量/kPSNR/dBSSIM244633.730.919 5364933.830.920 1485133.890.920 451 05433.930.920 63.3　与其他算法的比较为了验证算法的有效性，本文与双三次插值法、SRCNN网络（Dong等，2014）、CARN网络（Ahn等，2018）、IMDN网络（Hui等，2019）、LatticeNet网络（Luo等，2020）和SwinIR网络（Liang等，2021）等轻量级网络在不同放大因子（×2、×3、×4）下进行对比，这些算法性能优越并具有一定的代表性。3.3.1　客观指标分析本文算法与其他算法的PSNR和SSIM对比结果如表3—表5所示。可以看出，CAET的客观指标PSNR 和SSIM 在所有数据集的不同上采样因子上均处于领先地位。其中，在Urban100数据集上，在上采样因子为2时PSNR领先第2名0.03 dB，在上采样因子为3时领先0.08 dB，在上采样因子为4时领先0.09 dB。在Manga109数据集的提升最为明显，在上采样因子为2时领先第2名0.13 dB，在上采样因子为3时领先0.33 dB，在上采样因子为4时领先0.30 dB。在模型复杂度方面，CAET的参数量与乘加数均处于较低水平，并在模型复杂度小于同样使用Transformer模型的SwinIR的情况下，具有更好的恢复效果。为了进一步体现本文算法的有效性，网络将CATB的数量减少到2作为CAET-M，在复杂度明显小于IMDN等基于卷积轻量级SR算法的情况下，仍有一定的性能提升。结果表明，本文算法与这些轻量级方法相比，具有更好的综合性能。3.3.2 视觉效果分析10.11834/jig.221033.T003表3放大比例因子×2时，不同算法的平均PSNR/SSIM对比Table 3Average PSNR/SSIM comparison of different algorithms under magnification is 2模型参数量/k乘加数/GSet5Set14BSD100Urban100Manga109PSNR/(dB)/SSIMPSNR/(dB)/SSIMPSNR/(dB)/SSIMPSNR/(dB)/SSIMPSNR/(dB)/SSIM双三次插值--33.66/0.929 930.24/0.868 829.56/0.843 126.88/0.840 330.80/0.933 9SRCNN5752.736.66/0.954 232.45/0.906 731.36/0.887 929.50/0.894 635.60/0.966 3CARN1 592222.837.76/0.959 033.52/0.916 632.09/0.897 831.92/0.925 638.36/0.976 5LatticeNet756169.538.06/0.961 033.70/0.919 332.20/0.899 932.25/0.928 8-/-IMDN694158.838.00/0.960 533.63/0.917 732.19/0.899 632.17/0.928 338.88/0.977 4SwinIR-light878243.738.14/0.961 133.86/0.920 632.31/0.901 232.76/0.934 039.12/0.978 3CAET（本文）851214.738.15/0.961 833.89/0.920 432.34/0.901 932.79/0.934 839.25/0.978 1CAET-M446110.438.04/0.961 333.73/0.919 532.26/0.900 732.39/0.930 838.93/0.977 7注：加粗和下划线字体分别表示各列最优和次优结果，“-”表示无相应数据。10.11834/jig.221033.T004表4放大比例因子×3时，不同算法的平均PSNR/SSIM对比Table 4Average PSNR/SSIM comparison of different algorithms under magnification is 3模型参数量/k乘加数/GSet5Set14BSD100Urban100Manga109PSNR/(dB)/SSIMPSNR/(dB)/SSIMPSNR/(dB)/SSIMPSNR/(dB)/SSIMPSNR/(dB)/SSIM双三次插值--30.39/0.868 227.55/0.774 227.21/0.738 524.46/0.734 926.95/0.855 6SRCNN5752.732.75/0.909 029.30/0.821 528.41/0.786 326.24/0.798 930.48/0.911 7CARN1 592118.834.29/0.925 530.29/0.840 729.06/0.803 428.06/0.849 333.50/0.944 0LatticeNet76576.334.40/0.927 230.32/0.841 629.10/0.804 928.19/0.851 3-/-IMDN70371.534.36/0.927 030.32/0.841 729.09/0.804 628.17/0.851 933.61/0.944 5SwinIR-light886109.534.62/0.928 930.54/0.846 329.20/0.808 228.66/0.862 433.98/0.947 8CAET（本文）85998.434.65/0.929 730.61/0.848 229.26/0.809 928.74/0.865 234.31/0.949 1CAET-M45451.134.40/0.927 830.44/0.844 529.17/0.807 628.40/0.857 733.89/0.946 6注：加粗和下划线字体分别表示各列最优和次优结果，“-”表示无相应数据。10.11834/jig.221033.T005表5放大比例因子×4时，不同算法的平均PSNR/SSIM对比Table 5Average PSNR/SSIM comparison of different algorithms under magnification is 4模型参数量/k乘加数/GSet5Set14BSD100Urban100Manga109PSNR/(dB)/SSIMPSNR/(dB)/SSIMPSNR/(dB)/SSIMPSNR/(dB)/SSIMPSNR/(dB)/SSIM双三次插值--28.42/0.810 426.00/0.702 725.96/0.667 523.14/0.657 724.89/0.786 6SRCNN5752.730.48/0.862 827.50/0.751 326.90/0.710 124.52/0.722 127.58/0.855 5CARN1 59290.932.13/0.893 728.60/0.780 627.58/0.734 926.07/0.783 730.47/0.908 4LatticeNet77743.632.18/0.894 328.61/0.781 227.57/0.735 526.14/0.784 4-/-IMDN71540.932.21/0.894 828.58/0.781 127.56/0.735 326.04/0.783 830.45/0.907 5SwinIR-light89761.732.44/0.897 628.77/0.785 827.69/0.740 626.47/0.798 030.92/0.915 1CAET（本文）87155.432.47/0.899 728.80/0.787 127.74/0.742 726.56/0.801 631.22/0.916 8CAET-M46528.832.24/0.896 328.70/0.784 727.65/0.739 426.26/0.792 830.73/0.911 8注：加粗和下划线字体分别表示各列最优和次优结果，“-”表示无相应数据。为了进一步验证网络的优势，将继续对标准数据集测试的一些代表性图像进行可视化结果分析。图6展示了测试集图像Urban100_img012放大因子为4时的局部放大效果。可以看出，其他算法的建筑纹理均出现了恢复方向错误的情况，而CAET（本文）则准确地保留了建筑物的纹理结构。图7则展示了图像B100_253027中放大因子为4时的局部放大效果。可以看出，相较于其他算法，本文算法恢复出的斑马条纹更加清晰准确。图8展示了图像Set14_barbara放大因子为4时的局部放大效果，本文算法可以准确地恢复出书本的摆放情况，而其他算法均出现了不同程度的失真。结果表明，本文算法不仅在客观数值处于领先，也可以获得比所有比较方法更清晰的超分图像。10.11834/jig.221033.F006图6不同算法对 Urban100中img012在尺度为4时重建效果对比图Fig.6Comparison of reconstructed HR images of img012 in Urban100 by different SR algorithms at the scale factor ×4（（a） Urban100_img012×4；（b） HR；（c） bicubic interpolation；（d） SRCNN；（e） CARN；（f） IMDN；（g） LatticeNet；（h） SwinIR；（i） ours）10.11834/jig.221033.F007图7不同算法对 BSD100中 253027在尺度为4时重建效果对比图Fig.7Comparison of reconstructed HR images of 253027 in BSD100 by different SR algorithms with the scale factor ×4（（a） BSD100_253027×4；（b） HR；（c） bicubic interpolation；（d） SRCNN；（e） CARN；（f） IMDN；（g） LatticeNet；（h） SwinIR；（i） ours）10.11834/jig.221033.F008图8不同算法对 Set14中 barbara在尺度为4时重建效果对比图Fig.8Comparison of reconstructed HR images of barbara in Set14 by different SR algorithms with the scale factor ×4（（a） Set14_barbara×4；（b） HR；（c） bicubic interpolation；（d） SRCNN；（e） CARN；（f） IMDN；（g） LatticeNet；（h） SwinIR；（i） ours）3.4　消融实验为了有效调整不同层级的特征，本文采用了基于通道注意力的判别增强策略。将不同层级的特征以通道注意力参数进行可调节的加权处理，不同于LatticeNet（Luo等，2020）采用基于通道平均值与标准差作为调节参数，本文以通道注意力参数对不同层级的特征进行加权处理。表6展示了放大因子×3时在多个数据集上两种不同权值生成策略的重建效果以及模型参数量的比较。实验数据表明，相较于Luo等人（2020）基于通道平均值与标准差（mean pooling and standard deviation pooling，MSD）的特征增强策略，本文基于通道注意力（CA）判别增强的方法可以更好地将Transformer特征与卷积特征进行交互融合，获得了更出色图像重建能力。10.11834/jig.221033.T006表6放大因子×3时，不同权值生成方式的模型比较Table 6Comparison of different weight generation methods of model at ×3 amplification factor方法参数量/kManga109Set5Set14CA85134.3134.6530.61MSD85834.2434.6330.59注：加粗字体表示各列最优结果。为了进一步探究通道注意力、线性加权以及特征聚合模块的作用，进一步对模型进行消融实验，以验证各个部分对系统性能的影响。具体来说，将线性加权结构更替为残差连接，并去除通道注意力与特征聚合模块作为Base模型。本文将采用不同策略的模型分别记为 Base、A、B、C、D。表7展示了放大因子×4时，在Manga109数据集上，不同策略的模型对重建质量的影响。从表中可以看到，Base模型表现稍差，仅获得 30.93 dB的 PSNR。而加入了多层特征融合的模型A有着0.19 dB的明显提升，这表明多层特征融合的方式在Transformer为主的网络中依然适用。模型B在模型A的基础上采取串联的方式嵌入通道注意力，模型C在模型A的基础上加入了线性加权，但去除了可学习的通道注意力参数。模型B与C的PSNR均有不同程度的提升，但同时添加了这两种策略的模型D会有最显著的提升。因此，本文模型的设计策略不仅在单独使用时有效，在组合使用时更能有效地提升模型的恢复能力。本文的模型D与Base模型相比，PSNR有0.29 dB的大幅提升，参数量却仅有32 k的提升。为了更直观地展示各部分的效果，本小节也对一些代表性的图像进行了可视化，其中重点关注通道注意力的嵌入对图像细节重建的改善。10.11834/jig.221033.T007表7放大因子× 4时，在Manga109数据集上不同策略对模型重建性能的影响比较Table 7Comparison of the effects of different strategies on model reconstruction performance onManga109 at amplification factor ×4方法特征聚合通道注意力线性加权PSNR/dB参数量/kBase×××30.93839A√××31.08850B√√×31.09853C√×√31.14864D（本文）√√√31.22871注：加粗字体表示各列最优结果，“√”表示采用，“×”表示未采用。图9展示了图像Manga109_ARMS中放大因子为4时的局部放大效果。可以看出，相对于模型C，加入通道注意力的模型D可以更准确地恢复出图像的细节，这表明通道注意力的嵌入对图像重建效果具有积极意义。10.11834/jig.221033.F009图9不同策略对 Manga109中ARMS在尺度为4时重建效果对比图Fig.9Comparison of reconstructed HR images of ARMS in Manga109 with different strategy at the scale factor ×4（（a） Manga109_ARMS×4；（b） HR；（c） model C；（d） model D （ours））4　结论为了有效实现网络重构性能与模型复杂度轻量化的平衡，提出了一种基于通道注意力嵌入的Transformer图像超分辨率方法。通道注意力自适应嵌入Transformer变换特征及卷积运算特征并交互融合，不仅充分利用了卷积运算与Transformer变换在图像特征提取上的各自优势，而且得到了特征的自适应增强。大量的实验结果展示，与目前主流的轻量级超分辨率算法相比，本文方法在轻量化网络模型与改进超分辨率重构性能方面均具有较好的效果。本文网络在模型轻量化与超分辨率性能上均取得了一定效果。但是，本文实验是在双三次下采样退化模型基础上展开，而现实获取的图像会有压缩失真、噪声污染等更加复杂的退化因素。因此，在人工操作数据集上训练的模型对于真实图像的恢复效果会减弱。针对现有方法的不足，未来工作将重点研究如何提升模型在现实中的通用性。目前，设计适应多个退化模型的盲超分辨率网络同样存在模型复杂的问题。下一步，将针对盲超分辨率网络模型的轻量化问题展开进一步研究。