网刊加载中。。。

论文引用格式：Bi X P， Chen S and Zhang L F. 2024. Blueprint separable convolution Transformer network for lightweight image super-resolution. Journal of Image and Graphics， 29（04）：0875-0889（引用格式:毕修平，陈实，张乐飞. 2024. 轻量级图像超分辨率的蓝图可分离卷积Transformer网络. 中国图象图形学报， 29（04）：0875-0889）［0　引言单图像超分辨率（single image super-resolution， SISR）旨在从一幅细节粗糙的低分辨率（low-resolution， LR）图像中恢复出细节精致、美观的高分辨率（high-resolution， HR）图像，是计算机低级视觉和图像处理中非常重要的任务（Wang 等，2021）。其核心要求在于：在充分保留低分辨率图像像素信息的基准下，提高低分辨率图像的像素密度，使其在人眼视觉或后续其他高级计算机视觉任务中有更好的效果。因此作为其他计算机视觉任务的基础，图像超分辨率重建广泛地应用在目标检测（Girshick等，2016）、红外图像（邱德粉等，2023）、医学图像（高媛等，2018）、移动设备以及边缘设备的目标识别（王素玉和沈兰荪，2007）等领域（Wang等，2021）。图像超分辨率重建方法丰富，但总体来说可以分为两个大类：早期的传统方法和基于深度学习的方法。过去几十年里，大量传统方法相继提出以解决图像超分辨率重建问题，主要分为：基于插值的方法、基于重构的方法和基于浅层学习的方法。Jian和Lam（2015）提出了一种基于稀疏表示的人脸重建方法，可以保留人脸图像中的高频细节，增强了人脸重建的视觉效果。但是相比于基于深度学习的方法，传统方法重建的图像质量差，难以满足现在的生产生活需求。目前，基于深度学习的图像超分辨率重建主要通过搭建深度学习网络，通过训练网络让其学习低分辨率图像和高分辨率图像之间的映射关系，然后通过该关系将低分辨图像重建为高分辨率图像。现实生活中低分辨率和高分辨率图像都是常见且广泛的，但是成对出现的低分辨率图像和高分辨率图像却难以获得。于是研究人员先采集高分辨率图像作为真实数据（ground truth），然后对该图像进行双三次下采样，将其退化为低分辨率图像，由此组成网络的训练对。Transformer网络由Google团队（Vaswani等，2017）提出，目的是提高机器翻译的效率和质量，其优秀能力让研究人员开始思考如何将其引入图像超分辨率领域。Yang等人（2020）提出了一种新颖的纹理Transformer超分辨率网络TTSR（texture Transformer network for image super-resolution），它可以利用参考图像中的高质量纹理来增强低分辨率图像的细节。其核心思想是将低分辨率图像和参考图像分别表示为Transformer中的查询和关键字，然后通过注意力机制来计算两者之间的相似度，并从参考图像中提取最相关的纹理信息。但是TTSR依赖于参考图像的质量和相似度，如果参考图像与低分辨率图像之间没有足够的纹理匹配，那么TTSR可能无法有效地提取和传输纹理信息。此外TTSR的计算复杂度较高，因为它需要在多个尺度上进行注意力计算，并且使用了多个Transformer模块导致模型体积过大。为了降低Transformer注意力的计算消耗，提出了Swin Transformer（Liu等，2021）以解决该问题。这是一种新型Transformer架构，采用移位窗口计算自注意力。之后，Liang等人（2021）首次将Swin Transformer引入图像复原领域，提出了SwinIR网络并在图像超分辨率重建上取得了巨大成功。但是这些Transformer超分辨率模型的参数和计算量大，不适合于边缘设备和移动设备上。尽管提出了许多基于Transformer的轻量化网络来解决该问题，如SCET（self-calibrated efficient Transformer）（Zou 等，2022）采用self-calibrated attention的新型自注意力减少计算量；ESRT（efficient super-resolution Transformer）（ Lu等，2022）将Q（query）、K（key）、V（value）划分为小组分别计算注意力然后再拼接以减少计算量；LBNet（lightweight bimodal network）（Gao等，2022）使用通道减少策略来减少模型的参数，并引入了通道注意和空间注意机制来重新权衡从不同分支提取的特征信息；NGSwin（n-gram swin Transformer）（Choi等，2023）引入N-Gram上下文，在不牺牲性能的情况下减少计算量。但这些方法都使用普通卷积，该卷积计算量大，同时需要较大的参数量，尤其当通道数量增多时，计算量和参数量也急剧膨胀。而且，基于Transformer的模型大多使用多层感知机（multilayer perceptron，MLP）作为前馈神经网络，参数量较大，同时随着多头自注意力头部数量的增加导致计算量，参数量过大。针对该问题，本文提出了一种轻量级图像超分辨率重建的蓝图可分离卷积Transformer网络，网络结构分为浅层特征提取部分、深层特征提取部分以及上采样重建3部分，该网络使用移动卷积在进行特征提取时降低所需参数量，同时还能实现空间信息的聚合，并使用对比度感知通道注意力加强对重要特征信息的提取。本文还基于蓝图可分离卷积设计了一种蓝图前馈网络，蓝图可分离卷积（Haase和Amthor，2020）先进行逐点卷积再进行逐通道卷积，可以有效地减少参数量和计算量，同时保持良好的性能。蓝图前馈网络可以抑制信息较少的特征，只允许有用的信息通过该模块。Transformer中所用到的多头自注意力机制需要巨大的参数量，导致大规模的计算开销。因此本文提出了一种微型的多头蓝图自注意力，它可以设置头部数量，同时对其进行限制，防止计算开销过大，使用蓝图可分离卷积进行Q、K、V提取，降低了所需参数量，该模块能够聚合局部和非局部像素交互，高效地关注图像的重点部分。实验结果表明，该模型以较少的参数量和浮点运算量达到了优秀的超分辨率图像重建结果。本文主要工作和贡献如下：1）提出了一种轻量级图像超分辨率的蓝图可分离卷积Transfomer网络，该网络参数量小，浮点运算量小，并实现了良好的超分辨率重建性能。在基准数据集上的大量实验表明，该方法以较少的参数实现了先进的超分辨率重建结果。2）设计了一种高效的蓝图前馈神经网络来关注有利于超分辨率重建的特征信息，相比于传统的前馈网络MLP，蓝图前馈网络占用计算资源少，增强网络特征提取的能力更强，可以简单地应用于各个网络模块。3）设计了一种高效的多头蓝图自注意力来进行局部和非局部的信息交互，相比于传统的自注意机制，参数量更少，能有效地减少计算开销。1　相关工作1.1　单图像超分辨率自2014年以来，学者提出了许多SISR方法来表示LR图像和HR图像之间的映射。Dong 等人（2014）提出了第1个基于深度学习的超分辨率方法SRCNN（super-resolution convolutional neural network），吸引了更多研究人员将深度学习与超分辨率结合起来。为了解决深度网络中训练困难的问题，Kim等人（2016a）首先引入了残差学习和递归学习来有效地开发非常深的网络，以获得更好的超分辨率性能。他们提出的VDSR（super-resolution using very deep convolutional networks）通过将更多的卷积层与残差学习堆叠在一起，构建了更深的网络。然而，深度残差网络会产生巨大的参数。DRCN（deeply-recurisive convolutional network）（Kim等，2016b）利用递归卷积在没有扩张更多参数的情况下增加了感受野，DRRN（deep recursive residual network）（Tai 等，2017）在较少参数的情况下进一步增强了接受野。Wang等人（2022）提出了一种利用多源参考图像和跨尺度双重残差融合机制来提高低分辨率人脸图像质量的方法，通过将人脸图像分为面部特征区域和背景区域来补偿高频细节。随着Transformer的出现，Liang等人（2021）在Swin Transformer的基础上提出了一种用于图像恢复的Transformer架构，实现了显著的改进，刷新了当前的性能。Li等人（2023）Swin Transformer提出了一种超分辨率网络HST（hierarchical swin Transformer），该网络能处理复杂的混合失真，重建高质量的图像。Yang等人（2023）提出了一种新的图像超分辨率方法，该方法使用双梯度回归引导来提高图像质量。虽然上述方法在性能上取得了很大的进步，但大多数方法都带来了较高的计算成本，这使得研究人员需要寻找更有效的超分辨率方法。1.2　轻量化超分辨率模型越来越多的轻量化超分辨率模型相继提出。Lim等人（2017）提出的EDSR（enhanced deep super-resolution network）相比于SRCNN极大地提升了图像重建质量。Ahn等人（2018）提出的CARN（cascading residual network）使用级联机制和多个1×1卷积减少计算消耗。Hui等人（2019）基于通道分割策略和多特征蒸馏模块在IDN（information distillation network）上改进提出了IMDN（information multi-distillation network），该模型以较少的参数量得到了不错的重建结果。之后，Li等人（2020）提出的LAPAR-A（linearly-assembled pixel-adaptive regression）使用邻域范围的滤波来对输入图像中的像素进行处理，得到高分辨率图的对应像素，该模型重建图像质量高且速度较快。Zhao等人（2020）提出了一种基于像素注意力机制的轻量级超分辨率卷积神经网络PAN（pixel attention network），该网络结构简单而有效，能够在保证图像质量的前提下，大大减少计算资源的消耗。Luo等人（2020）提出了一种轻量级的图像超分辨率模型LatticeNet（lattice network），在保持高精度的同时，减少了参数量和计算量。雷鹏程等人（2020）融合空间注意力机制和分层特征融合机制，提出一种轻量级的超分辨率网络，在使用较少参数情况下获得了理想的重建结果。Park等人（2023）提出了一种轻量的超分辨率网络DRSAN（dynamic residual self-attention network），该网络使用名为DRSA（dynamic residual self-attention）的新型自注意力机制以减少计算量。随着Transformer在超分辨率领域的应用，不少基于Transformer的轻量化超分辨率模型也逐渐出现，并表现出更优秀的图像重建性能。Zou等人（2022）提出了一种高效的Transformer图像超分辨率网络SCET，该网络注重精简结构，减少计算成本和内存存储。Lu等人（2022）提出了一种快速而精确的图像超分辨率模型ESRT，其能以较低的计算成本提取深度特征。此外，Choi等人（2023）使用N-Gram积并基于SwinIR（image restoration using swin Transformer）的原理提出了轻量超分辨率模型Ngswin，该模型相比SwinIR参数量和计算量都有极大的压缩，同时也取得了不错的图像重建结果。但这些方法使用普通卷积，该卷积计算量大。此外，大多方法使用了参数量较多的MLP前馈神经网络。2　方法2.1　网络整体结构图1是本文提出的蓝图可分离卷积Transformer网络（blueprint separable convolution Transformer network，BSTN）的结构图。它由浅层特征提取、深层特征提取以及图像重建3部分组成。首先通过一个普通3×3卷积进行浅层特征提取，然后将提取的浅层特征送入4个残差注意力Transformer组（residual attention Transformer groups，RATG）进行深层特征提取，每个RATG多头注意力的头部数量不一样，由浅入深分别设置为1、2、4、8，保证多头注意力计算不占用太多计算资源。然后使用一个残差连接将浅层特征与深层特征相加，接着通过一个3×3普通卷积后进行像素重组得到重建的高分辨率图像。用I0和I1分别表示网络的输入图像和输出图像。将I0输入网络后，先进行浅层特征提取，该过程可以表示为f0=H0(I0) （1）式中，H0(⋅)表示3×3普通卷积操作。然后将浅层特征送入第1个残差注意力Transformer组，提取到的特征继续送入下一个残差注意力Transformer组，以此进行深层特征提取，具体过程可表示为f1=R1(f0) （2）⋮fk=Rk(fk-1) （3）式中，Ri表示第i个RATG，fi表示由第i个RATG提取的特征信息。将提取的深层特征信息与浅层信息相加再通过一个3×3普通卷积进行整合，然后通过像素重组得到重建的高分辨率图像，该过程可以表示为fm=ADD(f0+fk) （4）fm'=H1(fm) （5）I1=P(fm') （6）式中， fm表示合并的特征信息，ADD(⋅)为张量相加操作，H1()表示3 × 3普通卷积操作。fm'表示通过3×3普通卷积整合后的特征，P(⋅)表示像素重组操作，该方法可以避免在重建过程中可能出现的棋盘效应以及人造的伪影等问题，最后得到重建后的高分辨率图像I1。10.11834/jig.230225送排稿.F001图1蓝图可分离卷积Transformer网络结构图Fig.1The structure of blueprint separable convolution Transformer network2.2　基于移位算子和分组卷积思想的移动卷积移位算子是精细模型设计中一种无参数量的方案。它进行了一种无参数量、无计算量的移位操作，作为空间卷积的替代，移位操作可以将权重矩阵或特征图中的元素按照一定的方向和步长进行平移，从而实现空间信息的聚合。分组卷积是一种卷积操作的变种，它将输入特征图和输出特征图按照深度方向分成若干组，然后每组之间进行独立的卷积。分组卷积可以减少参数量和计算量，同时增加网络的多样性和非线性。使用移位算子进行分组卷积就是移动卷积的核心思想，图2表示移动卷积的卷积过程。10.11834/jig.230225送排稿.F002图2移动卷积细节图Fig.2The details of shift convolution首先，初始化一个3×3值为0的卷积权重，将通道平均分为5组，每组大小记为g。以二维视角来看，权重每个点都可以用横坐标与纵坐标组成的坐标对表示，以(0,0)为原点。其中[0,g]通道权重(0,1)位置设为1，表示关注上方位信息； [g,2g]通道权重(1,0)位置设为1，关注左方位信息； [2g,3g]通道权重(1,2)位置设为1，关注右方位信息； [3g,4g]通道权重(2,1)位置设为1，关注下方位信息；[4g,5g]通道权重(1,1)位置设为1，关注全局信息。按输入通道数量分组，进行分组卷积。最后通过一个1×1卷积对通道信息进行混合。总体来看，移动卷积可以看做是一种结构化稀疏的卷积模块，它可以有效地减少冗余信息，并提高网络性能。而且使用移动卷积对特征图进行维度升维后再降维，这个过程使用的参数量远小于普通的3×3卷积。因此将移动卷积引入超分辨率网络，既有利于降低网络参数量、加快推理速度，同时又有利于减少冗余信息，提高网络性能。2.3　蓝图前馈神经网络蓝图可分离卷积（blueprint separable convolution，BSConv）（Haase和Amthor，2020）将每个卷积核表示为1个二维的蓝图内核和1个一维的权重向量，其中蓝图内核用于提取空间信息，权重向量用于混合通道信息。蓝图可分离卷积可以有效地减少参数量和计算量，同时保持良好的性能。如图3所示，从卷积过程来讲，蓝图可分离卷积先进行逐点卷积，再进行逐通道卷积。其中，逐点卷积可表示为1个1×1的卷积，逐通道卷积可表示为分组卷积。蓝图可分离卷积计算量C和参数量P计算为C=M×N×DF×DF+DK×DK×N×DF×DF （7）P=M×N+DK×DK×N （8）式中，M，N，DF×DF，DK×DK分别表示输入数据的通道数、输出特征图的通道数、输出特征图大小和卷积核大小。而普通卷积C计算成本和参数量P计算为C=M×N×DK×DK×DF×DF （9）P=M×N×DK×DK （10）与普通卷积相比，蓝图可分离卷积参数量和计算量都有大幅减少。10.11834/jig.230225送排稿.F003图3蓝图可分离卷积细节图Fig.3The details of blueprint separable convolution前馈神经网络是一种人工神经网络，它的节点之间的连接不形成循环。它由多个层组成，每个层包含若干个节点。每个节点接收前一层的输出，并进行线性变换和非线性激活，然后输出给下一层。在Transformer中，前馈神经网络是一个重要的组成部分，它接受自注意力层的输出，并进行两次线性变换，增加了模型的表达能力。前馈神经网络可以对复杂的过程进行拟合，弥补了自注意力机制可能存在的不足。前馈神经网络也可以提高模型的并行性，因为它不依赖于序列信息，可以同时处理多个位置的输入。Transformer中常用的前馈神经网络是多层感知机（MLP），它由多个全连接层和非线性激活函数组成。在Transformer中，每个编码器和解码器的子层都包含一个MLP，它对自注意力层的输出进行两次线性变换，并使用ReLU（rectified linear unit）或GELU（Gaussian error linear unit）作为激活函数。MLP有助于增加模型的表达能力和非线性，以及对不同维度的特征进行混合。但是MLP网络结构和参数很难确定，需要大量的试验和调整；训练过程耗时长，计算量大，容易陷入局部最优解。因此本文设计了一种更轻量，更容易使用的蓝图前馈神经网络。其结构如图4所示。输入的数据先进行层标准化（layer normalization，LN），相比于批标准化（batch normalization，BN），LN是沿特征维度进行归一化，适用性强。然后分为两个分支，两个分支都使用蓝图可分离卷积进行维度扩张，其中一条分支使用GELU激活函数，GELU是一种非单调激活函数，有助于保持小的负值，从而稳定网络梯度流。然后将两个分支相乘后再由1个1×1卷积整合得到输出特征。这样可以实现可控的特征变换，即抑制低信息特征，仅保留有用信息。10.11834/jig.230225送排稿.F004图4蓝图前馈网络结构图Fig.4The structure of blueprint feed-forward network2.4　蓝图多头自注意力SwinIR使用了Swin Transformer的滑动窗口自注意力，它在一个限定大小的窗口中计算自注意力，同时结合移动窗口使得相邻的窗口能进行信息交互。SwinIR使用了多尺度的滑动窗口自注意力，即在不同层级上使用不同大小和步长的窗口，这样可以增加模型的灵活性和表征能力。相比于最初Transformer注意力机制，SwinIR所采用的计算方式降低了计算复杂度，节约了33%的参数量，然而这种方法训练时间长且占用显存大，不利于实际应用。因此本文设计了一种更加轻量的蓝图多头自注意力，结构如图5所示，其表示头部数为1时的自注意力计算过程。假设输入数据形状为X∈RC×H×W，表示输入数据通道为C，高为H，宽为W。首先进行通过层标准化，对特征维度进行归一化。然后用蓝图可分离卷积得到查询（Q）、键（K）、值（V）矩阵，接着进行矩阵变维得到Q∈RHW×C、K∈RC×HW和V∈RHW×C。对Q，K进行Lp范数正则化，将输入张量在规定维度上除以该维度对应的范数，让输入张量在规定维度上具有相同的尺度和方向。之后K与Q相乘再通过激活函数得到注意力矩阵A∈RC×C。假设头部数量设置为h，将会生成h个Q与K，分别为Qi∈RHW×c、Ki∈Rc×HW，其中c=C/h。然后成对相乘再经由激活函数得到h个注意力矩阵A'∈Rc×c。将每个注意力矩阵与V相乘再进行拼接，此时形状为Rh×HW×c，经过矩阵变维得到带有注意力权重的特征矩阵X^∈RC×H×W。最后由一个卷积整合得到输出Y∈RC×H×W。蓝图多头自注意力，不需要进行窗口移动，同时使用蓝图可分离卷积提取Q、K、V速度快，使用参数量少。10.11834/jig.230225送排稿.F005图5蓝图多头自注意力结构图Fig.5The structure of blueprint multi-head self-attention2.5　残差注意力Transformer组综合以上技术与模块，本文方法设计了一种混合注意力Transformer模块HATB（hybrid attention Transformer module），结构如图6所示。它分为两个部分，首先是移动通道注意力模块（shift channel attention block，SCAB），将输入数据先进行层标准化，然后通过第1个移动卷积进行通道扩展，因为移动卷积使用移位算子进行分组卷积，在进行通道扩展时所使用的参数远少于普通3×3卷积。使用ReLU激活函数，保持非负单元通过，再通过第2个移动卷积对通道进行回缩。之后，利用对比度感知通道注意力（contrast-aware channel attention，CCA）（Hui等，2019）加强对不同通道信息的关注，残差连接将之前的特征信息结合起来。随后通过蓝图前馈神经网络得到移动通道注意力模块输出。移动通道注意力模块输出的特征信息作为输入特征送入第2个部分，即蓝图多头自注意力模块（blueprint multi-head self-attention block，BMSAB）。先进行多头自注意提取，然后通过残差连接将输入特征与注意力特征矩阵相加送入蓝图前馈神经网络，抑制信息量较少的特征，只允许有用的信息进一步通过网络，再通过一个残差连接将之前特征信息相加作为蓝图多头自注意力模块的输出。由此，完成一个混合注意力Transformer模块的特征提取过程。而一个残差注意力Transformer组（RATG）由两个混合注意力Transformer模块和一个3×3普通卷积通过残差结构组合而成。残差注意力Transformer组是网络中的最核心部分，也是参数量占有的绝大部分，负责深层特征提取，直接关系重建后的图像质量。本文方法通过精细化的模型设计，引入微型注意力机制，让其既有优秀的图像重建能力，同时也维持了较低的参数量和计算量。10.11834/jig.230225送排稿.F006图6残差注意力Transformer组Fig.6Residual attention Transformer group3　实验3.1　实验设计3.1.1　数据集在模型训练时，选用DIV2K和Flickr2K中的801号到1 800号图像作为训练集。DIV2K数据集是一个用于单图像超分辨率的数据集，共包含1 000幅高清高分辨率图像，分为训练集800幅，验证集100幅和测试集100幅，图像种类多样，包括动物、人像和建筑等，其中测试集并没有公开。Flickr2K数据集是一个用于图像超分辨率重建的数据集，包含2 650幅图像。此外选取了4个常用测试集进行测试，分别为Set5、Set14、BSD100和 Urban100。3.1.2　实现细节BSTN网络深层特征提取部分由4个残差注意力Transformer组组成。其中特征通道大小为48，每批训练数据大小为32，每批输入的低分辨率图像大小为48。详细软硬件信息见表1。10.11834/jig.230225送排稿.T001表1实验平台软硬件环境Table 1Software and hardware environment of the experimental platform类别型号/版本号CPU 型号Intel(R) Xeon(R) Gold 6240C显卡型号NVIDIA GeForce RTX 3090显存24 576 M操作系统Ubuntu 20.04.1Python3.8.13PyTorch1.13.0torchsummaryX1.3.0CUDA11.7此外，为了增加网络的鲁棒性，本文对输入的图像进行数据增强，具体方法为：将输入的图像进行90°、180°和270°的随机旋转和水平翻转。本文模型采用Adam（Kingma和Ba，2017）优化器进行参数更新，优化器参数为β1=0.9，β2=0.99，初始学习率设置为5×10-4，使用余弦学习率下降策略对学习率进行更新。它通常与“重启”结合使用，即当学习率达到最小值时，再次提升到最大值（一般与原始最大值不同），然后再次衰减，总共迭代训练106次。所有超参数均在一个yml文件中配置。最后本文网络使用PyTorch框架进行编写，并在一张NVIDIA RTX 3090显卡上进行训练，训练时间约为46 h。3.1.3　评价指标本文采用峰值信噪比（peak signal-to-noise ratio，PSNR）和结构相似性（structural similarity，SSIM）作为评价指标，这也是目前超分辨率领域中常用的客观评价指标。同时，定量结果在YCbCr空间上的Y通道上计算。3.2　对比实验为了证明本文方法的优越性，本节将与领域内先进方法SRCNN（Dong等，2014）、VDSR（Kim等，2016a）、CARN（Ahn等，2018）、EDSR（Lim等，2017）、IMDN（Hui等，2019）、PAN（Zhao等，2020）、LAPAR-A（Li等，2020）、Lattice（Luo等，2020）、ESRT（Lu等，2022）、NGSwin（Choi等，2023）和LBNet（Gao等，2022）进行对比。本文方法与其他先进方法在Urban100上放大4倍时，PSNR、参数量和浮点运算量的可视化对比见图7，可以发现本文方法将参数量和浮点运算量都维持较低水平，同时PSNR取得最佳。10.11834/jig.230225送排稿.F007图7PSNR、参数量、浮点运算量对比图Fig.7Comparison between PSNR， parameters and flops3.2.1　客观实验结果各方法在数据集Set5、Set14、BSD100和Urban100上的参数量、浮点运算量以及测试结果见表2—表4。其中，浮点运算量采用大小为3 × 1 280 × 720像素图像计算。SRCNN是第1个基于深度学习的图像超分辨率重建网络，可以发现自SRCNN提出以来，各方法在重建结果上都有了比较大的提升。因为SRCNN只用了两个卷积层，因此参数量较少，但是它先将图像放大再进行特征提取，浮点运算量大。在其他方法中，PAN的参数量最小，但由于它并没有很好地挖掘深层特征，所以在4个数据集上表现较差。总体上看，本文方法参数量和计算量都处于一个适中位置，与Transformer类方法相比处于一个较低位置。10.11834/jig.230225送排稿.T002表2不同方法的2倍超分辨率客观评价结果Table 2Results of objective results of 2 × super-resolution for different methods方法参数量/K浮点运算量/GSet5Set14BSD100Urban100PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMSRCNN（Dong 等，2014）852.736.660.954 232.450.906 731.360.887 929.500.894 6VDSR（Kim 等，2016a）666612.637.530.958 733.030.912 431.900.896 030.760.914 0CARN（Ahn 等，2018）1 592222.837.760.959 033.520.916 632.090.897 831.920.925 6EDSR（Lim 等，2017）1 370316.237.990.960 433.570.917 532.160.899 431.980.927 2IMDN（Hui 等，2019）694158.838.000.960 533.630.917 732.190.899 632.170.928 3PAN（Zhao 等，2020）26170.538.000.960 533.590.918 132.180.899 732.010.927 3LAPAR-A（Li 等，2020）548171.038.010.960 533.620.918 332.190.899 932.100.928 3Lattice（Luo等，2020）756169.538.060.960 733.700.918 732.200.899 932.250.928 8ESRT（Lu 等，2022）677118.138.030.960 033.750.918 432.250.900 132.580.931 8NGSwin（Choi 等，2023）998140.438.050.961 033.790.919 932.270.900 832.530.932 4LBNet（Gao 等，2022）731153.238.050.960 733.650.917 732.160.899 432.300.929 1本文736163.638.170.961 633.870.920 132.280.901 032.600.931 8注：加粗字体表示各列最优结果。10.11834/jig.230225送排稿.T003表3不同方法的3倍超分辨率客观评价结果Table 3Results of objective results of 3 × super-resolution for different methods方法参数量/K浮点运算量/GSet5Set14BSD100Urban100PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMSRCNN（Dong 等，2014）852.732.750.909 029.300.821 528.410.786 326.240.798 9VDSR（Kim 等，2016a）666612.633.660.921 329.770.831 428.820.797 627.140.827 9CARN（Ahn 等，2018）1 592118.834.290.925 530.290.840 729.060.803 428.060.849 3EDSR（Lim 等，2017）1 555162.334.370.927 030.280.841 729.090.805 228.150.852 7IMDN（Hui 等，2019）70371.534.360.927 030.320.841 729.090.804 628.170.851 9PAN（Zhao 等，2020）26139.034.400.927 130.360.842 329.110.805 028.110.851 1LAPAR-A（Li 等，2020）54411434.360.926 730.340.842 129.110.805 428.150.852 3Lattice（Luo等，2020）76576.334.400.927 230.320.841 629.100.804 928.190.851 3ESRT（Lu 等，2022）77061.834.420.926 830.430.843 329.150.806 328.460.857 4NGSwin（Choi 等，2023）1 00766.634.520.928 230.530.845 629.190.807 828.520.860 3LBNet（Gao 等，2022）73668.434.470.927 730.380.841 729.130.806 128.420.855 9本文74272.234.680.929 630.540.845 129.230.808 128.620.860 4注：加粗字体表示各列最优结果。10.11834/jig.230225送排稿.T004表4不同方法的4倍超分辨率客观评价结果Table 4Results of objective results of 4 × super-resolution for different methods方法参数量/K浮点运算量/GSet5Set14BSD100Urban100PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMSRCNN（Dong 等，2014）852.730.480.862 627.500.751 326.900.710 124.520.722 1VDSR（Kim 等，2016a）666612.631.350.883 828.010.767 427.290.725 125.180.752 4CARN（Ahn 等，2018）1 59290.932.130.893 728.600.780 627.580.734 926.070.783 7EDSR（Lim 等，2017）1 518114.232.090.893 828.580.781 327.570.735 726.040.784 9IMDN（Hui 等，2019）71540.932.210.894 828.580.781 127.560.735 326.040.783 8PAN（Zhao 等，2020）27228.232.130.894 828.610.782 227.590.736 326.110.785 4LAPAR-A（Li 等，2020）65994.032.150.894 428.610.781 827.610.736 626.140.787 1Lattice（Luo等，2020）77743.632.180.894 328.610.781 227.570.735 526.140.784 4ESRT（Lu 等，2022）75147.732.190.894 728.690.783 327.690.737 926.390.796 2NGSwin（Choi 等，2023）1 01936.432.330.895 528.780.785 927.660.739 626.450.796 3LBNet（Gao 等，2022）74238.932.290.896 028.680.783 227.620.738 226.270.790 6本文75141.832.500.898 528.780.785 227.710.740 326.490.796 5注：加粗字体表示各列最优结果。以2倍和4倍为例，从2倍超分辨率结果来看，本文方法在PSNR上取得最佳，在Set5和Set14上领先明显，分别优于性能第2的方法0.11dB和0.08 dB。在Urban100上SSIM略低于NGSwin，取得第2名，但在其他数据集取得最佳，这是因为NGSWin使用了移动窗口，因此能获得较多的结构信息。而相比NGSwin，本文方法在重建图像时保留了较多的细节信息，但是损失了一些结构信息。在4倍超分辨率上，本文方法延续了优异的表现，PSNR在各数据集上都取得不同程度领先，其中在Set5上领先明显，领先第2的NGSwin 0.17dB。SSIM只在Set14上落后于NGSwin，在其他数据集上都取得领先。另外，本文方法只用了NGSwin约74%的参数量就实现了整体优于NGSwin的重建性能。ESRT提出一种高频过滤模块提取高频信息，本文方法使用了与它相同的参数量，但在重建结果上全面超过了ESRT。由此可以看出，本文方法具有更好的图像重建能力。综合来看，本文方法作为Transformer架构的模型，以较少的参数和计算量取得了显著的超分辨率客观评价结果。3.2.2　主观实验结果图8—图10分别展示了不同方法在2倍、3倍以及4倍超分辨率重建下的结果，其中GT为原始高分辨率图像，本文方法表现出了更好的超分辨率重建性能。本文以2倍和4倍的结果为例来进行对比分析。10.11834/jig.230225送排稿.F008图82倍超分辨率可视化对比Fig.8Comparison of different methods for 2× super-resolution visualization10.11834/jig.230225送排稿.F009图93倍超分辨率可视化对比Fig.9Comparison of different methods for 3× super-resolution visualization10.11834/jig.230225送排稿.F010图104倍超分辨率可视化对比Fig.10Comparison of different methods for 4× super-resolution visualization图8上半部分为Set14中图像ppt3上的2倍超分辨率的重建结果，该图像包含了大量文字。观测其他方法重建出的图像，可以发现它们在文字上存在着模糊和平滑的问题，尤其在“your point”单词上的差异非常明显。尽管LBNet的重建结果相对于其他方法更好，但是在“point”一词的字母“i”上仍然不如本文方法清晰；图8下半部分为Urban100中图像img012上的2倍超分辨率的重建结果，该图像包含了建筑物中大量重复的纹理和细节。可以发现，IMDN、Lattice和ESRT等方法产生了不同程度的模糊和大量与GT图像方向不一致的线条，而本文方法没有产生与GT图像不一致的线条，且重建图像更加清晰。上述分析表明，本文方法在2倍超分辨率重建时优于其他对比方法。在进行4倍超分辨率重建时，退化图像有着更小的空间分辨率，因此在重建高分辨率图像的过程中需要恢复更多的信息，难度更大。图10上半部分展示了放大倍数为4时不同方法在Urban中图像img058上的重建结果。可以看到，IMDN、PAN和NGSWin等方法尤其表现出严重的模糊，并产生了大量错乱的线条。而本文方法可以恢复出与GT图像几乎一致的线条和纹理，相比于其他对比方法有着更好的重建性能。图10下半部分展示了放大倍数为4时不同方法在Urban100中图像img092上的重建结果。可以很明显看出，其他对比方法重建出的图像都出现了不同程度的线条错乱和模糊，比如PAN产生了波动和模糊的线条结构，ESRT在GT图像的基础上产生了多余的倾斜线条，LBNet产生了与GT图像方向不一致的线条等。而本文方法产生的图像模糊区域小、更加清晰且线条基本拟合GT图像。3.3　消融实验3.3.1　RATG数量变化的性能分析残差注意力Transformer组是网络最主要部分，其包含了网络的大部分参数和计算量，通过对其增删可改变模型大小，但是残差注意力Transformer组数量的改变自然也会对模型的性能产生影响。为此，本文进行了残差注意力Transformer组数量变化的消融实验，其结果见表5。表5中数量为3，表示网络中使用了3个残差注意力Transformer组，其他数量以此类推。因为超分辨率模型训练时间较长，故本文将所有消融实验迭代训练次数设置为5 × 105。每个实验采用的训练数据集相同，超参数相同。可以发现RATG数量为3的模型参数量和浮点运算量最低，但是这样带来的影响就是PSNR和SSIM客观指标的下降。如果将RATG数量增加到5后，模型参数增加至923 K，浮点运算量增加到50.8 G，但是除了在Urban100上比数量为4的模型有微小提升，在其他测试集上都有不同程度的退化。因此证明将残差注意力Transformer组的数量设置为4能取得更好的超分结果，同时在参数量和浮点运算量维持一个较低的水平。10.11834/jig.230225送排稿.T005表5不同数量RATG的4倍超分辨率结果Table 5Results of 4 × super-resolution for different number of RATGs数量参数量/K浮点运算量/GSet5Set14BSD100Urban100PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIM357931.732.350.897 528.700.783527.650.738626.310.7919471541.832.430.898 328.750.784827.680.739326.390.7939592350.832.420.898 628.750.784727.660.739126.390.7943注：加粗字体表示各列最优结果。3.3.2　蓝图前馈神经网络有效性分析Transformer模型中常用的前馈神经网络为MLP网络，但是由于MLP通常有以下几个缺点：容易过拟合，训练速度慢，参数量大。为了证明蓝图前馈神经网络（blueprint feed-forward neural network，BFFN）的有效性，本实验将在BSTN的基础框架上将蓝图前馈神经网络替换为MLP网络，并命名为BSTN_1，然后以相同的数据集和超参数进行训练。实验结果出现较大的退化，这是因为MLP训练困难，通常需要多次实验才能达到一个较好的结果。为了验证是否因学习率过大，出现振荡导致结果不佳，将学习率更改为10-4进行训练，该方法命名为BSTN_2。结果见表6。可以发现，使用MLP替换BFFN后，浮点运算量有较为明显的降低，但无论是BSTN_1还是BSTN_2在各个测试集上的超分结果都有巨大退化，同时参数量也有部分增加。由此证明蓝图前馈神经网络的有效性。10.11834/jig.230225送排稿.T006表6替换不同前馈神经网络的4倍超分辨率结果Table 6Results of 4 × super-resolution for different feed-forward neural network in BSTN方法参数量/K浮点运算量/GSet5Set14BSD100Urban100PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMBSTN_179522.832.070.893 828.490.778 627.500.733 925.890.779 0BSTN_279522.832.070.894 328.520.779 427.520.734 625.890.779 9BSTN71541.832.430.898 328.750.784 827.680.739 326.390.793 9注：加粗字体表示各列最优结果。3.3.3　移动卷积有效性分析移动卷积可以在减少卷积计算量和参数量的同时更广泛地获取特征空间信息，为了证明移动卷积的这一优点，在本消融实验中将移动卷积替换为普通3×3卷积，然后在相同的数据集，以相同的超参数迭代训练5×105次。在Set5、Set14、BSD100和Urban100数据集上进行测试，得到PSNR和SSIM结果，如表7所示。可以明显看出，使用普通3×3卷积替换移动卷积后，参数量和浮点运算量急剧膨胀，但是在各测试集上的表现反而退化不少，由此证明了移动卷积的有效性，同时也说明参数量和浮点运算量的增加不一定促使结果变好，往往更加优秀的结构设计更能保证最后的结果。10.11834/jig.230225送排稿.T007表7移动卷积4倍超分辨率的消融实验结果Table 7Results of 4 × super-resolution ablation experiments for shift convolution数量参数量/K浮点运算量/GSet5Set14BSD100Urban100PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIM普通3 × 3卷积1 914109.732.390.897 728.680.783 427.640.738 626.220.789 2移动卷积71541.832.430.898 328.750.784 827.680.739 326.390.793 9注：加粗字体表示各列最优结果。4　结论Transformer引入到超分辨率领域以来，取得了巨大成功，相比于卷积神经网络，在重建质量上有较大的提升。但是随之而来的是庞大的参数量和计算消耗，这导致Transformer结构的超分辨率模型难以应用到计算资源有限、显存小，且要求实时的任务中。为解决该痛点，本文提出了一种轻量级图像超分辨率的蓝图可分离卷积Transformer网络（BSTN）。针对传统前馈神经网络MLP训练过程耗时长，计算量大，容易陷入局部最优解的问题，本文提出了蓝图前馈神经网络进行替代，同时使用计算量、参数量较小的蓝图可分离卷积和移动卷积对模型进行压缩。另外，基于蓝图可分离卷积提出了一种轻量的蓝图多头自注意力模块，以较低的计算量实现了自注意力计算过程。大量实验证明了本文方法在Set5、Set14、BSD100和Urban100上都取得领先结果。在主观实验结果中，本方法重建图像细节信息更丰富，质量更高。值得指出的是，虽然本文方法在图像重建方面取得了出色的结果，但在参数量和浮点运算量方面的优势并不明显。因此，未来的工作可以在以下几个方面进行扩展和丰富，以增强轻量化图像超分辨率重建方法的效率和适用性。首先，需要优化模型架构，减少参数数量和计算复杂度。可以探索先进的模型压缩技术，研究针对超分辨率任务量身定制的新颖轻量化操作。其次，需要在不同的数据集和场景上进行广泛实验，全面评估所提方法的性能和泛化能力。重要的是要评估模型在各种图像类型下的稳健性，包括自然场景、医学图像和遥感数据等。最后，将本文模型部署至移动设备和边缘设备上，研究针对移动设备和边缘设备的模型压缩和优化技术，以进一步提高超分辨率重建过程的效率和实时性能。总之，未来的工作应着重优化本文模型，解决参数量和计算成本的挑战，并探索移动设备和边缘设备上的部署策略。通过进一步提高所提方法的效率和实用性，可以充分发挥其在实际超分辨率图像重建应用中的潜力。