Print

发布时间: 2021-11-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200549
2021 | Volume 26 | Number 11




    图像处理和编码    




  <<上一篇 




  下一篇>> 





多尺度特征复用混合注意力网络的图像重建
expand article info 卢正浩, 刘丛
上海理工大学光电信息与计算机工程学院, 上海 200093

摘要

目的 针对以往基于深度学习的图像超分辨率重建方法单纯加深网络、上采样信息损失和高频信息重建困难等问题,提出一种基于多尺度特征复用混合注意力网络模型用于图像的超分辨率重建。方法 网络主要由预处理模块、多尺度特征复用混合注意力模块、上采样模块、补偿重建模块和重建模块5部分组成。第1部分是预处理模块,该模块使用一个卷积层来提取浅层特征和扩张特征图的通道数。第2部分是多尺度特征复用混合注意力模块,该模块加入了多路网路、混合注意力机制和长短跳连接,以此来进一步扩大特征图的感受野、提高多尺度特征的复用和加强高频信息的重建。第3部分是上采样模块,该模块使用亚像素方法将特征图上采样到目标图像尺寸。第4部分是补偿重建模块,该模块由卷积层和混合注意力机制组成,用来对经过上采样的特征图进行特征补偿和稳定模型训练。第5部分是重建模块,该模块由一个卷积层组成,用来将特征图的通道数恢复至原来数量,以此得到重建后的高分辨率图像。结果 在同等规模模型的比较中,以峰值信噪比(peak signal-to-noise ratio,PSNR)和结构相似度(structural similarity index measure,SSIM)作为评价指标来评价算法性能,在Set5、Set14、BSD100(Berkeley segmentation dataset)和Urban100的基准测试集上进行测试。当缩放尺度因子为3时,各测试集上的PSNR/SSIM依次为34.40 dB/0.927 3,30.35 dB/0.842 7,29.11 dB/0.805 2和28.23 dB/0.854 0,相比其他模型有一定提升。结论 量化和视觉的实验结果表明,本文模型重建得到的高分辨率图像不仅在重建边缘和纹理信息有很好的改善,而且在PSNR和SSIM客观评价指标上也有一定的提高。

关键词

超分辨率重建; 多尺度特征复用; 混合注意力; 特征补偿; 边缘

Multiscale feature reuse mixed attention network for image reconstruction
expand article info Lu Zhenghao, Liu Cong
School of Optoelectronic Information and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China
Supported by: National Natural Science Foundation of China(61703278, 61772342)

Abstract

Objective Obtaining a high-resolution image directly is very difficult due to the interference of the external environment and hardware conditions. A low-resolution image is usually obtained at first, and then one or more image super-resolution methods are employed to obtain the corresponding high-resolution image. In addition, the number of collected images is large. Therefore, how to reconstruct a high-resolution image from a low-resolution image at a low cost has become a research hotspot in the field of computer vision. This research widely exists in the fields of medicine, remote sensing, and public safety. In recent years, many image super-resolution methods have been proposed, and these techniques can be broadly categorized into interpolation-, projection-, and learning-based methods. Among these methods, the convolutional neural network, a typical approach of the learning-based method, has attracted more attention in recent years but still has several problems. First, the reconstruction effect is often improved by simply deepening the network, which will make the network very complex and increase the difficulty of the training. Second, the high-frequency information in an image is difficult to reconstruct. The attention mechanism has been applied to overcome this problem, but the existing attention mechanisms are usually directly quoted from many high-level vision tasks, without considering the particularity of the super-resolution reconstruction tasks. Third, the existing upsampling methods have several limitations such as feature loss and training oscillations, which are difficult to solve in the field of super-resolution reconstruction. To address these problems, this paper proposes a mixed attention network model based on multiscale feature reuse for super-resolution reconstruction. The model improves the performance of the network by using several novelty strategies including multipath network, long and short hop connections, compensation reconstruction block, and mixed attention mechanism. Method The proposed network is mainly composed of five parts: the preprocessing module, the multiscale feature reuse mixed attention module, the upsampling module, the compensation reconstruction module, and the reconstruction module. The first part is the preprocessing module, which uses a convolutional layer to extract shallow features and expand the number of channels in the feature map. The second part is the multiscale feature reuse mixed attention module. This part contains three important subparts including a multichannel network, a mixed attention mechanism, and the jump connections. The multichannel network can increase the receptive fields of different feature maps and improve the reuse of multiscale features. The mixed attention mechanism can better capture the high-frequency information, and the jump connections can reduce the degradation problem of deep network and improve the learning ability. Moreover, the interdependence between shallow features and deep features can be learned by using the depth method and the widening method. The third part is the upsampling module, which uses the subpixel method to upsample the feature map to the target size. The shallow and deep features are upsampled simultaneously and fused to compensate the feature loss caused by the upsampling operation. The fourth part is the compensation reconstruction module, which is composed of a convolutional layer and a mixed attention module. This part is used to perform the secondary feature compensation and stabilize the model training on the feature maps obtained through upsampling. The fifth part is the reconstruction module, which uses a convolutional layer to expand the number of channels of the feature map to the original number to obtain the reconstructed high-resolution image. In the training phase, the DIV2K(DIVerse 2K) dataset is taken as the training set, and each image is processed by several enhancement methods such as random rotation and horizontal flip. Adaptive momentum estimation(ADAM) is used as the optimizer, and L1 is used as the objective function. Each run uses 800 epochs. Result The proposed method is compared with several current state-of-the-art methods including super-resolution convolutional neural network(SRCNN), super-resolution using very deep convolutional networks(VDSR), deep Laplacian pyramid super-resolution networks(LapSRN), memory network for image restoration(MemNet), super-resolution network for multiple degradations(SRMDNF), cascading residual network(CARN), multi-path adaptive modulation network(MAMNet), and the simplified version of residual channel attention network (RCAN-mini). Peak signal-to-noise ratio (PSNR) and structural similarity (SSIM) are applied to evaluate the performance of these algorithms on widely used benchmark testsets such as Set5, Set14, BSD100(Berkeley segmentation dataset), and Urban100. When the scale factor is 3, the PSNR/SSIM values obtained by this model on each testsets are 34.40 dB/0.927 3, 30.35 dB/0.842 7, 29.11 dB/0.805 2, and 28.23 dB/0.854 0 in order. In terms of PSNR index, compared with RCAN-mini, it is increased by 0.15 dB, 0.08 dB, 0.07 dB, and 0.24 dB on four testsets. Compared with other methods, the reconstruction results are also improved. Conclusion A multiscale feature reuse mixed attention network, which applies a new network structure and an attention mechanism to improve the performance of super-resolution, is proposed. This model is compared with other methods by quantization experiment and visual experiment. Experiment results show that the proposed method can achieve the best reconstruction effect on the edge and texture information and can obtain higher values on the evaluation indicators of PSNR and SSIM than other methods.

Key words

super-resolution reconstruction; multi-scale feature reuse; mixed attention; feature compensation; edge

0 引言

针对单幅图像的超分辨率重建(super resolution,SR)一直是计算机视觉领域研究的热点。它是指在不改变硬件条件下,利用重建算法通过一幅低分辨率图像(low resolution,LR)恢复出一幅清晰的高分辨率图像(high resolution,HR)的过程。并且由于可以节约大量的成本,超分辨率重建已经广泛应用于医学、遥感和公共安全等领域。

随着卷积神经网络(convolutional neural networks,CNN)在超分辨率重建领域展现出巨大潜力(Wang等,2019Jin等,2020),越来越多的研究者开始从事有关超分辨率重建领域的研究。首先,Dong等人(2014)提出的SRCNN(super-resolution convolutional neural network)首次将卷积神经网络应用于SR领域。与传统的超分辨率重建算法对比可知,卷积神经网络端到端的非线性映射极大提高了超分辨率重建的性能,并且不需要过多的人工特征干预。基于此,Kim等人(2016)提出VDSR(super-resolution using very deep convolutional networks),该模型通过增加网络层数和全局残差学习来增强网络的表达能力和性能。通过实验可知,随着网络层数的增加,模型的性能获得很大提升。结合VDSR的优点,Lim等人(2017)提出EDSR(enhanced deep residual networks for single image super-resolution),该模型采用滤波器较多的残差块,并且在网络中去除了批处理归一化层(batch normalization,BN),以降低存储成本,进一步构建深度网络。随后,Dai等人(2019)还发现残差结构在图像和视频恢复中能取得惊人的性能。除了更深层次网络和残差结构的设计,专注于有效区域传递的网络设计也逐渐被提出。由于密集连接在不同任务中表现出良好的效果,Tong等人(2017)提出的SRDenseNet(image super-resolution using dense skip connections)对密集块进行堆叠以获得更好的性能。此后,Zhang等人(2018b)在RDN(residual dense network for image super-resolution)中结合了残差连接和密集连接,进一步提高了模型重建性能。

注意力机制因其可以挖掘特征间的相关性,成为当前的研究热点。Liu等人(2018)Wang等人(2017)提出的非局部注意力块加入到图像恢复模型中,并且获得了良好的效果。此后,Li(2019)利用空间注意力模块和DenseNet重建真实的HR图像。除了上述只使用空间注意力的方法,通道注意力也被提出。RCAN(image super-resolution using very deep residual channel attention networks)(Zhang等,2018c)利用通道注意力模块(squeeze-and-excitation,SE)(Hu等,2020)来学习不同通道之间的特征相关性。此后,越来越多的研究者充分利用空间注意力和通道注意力来提高SR算法的性能(Kim等,2018Tu等,2019)。除了网络结构的不断改进,SR方法中的上采样操作也在不断发展。反卷积作为上采样的工具,在早期的超分辨率重建工作中得到广泛的应用。随后,在Shi等人(2016)提出的ESPCN(efficient sub-pixel convolutional neural network)网络中用亚像素卷积层代替反卷积层,并证明是比反卷积更有效的上采样操作。因此在ESPCN后,大部分SR方法都选择亚像素层进行上采样操作。

虽然上述基于CNN的SR方法已经获得不错的效果,但是依然存在以下问题:1)通过简单的加深网络来提高重建效果,会导致网络模型过于复杂而加大训练难度。2)高频信息重建困难。在SR领域中,现有的注意力机制都是从高级视觉任务中直接引用过来的方法,而没有考虑SR任务的特殊性。3)现有的上采样方法都存在特征损失和训练振荡等问题。而在SR领域中,没有很好的解决方法。

为解决上述问题,本文提出一种多尺度特征复用混合注意力网络(multi-scale feature reuse mixed attention network,MSAN)来更好地学习和表示特征。本文主要贡献包括以下3点:

1) 提出多尺度特征复用块,该块通过局部和全局上下文信息的连接来学习不同尺度特征之间的相互依赖关系,同时扩大感受野。并且通过类似Inception(Szegedy等,2015)的结构加宽了网络,让网络能够自己选择不同尺度的滤波器,以便提取到更关键的特征。

2) 设计一种混合注意力机制,该注意力机制能够学习一幅特征图的空间区域和通道像素点之间的关系,以此来更好地区分重要的特征和不重要的特征,加强对高频信息的重建。

3) 加入补偿重建模块,通过在上采样的后面加入补偿重建块来解决由上采样操作放大低分辨率特征造成的突然振荡问题,有效地降低由上采样造成的信息损失,学习更为精确的SR特征。

实验结果表明,与现有方法相比,本文方法能有效地提高模型重建性能并减少一定量的参数。

1 相关工作

众多研究者在图像超分辨率领域提出了大量的网络框架和改进机制(Lai等,2017Ahn等,2018)。本节简单介绍与本文相关的Inception结构、注意力机制和上采样方法。

1.1 Inception结构

在计算机视觉任务中,同一张特征图的不同位置含有不同的信息分布。信息分布更全局性的位置偏向较大的卷积核,信息分布比较局部的图像偏向较小的卷积核,所以如何选择更为合适的卷积核比较困难。同时单纯地加深网络不仅容易产生过拟合而且非常消耗计算资源。因此,Szegedy等人(2015)在GoogLeNet中提出Inception结构来解决这些问题。

该结构如图 1所示。其本质是设计一种具有优良局部拓扑结构的网络,即对输入图像并行地执行多个卷积运算或池化操作,然后将所有结果拼接为一个非常深的特征图。因为1×1、3×3、5×5等不同卷积运算与池化操作可以获得输入图像的不同感受野大小,所以并行处理这些运算并结合所有结果可以获得更好的图像表征。

图 1 Inception结构
Fig. 1 Inception structure

为了降低算力成本,Inception作者在卷积层之前添加了额外的1×1卷积层,来限制输入通道的数量。虽然添加额外的卷积操作似乎增加了计算成本,但是1×1卷积比3×3卷积要节省很多计算空间,而且输入通道数量减少也有利于降低算力成本。添加这些额外的1×1卷积之后,就构成了可实现降维的Inception模块。而由于在超分辨率重建领域中,特征图的通道数对于重建性能有很大的帮助。所以,在本文中没有使用该方法来降低计算成本。而是采用级联的小卷积核代替大卷积核的方式减少参数。并且Inception结构只是简单地应用了多路网络,而没有考虑每条路径特征图之间的联系。这是本文改进Inception结构的重点。

1.2 注意力机制

注意力机制与人类视觉感知相似(Corbetta和Shulman,2002),两者有一个共同的特性在于不能同时处理整个视图。人类视觉系统通过接受一系列不完整的视图而有选择地捕捉重要的视觉信息。注意力机制仿其思想,被认为是重新分配可用计算特征到原网络中信息最丰富部分的指导。因此,注意力机制在目前计算机视觉任务中发挥着重要的作用。

注意力机制在高级计算机视觉任务中获得广泛的发展。Wang等人(2017)首先提出残差注意力网络,该网络使用带有编码器风格的注意力机制来实现图像分类。该注意力机制使用自底向上/自顶向下的结构来创建用于倍增的软掩膜,从而自适应地增强或抑制特征。随后,Hu等人(2020)提出的SE块在残差之后使用原始的channel-wise attention来提高分类精度。为了区分空间维度上特征的重要性,Woo等人(2018)提出CBAM(convolutional block attention module)。该模型通过同时融合通道注意力和空间注意力来提高模型的性能。

然而,注意力机制在超分辨率领域研究相对较少。RCAN首次将通道注意力模块加入到残差块内,该结构如图 2所示,其中HWC分别代表特征图的高、宽和通道数。r代表缩减和扩充的比例因子。f代表Sigmoid激活函数, HGP表示全局平均池化,WD表示对通道数目缩减,WU表示对通道数目扩充,$ \otimes $表示特征图逐元素相乘。该模型首先使用池化方法提取特征图的各通道特征,然后使用非线性映射和Sigmoid函数自适应地对关键特征学习不同的权重。最后将特征图权重与原特征图相乘以获取加权的特征图,以此来捕捉高频信息。虽然RCAN取得了良好的效果。但其内部堆叠了大量的通道注意力模块,这样会导致模型缺乏连续的卷积层来提取层次特征。并且,该算法没有使用空间注意力机制,因而无法捕捉同一通道空间上的重点特征信息。

图 2 RCAN网络的通道注意力结构
Fig. 2 Channel attention structure in RCAN network

1.3 上采样问题

在现有的超分辨率算法中,应用最广泛的上采样方式有两种,分别为反卷积和亚像素卷积。

反卷积不仅可以保持与vanilla卷积兼容的连通模式并且可以端到端地放大特征图大小,所以受到广大研究者的青睐。然而,反卷积层容易在特征图的空间上造成特征不均匀重叠。并且在两个轴上的乘法操作会出现一个特征不等的棋盘状图案,导致原特征图的信息损失,从而损害SR的性能。

作为一种端到端的上采样方法,亚像素层也广泛应用于SR模型中。与反卷积相比,其含有较大的接受域,可以提供更多的上下文信息,进而生成更准确的细节。然而,亚像素层的感受域分布不均匀,块状区域实际上共享相同的感受域,这样导致不同块的边界容易出现与该块不相关的特征,导致重建效果的振荡。

不过目前对于上采样所带来的问题研究非常少。大多数SR方法都是简单地将现有上采样方法直接加在自己的模型中,而没有去考虑上采样后对重建特征图带来的损害,这是本文补偿重建块关注的重点。

2 多尺度特征复用混合注意力网络

2.1 网络结构

图 3是本文提出的多尺度特征复用混合注意力网络总体框架图。该框架包含5个子模块,分别为:预处理模块、多尺度特征复用混合注意力模块(multi-scale feature reuse mixed attention module,MAM)、上采样模块、补偿重建模块(compensated reconstruction block,CRB)和重建模块。

图 3 多尺度特征复用混合注意力网络(MSAN)
Fig. 3 Multi-scale feature reuse mixed attention network(MSAN)

预处理模块用于提取低分辨率图像的浅层特征。与SRGAN(photo-realistic single image super-resolution using a generative adversarial network)(Ledig等,2017)相似,本模型使用一个3×3的卷积层来实现该操作。并将特征图扩展至64通道。该模块可描述为

$ \boldsymbol{R}_{0}=C_{\mathrm{pre}}\left(\boldsymbol{I}_{\mathrm{LR}}\right) $ (1)

式中,$\mathit{\boldsymbol{I}}_{\mathrm{LR}}$表示初始低分辨率图像, $\mathit{\boldsymbol{R}}_{0}$表示该模块提取到的浅层特征。$C_{\mathrm{pre}}$表示该模块中的卷积操作。

多尺度特征复用混合注意力模块(MAM)是本网络的核心模块, 其为特征学习的基础模块。该模块可描述为

$ \boldsymbol{R}_{\mathrm{DF}}=C_{\mathrm{MAM}}\left(\boldsymbol{R}_{0}\right) $ (2)

式中,$C_{\mathrm{MAM}}$表示MAM中的特征提取操作,$\boldsymbol{R}_{\mathrm{DF}}$表示该模块的输出。如图 3所示,该模块由$n$个多尺度特征复用混合注意力组(multi-scale feature reuse mixed attention group,MG)组成。每个MG由$m$个多尺度特征复用块组成。特征图通过多个MG可以获得很大的感受野,提取到更多高频信息。

上采样模块中,本文使用亚像素算法将低尺寸特征图扩展为高尺寸特征图。如图 3所示,该模块不仅需要对$\boldsymbol{R}_{\mathrm{DF}}$特征图进行上采样,还需要对第1个MG的输出($\boldsymbol{M G}_{1}$)进行上采样。然后将这两个特征图进行融合。同时这两次上采样操作的参数是共享的。该模块可以描述为

$ \boldsymbol{R}_{\mathrm{UP}}=C_{\mathrm{UP}}\left(\boldsymbol{R}_{\mathrm{DF}}\right)+C_{\mathrm{UP}}\left(\boldsymbol{M} \boldsymbol{G}_{1}\right) $ (3)

式中,$C_{\mathrm{UP}}$表示上采样操作,$\boldsymbol{R}_{\mathrm{UP}}$表示上采样后获得的特征图。

补偿重建模块(CRB)的目的是进一步弥补由于上采样操作带来的特征损失和稳定模型训练。该模块的输出可以表示为

$ \boldsymbol{R}_{\mathrm{CRB}}=C_{\mathrm{CRB}}\left(\boldsymbol{R}_{\mathrm{UP}}\right)+C_{\mathrm{UP}}\left(\boldsymbol{R}_{\mathrm{DF}}\right) $ (4)

式中,$C_{\mathrm{CRB}}$表示CRB中的特征恢复操作。为了稳定训练,本文还将之前上采样模块的$C_{\mathrm{UP}}\left(\boldsymbol{R}_{\mathrm{DF}}\right)$加入到输出结果中。

重建模块使用一个3×3的卷积层将上采样后学习到的特征图整合并形成最终的SR图像,并将特征图的通道也缩小为3通道。该模块可描述为

$ \boldsymbol{I}_{\mathrm{SR}}=C_{\mathrm{CB}}\left(\boldsymbol{R}_{\mathrm{CRB}}\right) $ (5)

式中,$C_{\mathrm{CB}}$表示的是重建操作,$\boldsymbol{I}_{\mathrm{SR}}$表示本文网络重建获得的高分辨率图像。

损失函数是网络优化的基础。其通过计算真实高分辨率图像($\boldsymbol{I}_{\mathrm{HR}}$)和本网络所得高分辨图像($\boldsymbol{I}_{\mathrm{SR}}$)之间的损失值来训练网络模型中的参数。常用的损失函数包括$L_{1}$$ L_{2}$和感知损失等。本文选择使用$L_{1}$范数损失函数,可描述为

$ L_{1}(\theta)=\frac{1}{N} \sum\limits_{i=1}^{N}\left\|I_{\mathrm{SR}}^{i}-I_{\mathrm{HR}}^{i}\right\|_{1} $ (6)

式中,$ \theta $表示整个网络中学习的参数, $N $表示每个batch含有的图像数目。

2.2 多尺度特征复用块

本节将详细介绍多尺度特征复用块(multiscale feature reuse of mixed attention blocks, MB),该特征复用块是组成MG的主要部分。

MB结构如图 4所示,整体结构在Inception网络基础上做了一定改进。首先,将池化层换成7×7的卷积以便更好地捕捉不同尺度的特征信息。并在每条路径中加入注意力机制,来加强对不同尺度高频信息的重建。其次,为了减少参数且保证特征图的感受野不变,将5×5和7×7卷积分别替换为两个级联的3×3卷积和3个级联的3×3卷积。并将短跳连接加入到MB结构中(如图 4红线所示),以进一步扩大网络的感受野并增加不同尺度特征的复用。当输入的特征图经过MB结构4条路径时,其模型可描述为

$ \left\{\begin{array}{l} \boldsymbol{F}_{1}=A\left(C\left(\boldsymbol{F}_{0}, 1\right)\right) \\ \boldsymbol{F}_{2}=A\left(C\left(\boldsymbol{F}_{0}+\boldsymbol{F}_{1}, 3\right)\right) \\ \boldsymbol{F}_{3}=A\left(C\left(\sigma\left(C\left(\boldsymbol{F}_{0}+\boldsymbol{F}_{2}, 3\right)\right), 3\right)\right) \\ \boldsymbol{F}_{4}=A\left(C\left(\sigma\left(C\left(\sigma\left(C\left(\boldsymbol{F}_{0}+\boldsymbol{F}_{1}, 3\right)\right), 3\right)\right), 3\right)\right) \end{array}\right. $ (7)

图 4 多尺度特征复用块(MB) 结构
Fig. 4 Multi-scale feature reuse block (MB) structure

式中,$C$表示卷积操作,$C\left(F_{0}, 1\right)$中的$\boldsymbol{F}_{0}$和1分别表示输入的特征和卷积核大小(下文公式中对于卷积操作的表述以此类推)。$\boldsymbol{F}_{i}(i=1, 2, 3, 4)$为各路径的特征图通过卷积和注意力机制的结果。$\sigma$表示ReLU激活函数,$A$表示通过注意力机制。

当特征图经过MB结构4条路径后,先使用短跳连接将每条路径输入前的特征和计算得到的特征进行融合。然后用Concat操作将4个特征图的通道拼接起来。再用1×1卷积融合特征并将通道数恢复至输入时的数量。最后加入注意力机制以加强高频信息的重建,具体流程如下:

$ \left\{\begin{array}{l} \boldsymbol{F}_{1}^{\prime}=\boldsymbol{F}_{0}+\boldsymbol{F}_{1} \\ \boldsymbol{F}_{2}^{\prime}=\boldsymbol{F}_{0}+\boldsymbol{F}_{1}+\boldsymbol{F}_{2} \\ \boldsymbol{F}_{3}^{\prime}=\boldsymbol{F}_{0}+\boldsymbol{F}_{2}+\boldsymbol{F}_{3} \\ \boldsymbol{F}_{4}^{\prime}=\boldsymbol{F}_{0}+\boldsymbol{F}_{3}+\boldsymbol{F}_{4} \end{array}\right. $ (8)

$ \left.\boldsymbol{F}_{\text {out }}=A\left({Concat}\left(\boldsymbol{F}_{1}^{\prime}, \boldsymbol{F}_{2}^{\prime}, \boldsymbol{F}_{3}^{\prime}, \boldsymbol{F}_{4}^{\prime}\right), 1\right)\right)+\boldsymbol{F}_{0} $ (9)

式中,$\boldsymbol{F}_{i}^{\prime}(i=1, 2, 3, 4)$为各个路径最终的输出。$\boldsymbol{F}_{\text {out }}$表示MB结构最终的输出。

现有的深度学习模型之所以在各种任务中取得了巨大成功,足够深和足够宽的网络起到了至关重要的作用。在计算机视觉领域,往往只是通过增加网络深度来提高模型的性能。本文设计的MB结构,通过结合Inception增加网络宽度方法和RCAN增加网络深度方法来提高特征图的感受野并获得不同尺度的感受野。最后的实验表明,该方法取得了很好的效果。

2.3 混合注意力机制

目前已有的注意力机制存在通道注意力机制无法学习每个通道上的空间特征依赖关系以及空间注意力机制无法学习特征图每个通道的特征依赖关系的问题。因此,计算机视觉研究者开始探索使用混合注意力机制解决该问题。CBAM和CSAR(chan-nel-wise and spatial feature modulation network for single image super-resolution)(Hu等,2019)在图像分类问题中首先设计出结合两种注意力机制的网络框架,并且获得了较好的效果。但其设计的空间注意力机制都是沿着通道轴的同一空间位置进行池化,会产生只有一个通道的空间特征权重图。该操作会导致与特征图每个通道相乘时的权重是相同的,并且只能关注大小为1×1的空间域。针对该问题,MAMNet(multi-path adaptive modulation network)(Kim等,2018)提出使用深度可分离卷积(depthwise convolution, DC)来设计空间注意力机制。DC可以学习特征图每个通道上的空间依赖关系。并且它由与特征图数量相同的滤波器组成。滤波器的每个通道对特征图相应通道进行卷积,没有通道间的特征融合,专注于空间信息的提取。由于DC滤波器的大小可以调整,所以其能够关注同一个通道上局部区域内的空间特征依赖关系。

受MAMNet和Xception(Chollet,2017)的启发,本文设计了一种混合注意力(mixed attention,MA)机制。如图 5所示,先用深度可分离卷积提取每个通道空间上的特征依赖关系,再用1×1卷积学习每个通道间的相关性。与CBAM、CSAR和MAMNet等混合注意力机制不同,MA将SA和CA结合在一个通道上。该操作可以分别提取通道和空间特征关系,既能简化网络并节约计算成本,又能取得良好的注意力效果。本文选取5×5大小的DC来提取空间特征关系。其操作为

$ \boldsymbol{F}_{\text {out }}=\boldsymbol{F}_{0} \times\left(\sigma\left(C_{p}\left(\delta\left(C_{d}\left(\boldsymbol{F}_{0}, 5\right)\right), 1\right)\right)\right) $ (10)

图 5 混合注意力模块(MA)结构
Fig. 5 Structure of mixed attention module (MA)

式中, $\boldsymbol{F}_{0}$$\boldsymbol{F}_{\text {out }}$分别表示输入和输出,$C_{p}$$C_{d}$分别表示普通卷积和深度可分离卷积操作, $\sigma$$\delta$分别表示Sigmoid和ReLU操作。

2.4 补偿重建块

现有基于CNN的超分辨率重建算法通常在网络的后端加入上采样层来扩大特征图的尺寸,并直接重建得到最后的SR图像。然而由于现有上采样算子在放大低分辨率特征时会造成信息损失和模型训练不稳定的问题。本文提出加入补偿重建块(CRB)进行特征补偿和稳定模型训练。

首先将MAM中第1个MG获得的特征图和整个MAM获得的特征分别进行上采样。其次使用残差学习对上采样后的特征图进行融合。该操作既能捕获互补的SR特征,又能有效地降低由上采样造成的信息损失。最后,利用一个细化块CRB来学习更加准确的SR特征,以提高训练时模型的稳定性。CRB的结构如图 6所示。

图 6 补偿重建块(CRB)结构
Fig. 6 Compensation reconstruction block (CRB) structure

该结构含有两个子块,每个子块的数学建模过程和最后的输出为

$ \boldsymbol{F}_{1}=A\left(C\left(\sigma\left(C\left(\boldsymbol{F}_{0}, 3\right)\right), 3\right)\right)+\boldsymbol{F}_{0} $ (11)

$ \boldsymbol{F}_{2}=A\left(C\left(\sigma\left(C\left(\boldsymbol{F}_{1}, 3\right)\right), 3\right)\right)+\boldsymbol{F}_{1} $ (12)

式中,$\boldsymbol{F}_{0} $表示CRB的输入,$ \boldsymbol{F}_{1} $$\boldsymbol{F}_{2} $分别表示第1个子块和第2个子块的输出。由于CRB中加入了短跳连接和注意力机制,在特征图经过CRB时,特征图上的高频信息进一步被加强,同时能弥补由于上采样导致的信息损失。

3 实验

本文模型通过Pytorch深度学习框架搭建。所有的实验都是在Ubuntu 18.04.3 LTS系统的服务器上实现,该服务器拥有内存为32 GB的Intel® CoreTM i9-9900KF CPU和内存为11 GB的NVIDIA GeForce RTX 2080 GPU。

3.1 设置

1) 数据集。本文使用DIV2K(DIVerse 2K)(Timofte等,2018)作为训练集。该数据集包含1 000幅高分辨率图像。其中800幅训练图像,100幅验证图像和100幅测试图像。其低分辨率图像可通过插值获取。使用4个基准测试集,Set5(Bevilacqua等,2012),Set14(Zeyde等,2010),BSD100(Berkeley segmentation dataset)(Martin等,2001)和Urban100(Huang等, 2015)来测试本文方法。

2) 评价指标。采用峰值信噪比(peak signal-to-noise ratio, PSNR)(Zhang等, 2018c)和结构相似性(structural similarity index measure, SSIM)(Wang等,2004)对重建图像进行评估。

3) 训练设置。首先对800幅训练图像随机旋转90°、180°、270°和水平翻转来获得更多的增强图像。每批训练时,随机抽取16个大小为48×48像素的LR图像作为输入。本文模型参数使用ADAM(adaptive momentum estimation)算法进行优化,其中优化器的参数为:β1=0.9,β2=0.999,ε=10-8(β1为第1次估计的指数衰减率,β2为第2次估计的指数衰减率,ε用来避免除数变为0)。初始的学习率设为10-4,每训练200个epoch学习率下降一半。在消融实验中,模型训练的epoch设为400。在量化评价和视觉效果分析实验中,epoch设为800。

4) 模型设置。在消融、量化评价和视觉效果分析实验中,本文将模型的大小都设为:MAM中包含2个MG模块,每个MG模块中包含1个MB模块。

3.2 CRB和MA机制对本文模型的影响

本节将进行消融实验来分别讨论CRB和MA机制对整个模型的影响。实验结果如表 1所示。

表 1 有无MA和CRB在×2因子上训练后测试的表现
Table 1 Test performance with or without MA and CRB after training on ×2 factor

下载CSV
尺度因子 类型 MA CRB 参数量 Set5
PSNR(/dB)/SSIM
Set14
PSNR(/dB)/SSIM
BSD100
PSNR(/dB)/SSIM
Urban100
PSNR(/dB)/SSIM
×2 No CRB × 804 635 37.84/0.960 0 33.40/0.915 6 32.06/0.898 4 31.60/0.923 2
No MA × 894 107 37.80/0.959 9 33.39/0.915 9 32.05/0.898 0 31.55/0.922 6
No CRB&MA × × 746 395 37.72/0.959 5 33.28/0.915 0 31.99/0.897 4 31.26/0.919 5
完整模型 963 995 37.88/0.960 1 33.47/0.916 4 32.11/0.898 7 31.79/0.925 1
注:加粗字体为每列最优值。

1) CRB对整个模型的影响。表 1中第2行描述了只使用MA机制而未使用CRB的重建效果。与第5行(使用MA机制和CRB)获得的效果对比可知,其在基准测试集Set5、Set14、BSD100和Urban100上的PSNR值分别下降了0.04 dB、0.07 dB、0.05 dB和0.19 dB。并且SSIM值也都有明显下降。这说明CRB可以通过弥补特征图信息损失和稳定模型训练来提高模型的性能。特别是在Urban100测试集上的效果非常好。由于Urban100数据集中存在大量的边缘和纹理等高频信息,这说明CRB在上采样层后做了大量的高频信息弥补工作。

2) MA对整个模型的影响。表 1中第3行描述了只使用CRB而未使用MA机制的重建效果。与第5行获取的效果对比可知,在基准测试集上的PSNR值分别下降了0.08 dB、0.08 dB、0.06 dB和0.24 dB,同时在SSIM上的测试指标也都有下降。说明MA机制在提高模型性能上发挥着重要的作用,并且在Urban100上的提高效果比CRB更好,这证明MA机制对高频信息的提取至关重要。

为了进一步观察本文设计的MA机制性能,本节还将网络中第1个MB在通过1×1卷积缩放通道的特征图与随后通过MA机制的特征图进行对比。如图 7所示,其中图 7(a)表示通过MA机制前的特征图,图 7(b)表示通过MA机制后的特征图,通过对比可以发现,图 7(a)相比图 7(b)包含更多诸如面部等低频信息,而图 7(b)的边缘和纹理等高频信息更加突出,并且在很大程度上抑制了低频信息。为了更直观地对比,本节将特征图的第28通道单独拿出来对比,如图 7(c)(d)所示,图 7(c)为通过MA机制前,图 7(d)为通过后,右侧长矩形为色度条,色度条越往下代表着越高频的信息,反之则为低频信息。通过对比可以发现,通过MA机制的特征图在帽子的纹理和脸部边缘等高频信息上更加突出。综上所得,本文提出的注意力机制具有良好的性能。

图 7 通过MA前后特征图对比
Fig. 7 Comparison of feature maps before and after MA
((a) the feature maps before MA; (b) the feature maps after MA; (c) the 28th channel before MA; (d) the 28th channel after MA)

3) 同时无CRB和MA机制对整个模型的影响。表 1第4行描述了两种结构都未使用的重建效果。与第5行获取的效果对比可知,在4个基准测试集上比原模型的PSNR值分别下降了0.16 dB、0.19 dB、0.12 dB和0.53 dB。较之前实验单一去除MA机制和CRB的实验结果下降得更多,进一步说明了MA机制和CRB对于本文模型的重要性。

4) 收敛性分析。本节在模型的收敛性上进行了分析,如图 8所示。根据图 8可以发现,同时具有MA机制和CRB的模型在训练相同的epoch时,最终的PSNR值取得了最高结果, 而且loss值也下降得最低。以此可以说明, 同时具有MA机制和CRB的模型具有最好的收敛性和最好的性能。

图 8 有无CRB和MA模型收敛性对比
Fig. 8 Comparisons of different convergence curves obtained with and without CRB and MA models

综上,MA机制和CRB对提高本文模型的性能都有很大的作用,都是不可或缺的。同时也证明了本文提出的MA机制和CRB在超分辨率重建模型中的有效性。

3.3 MA机制与现有注意力机制性能比较

为了进一步分析提出的注意力机制的有效性,本节将其与现有的注意力机制进行有效性对比。为了对比的公平性,本节使用MAMNet框架作为基础框架(残差块设为16),将本文的注意力机制加入到该基础框架中进行对比,并且本节所需要对比的数据也引自MAMNet。因此,本节实验对比结果更具有说服力。

实验结果如表 2所示。本文提出的注意力机制对比基准模型、MAMNet、RCAB和CBAM增加了少量参数,但在Set5、Set14和BSD100测试集上都取得了最优效果。例如,对比CBAM同时有SA和CA时,本文的注意力机制在Set5、Set14和BSD100上分别比其高0.10 dB、0.07 dB和0.06 dB。与CSAR相比,本文提出的注意力机制不仅获得的重建效果更优,且使用了更少的参数量。并且本文的注意力机制将空间注意力和通道注意力结合在一条路径中,在加载模型时可以节省更多的内存空间。

表 2 各种注意力机制在缩放因子为×2的基准测试数据集上的表现
Table 2 The performance of various attention mechanisms on the benchmark data set with a scaling factor of ×2

下载CSV
基准模型 本文 MAMNet RCAB CBAM CSAR
CA × × × ×
SA × × × × ×
参数量/k 1 370 1 463 1 379 1 380 1 389 1 379 1 379 1 371 1 381 1 379 1 505 1 646
PSNR/dB(Set5) 37.90 37.99 37.93 37.95 37.98 37.96 37.91 37.84 37.89 37.96 37.91 37.96
PSNR/dB(Set14) 33.58 33.61 33.55 33.59 33.57 33.58 33.51 33.52 33.54 33.58 33.56 33.57
PSNR/dB(BSD100) 32.17 32.17 32.17 32.17 32.17 32.17 32.14 32.12 32.11 32.17 32.14 32.16
PSNR/dB(Urban100) 32.13 32.04 32.26 32.13 32.28 32.24 32.14 31.93 32.01 32.24 32.02 32.29
注:加粗字体为每行最优值。

因此,本文设计的混合注意力机制对比现有的注意力机制有一定性能提高。

3.4 量化评价

为了进一步验证本文算法的有效性,将其与现有较新且与本文模型参数量相当的算法进行对比。对比算法包括SRCNN、VDSR、LapSRN(deep Laplacian pyramid super-resolution networks)(Lai等,2017)、MemNet(memory network for image restoration)(Tai等,2017)、SRMDNF(super-resolution network for multiple degradations)(Zhang等,2018a)、CARN(cascading residual network)(Ahn等,2018)、MAMNet和精简版的RCAN(RCAN-mini)。

表 3所示,对于PSNR指标,当缩放因子为×2时,本文算法除了在Urban100测试集上比MAMNet略低以外,在其他3个测试集上都取得了最佳结果。特别是与CARN相比,本文算法不仅参数量较少,而且在Set5测试集上的重建效果比CARN高0.20 dB。当缩放因子为×3和×4时,本文算法在所有测试集上都获得了最高的PSNR值。例如,当缩放因子为×4时,在测试集Urban100上,本文算法比与其参数量相当的RCAN-mini算法测试得到的结果高0.25 dB。对于SSIM指标,本文算法在所有缩放因子的测试集上都获得最佳重建效果,特别是在Urban100测试集上效果更为明显。例如,当缩放因子为×3时,在Urban100测试集上,本文算法比使用参数量更多的SRMDNF算法高0.014 2, 并且Urban100测试集中的图片含有大量的边缘和纹理等高频信息。这说明本文方法在对边缘和纹理等高频信息的重建中具有优异的性能。

表 3 本文方法与最新SR方法对比结果
Table 3 Comparison results obtained by using the proposed method and the latest SR methods

下载CSV
尺度因子 方法 参数量/k Set5
PSNR(/dB)/SSIM
Set14
PSNR(/dB)/SSIM
BSD100
PSNR(/dB)/SSIM
Urban100
PSNR(/dB)/SSIM
×2 SRCNN(Dong等,2014) 8 36.66/0.929 9 30.24/0.868 8 29.56/0.843 1 26.88/0.840 3
×2 VDSR(Kim等,2016) 666 37.53/0.958 7 33.03/0.914 2 31.90/0.896 0 30.76/0.914 0
×2 LapSRN(Lai等,2017) 407 37.52/0.959 1 32.99/0.912 4 31.80/0.895 2 30.41/0.910 3
×2 MemNet(Tai等,2017) 686 37.78/0.959 7 33.23/0.914 2 32.08/0.897 8 31.31/0.919 5
×2 SRMDNF(Zhang等,2018a) 1 511 37.79/0.960 1 33.32/0.915 9 32.05/0.898 5 31.33/0.920 4
×2 CARN(Ahn等,2018) 1 592 37.76/0.959 0 33.52/0.916 6 32.09/0.897 8 31.92/0.925 6
×2 MAMNet (Kim等,2018) 942 37.82/0.959 2 33.48/0.917 1 32.12/0.898 3 32.05/0.926 4
×2 RCAN-mini(Zhang等,2018c) 1 007 37.89/0.960 1 33.41/0.916 2 32.10/0.898 6 31.81/0.925 2
×2 MSAN(本文) 964 37.96/0.960 4 33.56/0.917 1 32.16/0.899 3 32.01/0.927 2
×3 SRCNN 8 32.75/0.909 0 29.30/0.821 5 28.41/0.786 3 26.24/0/7989
×3 VDSR 666 33.66/0.921 3 29.77/0.831 4 28.82/0.797 6 27.14/0.827 9
×3 MemNet 686 34.09/0.924 8 30.00/0.835 0 28.96/0.800 1 27.56/0.837 6
×3 SRMDNF 1 528 34.12/0.925 4 30.04/0.838 2 28.97/0.802 5 27.57/0.839 8
×3 CARN 1 592 34.29/0.925 5 30.29/0.840 7 29.06/0.803 4 28.06/0.849 3
×3 MAMNet 1 127 34.30/0.925 6 30.32/0.841 7 29.07/0.803 9 28.12/0.850 7
×3 RCAN-mini 1 192 34.25/0.926 1 30.27/0.841 0 29.04/0.803 6 27.99/0.848 5
×3 MSAN(本文) 1 148 34.40/0.927 3 30.35/0.842 7 29.11/0.805 2 28.23/0.854 0
×4 SRCNN 8 30.48/0.862 8 27.50/0.751 3 26.90/0.710 1 24.52/0.722 1
×4 VDSR 666 31.35/0.883 8 28.01/0.767 4 27.29/0.725 1 25.18/0.752 4
×4 LapSRN 814 31.54/0.885 2 28.09/0.770 0 27.32/0.727 5 25.21/0.756 2
×4 MemNet 686 31.74/0.889 3 28.26/0.772 3 27.40/0.728 1 25.50/0.763 0
×4 SRMDNF 1 552 31.96/0.892 5 28.35/0.778 7 27.49/0.733 7 25.68/0.733 1
×4 CARN 1 592 32.13/0.893 7 28.60/0.780 6 27.58/0.734 6 26.07/0.783 7
×4 MAMNet 1 090 32.13/0.893 2 28.54/0.780 0 27.56/0.735 0 26.05/0.783 4
×4 RCAN-mini 1 155 32.03/0.892 4 28.49/0.779 1 27.51/0.733 9 25.88/0.779 3
×4 MSAN(本文) 1 112 32.16/0.895 0 28.61/0.782 1 27.58/0.735 9 26.13/0.786 9
注:加粗字体为同一尺度因子下的每列最优值。

3.5 视觉效果分析

除了使用PSNR和SSIM两项量化指标评价本文算法,本节还通过视觉效果对重建图像进行可视化分析。本节实验从Urban100测试集和Set14测试集中选取多幅图像进行可视化对比。

图 9展示了Img042在缩放因子为×2时使用不同算法获得的重建结果。通过对比本文模型和其他模型对于Img042上类似梯子形状的边缘重建效果可以发现,本文模型对于边缘和纹理等高频信息的重建效果更好,并且更加真实。图 10展示了Zebra在缩放因子为×3时使用不同算法获得的重建结果。由于LapSRN方法不能重建×3的LR图像,所以在图 10中没有LapSRN重建的图像。通过对比重建图像中斑马身上的条纹可以发现,本文方法对于黑白条纹边缘的重建效果最为清晰。图 11展示了Img056在缩放因子为×4时使用不同算法获得的重建结果。通过对比对于天花板的重建效果可以发现,本文模型可以更好地区分背景和重点信息,重建效果更贴近从原高分辨率图像中截取的HR图像。

图 9 缩放因子为×2时各模型重建结果对比
Fig. 9 Comparison of the reconstruction results of each model with a scaling factor of ×2
图 10 缩放因子为×3时各模型重建结果对比
Fig. 10 Comparison of the reconstruction results of each model with a scaling factor of ×3
图 11 缩放因子为×4时各模型重建结果对比
Fig. 11 Comparison of the reconstruction results of each model with a scaling factor of ×4

4 结论

本文提出一种基于多尺度特征复用混合注意力的网络模型用于图像的超分辨率重建。主要方法包括:1)针对现有网络通过单纯加深网络而导致参数量过多及训练困难等问题,设计了一种多尺度特征复用网络,该网络继承了深度网络和宽度网络的优点,可以在保证重建效果的同时降低网络的参数量;2)针对现有注意力机制重建高频信息困难等问题,设计了一种混合注意力机制来更好地捕捉高频信息;3)针对上采样引起的信息损失和训练振荡问题,设计了一种补偿重建结构来提升重建效果。实验结果表明,本文模型在客观评价和主观视觉上较之前方法都有了一定提升。

虽然本文模型在实验中获得了较好的重建效果,但该工作仍有许多问题需要完善。如,由于本文采用的是多路学习网络作为基础模块,所以模型在训练和测试时都比其他同量级的模型耗时更长,并且占用内存空间更大。因此,如何解决由于多路网络带来的耗时和空间问题是后续工作需要研究的方向。

参考文献

  • Ahn N, Kang B and Sohn K A. 2018. Fast, accurate, and lightweight super-resolution with cascading residual network//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 256-272[DOI: 10.1007/978-3-030-01249-6_16]
  • Bevilacqua M, Roumy A, Guillemot C and Morel M L A. 2012. Low-complexity single-image super-resolution based on nonnegative neighbor embedding//Proceedings of British Machine Vision Conference. Surrey, UK: BMVA: #135[DOI: 10.5244/C.26.135]
  • Chollet F. 2017. Xception: deep learning with depthwise separable convolutions//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 1800-1807[DOI: 10.1109/CVPR.2017.195]
  • Corbetta M, Shulman G L. 2002. Control of goal-directed and stimulus-driven attention in the brain. Nature Reviews Neuroscience, 3(3): 201-215 [DOI:10.1038/nrn755]
  • Dai T, Cai J R, Zhang Y B, Xia S T and Zhang L. 2019. Second-order attention network for single image super-resolution//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 11057-11066[DOI: 10.1109/CVPR.2019.01132]
  • Dong C, Loy C C, He K M and Tang X O. 2014. Learning a deep convolutional network for image super-resolution//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 184-199[DOI: 10.1007/978-3-319-10593-2_13]
  • Hu J, Shen L, Albanie S, Sun G, Wu E H. 2020. Squeeze-and-excitation networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(8): 2011-2023 [DOI:10.1109/TPAMI.2019.2913372]
  • Hu Y T, Li J, Huang Y F, Gao X B. 2019. Channel-wise and spatial feature modulation network for single image super-resolution. IEEE Transactions on Circuits and Systems for Video Technology, 30(11): 3911-3927 [DOI:10.1109/TCSVT.2019.2915238]
  • Huang J B, Singh A and Ahuja N. 2015. Single image super-resolution from transformed self-exemplars//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 5197-5206[DOI: 10.1109/CVPR.2015.7299156]
  • Jin Z, Iqbal M Z, Bobkov D, Zou W B, Li X, Steinbach E. 2020. A flexible deep CNN framework for image restoration. IEEE Transactions on Multimedia, 22(4): 1055-1068 [DOI:10.1109/TMM.2019.2938340]
  • Kim J, Lee J K and Lee K M. 2016. Accurate image super-resolution using very deep convolutional networks//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1646-1654[DOI: 10.1109/CVPR.2016.182]
  • Kim J H, Choi J H, Cheon M and Lee J S. 2018. MAMNet: multi-path adaptive modulation network for image super-resolution[EB/OL]. [2020-08-31]. https://arxiv.org/pdf/1811.12043.pdf
  • Lai W S, Huang J B, Ahuja N and Yang M H. 2017. Deep Laplacian pyramid networks for fast and accurate super-resolution//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5835-5843[DOI: 10.1109/CVPR.2017.618]
  • Ledig C, Theis L, Huszár F, Caballero J, Cunningham A, Acosta A, Aitken A, Tejani A, Totz J, Wang Z H and Shi W Z. 2017. Photo-realistic single image super-resolution using a generative adversarial network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 105-114[DOI: 10.1109/CVPR.2017.19]
  • Li Z Z. 2019. Image super-resolution using attention based densenet with residual deconvolution[EB/OL]. [2020-08-31]. https://arxiv.org/pdf/1907.05282.pdf
  • Lim B, Son S, Kim H, Nah S and Lee K M. 2017. Enhanced deep residual networks for single image super-resolution//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, USA: IEEE: 1132-1140[DOI: 10.1109/CVPRW.2017.151]
  • Liu D, Wen B H, Fan Y C, Loy C C and Huang T S. 2018. Non-local recurrent network for image restoration//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal, Canada: NeurIPS: 1680-1689[DOI: 10.5555/3326943.3327097]
  • Martin D, Fowlkes C, Tal D and Malik J. 2001. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics//Proceedings of the 8th IEEE International Conference on Computer Vision. Vancouver, Canada: IEEE: 416-423[DOI: 10.1109/ICCV.2001.937655]
  • Shi W Z, Caballero J, Huszár F, Totz J, Aitken A P, Bishop R, Rueckert D and Wang Z H. 2016. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1874-1883[DOI: 10.1109/CVPR.2016.207]
  • Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V and Rabinovich A. 2015. Going deeper with convolutions//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 1-9[DOI: 10.1109/CVPR.2015.7298594]
  • Tai Y, Yang J, Liu X M and Xu C Y. 2017. MemNet: a persistent memory network for image restoration//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 4549-4557[DOI: 10.1109/ICCV.2017.486]
  • Timofte R, Gu S H, Wu J Q, van Gool L, Zhang L, Yang M H, Haris M, Shakhnarovich G, Ukita N, Hu S J, Bei Y J, Hui Z, Jiang X, Gu Y N, Liu J, Wang Y F, Perazzi F, Mcwilliams B, Sorkine-Hornung A, Sorkine-Hornung O, Schroers C, Yu J H, Fan Y C, Yang J C, Xu N, Wang Z W, Wang X C, Huang T S, Wang X T, Yu K, Hui T W, Dong C, Lin L, Loy C C, Park D, Kim K, Chun S Y, Zhang K, Liu P, Zuo W M, Guo S, Liu J Y, Xu J C, Liu Y J, Xiong F Y, Dong Y, Bai H L, Damian A, Ravi N, Menon S, Rudin C, Seo J, Jeon T, Koo J, Jeon S, Kim S Y, Choi J S, Ki S, Seo S, Sim H, Kim S, Kim M, Chen R, Zeng K, Guo J K, Qu Y Y, Li C H, Ahn N, Kang B, Sohn K A, Yuan Y, Zhang J W, Pang J H, Xu X Y, Zhao Y, Deng W, Hussain S U, Aadil M, Rahim R, Cai X W, Huang F, Xu Y S, Michelini P N, Zhu D, Liu H W, Kim J H, Lee J S, Huang Y W, Qiu M, Jing L T, Zeng J H, Wang Y, Sharma M, Mukhopadhyay R, Upadhyay A, Koundinya S, Shukla A, Chaudhury S, Zhang Z, Hu Y H and Fu L Z. 2018. NTIRE 2018 challenge on single image super-resolution: methods and results//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake City, USA: IEEE: 965.1-965.11[DOI: 10.1109/CVPRW.2018.00130]
  • Tong T, Li G, Liu X J and Gao Q Q. 2017. Image super-resolution using dense skip connections//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 4809-4817[DOI: 10.1109/ICCV.2017.514]
  • Tu X G, Zhang H S, Xie M, Luo Y, Zhang Y F, Ma Z. 2019. Deep transfer across domains for face antispoofing. Journal of Electronic Imaging, 28(4): #043001 [DOI:10.1117/1.JEI.28.4.043001]
  • Wang F, Jiang M Q, Qian C, Yang S, Li C, Zhang H G, Wang X G and Tang X O. 2017. Residual attention network for image classification//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 6450-6458[DOI: 10.1109/CVPR.2017.683]
  • Wang X L, Girshick R, Gupta A and He K M. 2018. Non-local neural networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7794-7803[DOI: 10.1109/CVPR.2018.00813]
  • Wang Y F, Wang L J, Wang H Y, Li P H. 2019. Resolution-aware network for image super-resolution. IEEE Transactions on Circuits and Systems for Video Technology, 29(5): 1259-1269 [DOI:10.1109/TCSVT.2018.2839879]
  • Wang Z, Bovik A C, Sheikh H R, Simoncelli E P. 2004. Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing, 13(4): 600-612 [DOI:10.1109/TIP.2003.819861]
  • Woo S, Park J, Lee J Y and Kweon I S. 2018. CBAM: convolutional block attention module//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 3-19[DOI: 10.1007/978-3-030-01234-2_1]
  • Zeyde R, Elad M and Protter M. 2010. On single image scale-up using sparse-representations//Proceedings of the 7th International Conference on Curves and Surfaces. Avignon, France: Springer: 711-730[DOI: 10.1007/978-3-642-27413-8_47]
  • Zhang K, Zuo W M and Zhang L. 2018a. Learning a single convolutional super-resolution network for multiple degradations//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 3262-3271[DOI: 10.1109/CVPR.2018.00344]
  • Zhang Y L, Li K P, Li K, Wang L C, Zhong B N and Fu Y. 2018c. Image super-resolution using very deep residual channel attention networks//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 294-310[DOI: 10.1007/978-3-030-01234-2_18]
  • Zhang Y L, Tian Y P, Kong Y, Zhong B N and Fu Y. 2018b. Residual dense network for image super-resolution//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 2472-2481[DOI: 10.1109/CVPR.2018.00262]