发布时间: 2019-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180619
2019 | Volume 24 | Number 8

图像处理和编码

多阶段融合网络的图像超分辨率重建

沈明玉, 俞鹏飞, 汪荣贵, 杨娟, 薛丽霞

合肥工业大学计算机与信息学院, 合肥 230601

收稿日期: 2018-11-07; 修回日期: 2018-12-25

第一作者简介: 沈明玉, 1963年生, 男, 副教授, 博士, 主要研究方向为模式识别、网络与信息安全。E-mail:shenmy@126.com;
俞鹏飞, 男, 硕士研究生, 主要研究方向为深度学习、数字图像处理。E-mail:ypf716@outlook.com;
汪荣贵, 男, 教授, 博士, 主要研究方向为深度学习、智能视频处理与分析、视频大数据与云计算。E-mail:wangrgui@foxmail.com;
薛丽霞, 女, 副教授, 博士, 主要研究方向为数字图像处理、地理信息系统。E-mail:xlxzzm@163.com.

中图法分类号: TP

文献标识码: A

文章编号: 1006-8961(2019)08-1258-12

摘要

目的近年来，深度卷积神经网络成为单帧图像超分辨率重建任务中的研究热点。针对多数网络结构均是采用链式堆叠方式使得网络层间联系弱以及分层特征不能充分利用等问题，提出了多阶段融合网络的图像超分辨重建方法，进一步提高重建质量。方法首先利用特征提取网络得到图像的低频特征，并将其作为两个子网络的输入，其一通过编码网络得到低分辨率图像的结构特征信息，其二通过阶段特征融合单元组成的多路径前馈网络得到高频特征，其中融合单元将网络连续几层的特征进行融合处理并以自适应的方式获得有效特征。然后利用多路径连接的方式连接不同的特征融合单元以增强融合单元之间的联系，提取更多的有效特征，同时提高分层特征的利用率。最后将两个子网络得到的特征进行融合后，利用残差学习完成高分辨图像的重建。结果在4个基准测试集Set5、Set14、B100和Urban100上进行实验，其中放大规模为4时，峰值信噪比分别为31.69 dB、28.24 dB、27.39 dB和25.46 dB，相比其他方法的结果具有一定提升。结论本文提出的网络克服了链式结构的弊端，通过充分利用分层特征提取更多的高频信息，同时利用低分辨率图像本身携带的结构特征信息共同完成重建，并取得了较好的重建效果。

关键词

卷积神经网络; 超分辨率重建; 分层特征; 阶段特征融合; 多路径连接

Image super-resolution reconstruction via deep network based on multi-staged fusion

Shen Mingyu, Yu Pengfei, Wang Ronggui, Yang Juan, Xue Lixia

School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230601, China

Abstract

Objective Image super-resolution is an important branch of digital image processing and computer vision. This method has been widely used in video surveillance, medical imaging, and security and surveillance imaging in recent years. Super-resolution aims to reconstruct a high-resolution image from an observed degraded low-resolution one. Early methods include interpolation, neighborhood embedding, and sparse coding. Deep convolutional neural network has recently become a major research topic in the field of single image super-resolution reconstruction. This network can learn the mapping between high-and low-resolution images better than traditional learning-based methods. However, many deep learning-based methods present two evident drawbacks. First, most methods use chained stacking to create the network. Each layer of the network is only related to its previous layer, leading to weak inter-layer relationships. Second, the hierarchical features of the network are partially utilized. These shortcomings can lead to loss of high frequency components. A novel image super-resolution reconstruction method based on multi-staged fusion network is proposed to address these drawbacks. This method is used to improve the quality of image reconstruction. Method Numerous studies have shown that feature re-usage can improve the capability of the network to extract and express features. Thus, our research is based on the idea of feature re-usage. We implemented this idea through the multipath connection, which includes two forms, namely, global multipath mode and local fusion unit. First, the proposed model uses an interpolated low-resolution image as input. The feature extraction network extracts shallow features as the mixture network's input. Mixture network consists of two parts. The first one is pixel encoding network, which is used to obtain structural feature information of the image. This network presents four weight layers, each consisting of 64 filters with a size of 1×1, which can guarantee that the feature map distribution will be protected. This process is similar to those of encoding and decoding pixels. The other one is multi-path feedforward network, which is used to extract the high-frequency components needed for reconstruction. This network is formed by staged feature fusion units connected by multi-path mode. Each fusion unit is composed of dense connection, residual learning, and feature selection layers. The dense connection layer is composed of four weight layers with 32 filters with a size of 3×3. This layer is used to improve the nonlinear mapping capability of the network and extract substantial high frequency information. The residual learning layer contains a 1×1 weight layer to alleviate the vanishing gradient problem. Feature selection layer uses a 1×1 weight layer to obtain effective features. Then, the multi-path mode is used to connect different units, which could enhance the relationship between the fusion units. This mode extracts substantial effective features and increases the utilization of hierarchical features. Both sub-networks output 64 feature-maps, fusing their output features as input of reconstructed network that includes a 1×1 weight layer. Therefore, the final residual image between low-and high-resolution images can be obtained. Finally, the reconstructed image can be obtained by combining the original low-resolution and residual images. In the training process, we select the rectified linear unit as the activation function to accelerate the training process and avoid gradient vanishing. For a weight layer with a filter size of 3×3, we pad one pixel to ensure that all feature-maps have the same size, which can improve the edge information of the reconstructed image. Furthermore, the initial learning rate is set to 0.1 and then decreased to half every 10 epochs, which can accelerate network convergence. We set mini-batch size of SGD and momentum parameter to 0.9. We use 291 images as the training set. In addition, we used data augmentation (rotation 90°, 180°, 270°, and vertical flip) to augment the training set, which could avoid the overfitting problems and increase sample diversity. The network is trained with multiple scale factors (×2, ×3, and×4) to ensure that it could be used to solve the reconstruction problem of different scale factors. Result All experiments are implemented under the PyTorch framework. We use four common benchmark sets (Set5, Set14, B100, and Urban100) to evaluate our model. Moreover, we use peak signal-to-noise ratio as evaluation criteria. The images of RGB space are converted to YCbCr space. The proposed algorithm only reconstructs the luminance channel Y because human vision is highly sensitive to the luminance channel. The Cb and Cr channels are reconstructed by using the interpolation method. Experimental results on four benchmark sets for scaling factor of four are 31.69 dB, 28.24 dB, 27.39 dB, and 25.46 dB, respectively. The proposed method shows better performance and visual effects than Bicubic, A+, SRCNN, VDSR, DRCN, and DRRN. In addition, we have validated the effectiveness of the proposed components, which includes multipath mode, staged fusion unit, and pixel coding network. Conclusion The proposed network overcomes the shortcoming of the chain structure and extracts substantial high-frequency information by fully utilizing the hierarchical features. Moreover, such network simultaneously uses the structural feature information carried by the low-resolution image to complete the reconstruction together. Furthermore, techniques that include dense connection and residual learning are adopted to accelerate convergence and mitigate gradient problems during training. Extensive experiments show that the proposed method can reconstruct an image with more high-frequency details than other methods with the same preprocessing step. We will consider using the idea of recursive learning and increasing the number of training samples to optimize the model further in the subsequent work.

Key words

convolutional neural network (CNN); super-resolution reconstructions; hierarchical features; staged feature fusion; multi-path mode

0 引言

图像超分辨率重建问题是计算机视觉领域的一个经典问题。图像超分辨率重建旨在通过输入一幅或多幅低分辨率(LR)图像重建出包含丰富细节的高分辨率(HR)图像，因此图像超分辨率重建技术广泛应用于医疗影像、卫星遥感、视频监控等领域。然而对于任意的低分辨图像，其对应着无数个高分辨图像，因此图像超分辨率重建问题是一个病态问题。为了解决这个问题，人们提出了基于插值的方法^[1-2]、基于重建的方法^[3-4]以及基于学习的方法^[5-10]。其中基于学习的方法是通过学习低分辨率图像和高分辨图像之间的对应关系来获得图像的先验知识，进而预测目标高分辨率图像，并且与其他两种重建方法相比可以得到更好的重建效果，因而受到了众多研究者的关注。Yang等人^[5-7]将稀疏编码理论引入到超分辨重建领域，并且利用字典学习的方式学习高低分辨率之间的映射关系。Timofte等人^[9-10]利用K-SVD(K-singular value decomposition)方法训练出低分辨率字典，然后基于系数相等的原则，利用最小二乘法来获得高低分辨率字典的映射关系。

近年来，深度学习广泛应用于计算机视觉领域，同时出现了用于解决超分辨重建问题的各种网络模型。Dong等人^[11-12]提出了超分辨率重建卷积神经网络(SRCNN)，论证了卷积神经网络(CNN)可以通过端到端的方式学习LR到HR的映射，原理与Yang等人^[5-6]使用稀疏编码完成重建的方法完全一致。在快速的重建网络(FSRCNN)^[13]中，Dong等人将特征提取以及非线性映射放在低分辨率空间进行，最后使用去卷积完成图像重建。Shi等人^[14]提出了高效的亚像素卷积层替代Dong等人使用的去卷积层，在减少网络参数的同时，获得了更好的重建效果。

上述方法都采用浅层的网络，之后研究人员发现更深的网络重建的效果更好。Kim等人^[15]在VDSR(super-resolution using very deep convolutional networks)中采用了更深的网络以及更大的感受野，同时利用梯度裁剪、跳过连接等学习策略，加速了网络收敛。而在DRCN(deeply recursive convolutional network)^[16]中，Kim等人结合VDSR的优点，提出递归监督的学习策略，使用递归单元减少了模型的参数。Tai等人^[17]在DRRN(deeply recursive convolutional network)中提出了递归残差块，减少了网络参数，加强了对浅层特征的复用。这些模型虽然获得了较好的重建效果，但是并没有充分利用网络的性能。这些模型均采用层与层之间堆叠的方式构建模型，称为单路径前馈架构。该类结构中网络的各层联系较弱，每层提取的特征仅与其直接前驱层有关，忽略了其他前驱层的影响，使得各层提取的特征不能被充分地应用于重建过程。尽管Tai等人^[17]使用递归残差块可以在一定程度上规避单路结构的弊端，输入特征可以有效地被后继层多次使用，但是仅存在输入特征被充分利用的可能，块内其他层提取的特征仍可能得不到有效利用。

针对该问题，受Huang等人^[18]提出的密集网络(DenseNet)(其认为可以通过对提取的特征图充分利用从而取得更好的效果)的启发，本文提出了多阶段融合网络, 如图 1所示，从特征复用的角度加强网络层之间的联系，以达到充分利用网络分层特征的目的。首先，对于单路前馈网络来说，整个网络通过链式堆叠的方式连接，前一层提取的特征向后传播以后就不再被使用是不合适的。而本文使用的多路径前馈结构在加强网络层之间联系的同时使得每层提取的特征可以被充分使用，从而获得丰富的高频信息。此外，对于一个非常深的网络来说，直接提取LR空间中每个卷积层的输出是困难和不切实际的。本文提出了阶段特征融合单元(SFFU)来解决该问题。融合单元包括密集连接层、残差学习层和特征选择层。在融合单元中，每个卷积层提取的特征都可以被后继层使用，然后通过传递提取的特征，进一步提取新的特征。融合单元整合了一定阶段提取的特征，并通过自适应的方式保存提取的特征，解决了密集连接提取特征存在冗余的问题。最后，为了防止重建过程原始低分辨率空间中局部高频细节的丢失，本文利用像素编码网络编码原始低分辨特征空间中的特征，保存了局部结构信息。因此本文提出的深度网络有效地利用了网络各层提取的特征，提升了重建效果。

图 1 多阶段融合的卷积神经网络结构

Fig. 1 The architecture of multi-staged fusion convolutional neural network

本文主要贡献如下：

1) 使用多路径的连接模式，从特征复用的角度加强网络分层特征利用，以获得更加丰富的高频信息。

2) 提出了阶段特征融合单元，即多路径前馈网络组成单元。每个单元既可以使用前面几个单元提取的信息，又能充分利用自身提取的特征，最后通过自适应的方式选择其中的有效特征。

3) 使用编码网络保存低分辨率特征的结构信息用于最后的重建过程。

1 本文方法

本节将详细介绍所提出的超分辨率重建方法。如图 1所示，本文网络结构主要包括4个部分：1)提取浅层特征的特征提取网络；2)阶段特征融合单元组成的多路径前馈网络；3)用于编码结构特征的像素编码网络；4)生成最终残差图像的重建网络。网络的目的是学习低分辨率图像${\mathit{\boldsymbol{I}}_{{\rm{LR}}}}$与高分辨图像${\mathit{\boldsymbol{I}}_{{\rm{HR}}}}$之间的映射函数$M$。

1.1 特征提取网络

本文方法并不是直接完成低分辨率图像的重建，而是先将低分辨率图像使用双立方插值到目标大小，然后将插值后的${\mathit{\boldsymbol{I}}_{{\rm{LR}}}}$作为网络的输入，使用包含一个卷积层的特征提取网络(FENet)去提取插值后的${\mathit{\boldsymbol{I}}_{{\rm{LR}}}}$特征，被提取的浅层特征为

$ \boldsymbol{H}_{0}=F_{\mathrm{ext}}\left(\boldsymbol{I}_{\mathrm{LR}}\right)=\max \left(0, \boldsymbol{W} * \boldsymbol{I}_{\mathrm{LR}}+\boldsymbol{B}\right) $

(1)

式中，${\mathit{\boldsymbol{H}}_0}$表示被提取的浅层特征，该浅层特征将作为多路径前馈网络和像素编码网络的输入。${F_{{\rm{ext}}}}$表示特征提取函数，max(0, ·)表示ReLU激活函数，$\mathit{\boldsymbol{W}}$表示滤波器，$\mathit{\boldsymbol{B}}$表示偏置，*表示卷积操作，该网络的滤波器个数为64，卷积核大小为3×3。本文使用${C_{w, n}}\left( \cdot \right)$函数表示卷积激活操作，$w$表示滤波器尺寸，$n$表示滤波器个数。

1.2 多路径前馈网络

多路径前馈网络用来提取网络的深层高频信息，其通过网络中层与层之间的互连以及网络的阶段性处理实现特征的充分利用，使得到的特征更加丰富。该网络主要包括两个部分的内容，其一是网络的阶段性处理；其二是整个子网络的多路径连接模式。

1.2.1 阶段特征融合单元

在深层网络中，要联合所有层提取的特征共同完成重建是困难的，因此本文提出了阶段特征融合的概念，将网络分成不同的阶段进行处理，以实现对特征的充分利用。如图 2所示，阶段特征融合单元包含密集连接层、局部残差层和特征选择层3个部分。下面详述阶段特征融合单元。

图 2 阶段特征融合单元

Fig. 2 Staged feature fusion unit

密集连接层与密集网络^[18]连接方式相同，旨在特征复用的基础上探索全新的特征，提高特征的利用率以提取更丰富的高频信息，同时增强网络表达特征的能力。令输入特征为$\mathit{\boldsymbol{H}}$，其输出可以表示为

$ \boldsymbol{x}_{i}=C_{3, 32}\left(\left[\boldsymbol{H}, \boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{i-1}\right]\right) $

(2)

式中，${\mathit{\boldsymbol{x}}_i}$表示第$i$个卷积层的输出，卷积核的大小为3×3，滤波器个数为32，所有输出的特征图的大小和通道数量都是相同的, [·]表示将其中的特征图以级联的方式进行通道的合并。本文的密集连接层包含4个权重层，故密集连接层的输出${\mathit{\boldsymbol{H}}_{\rm{d}}}$为

$ \boldsymbol{H}_{\mathrm{d}}=\left[\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \boldsymbol{x}_{3}, \boldsymbol{x}_{4}\right] $

(3)

局部残差用来进一步融合信息流。与ResNet^[19]中描述的略有不同，本文在跳跃连接过程中引入了一个卷积层，令输入特征图为$\mathit{\boldsymbol{H}}$，则有

$ \boldsymbol{H}_{\mathrm{r}}=C_{1, 128}(\boldsymbol{H})+\boldsymbol{H}_{\mathrm{d}} $

(4)

式中，${\mathit{\boldsymbol{H}}_{\rm{r}}}$表示输出特征图。在超分辨率重建任务中，网络输入与输出之间的差距很小，引入跳跃连接时，残差图像中很多值接近0，训练容易产生梯度消失的问题。因此本文在图 2的跳跃连接过程中附加卷积核为1×1的卷积层以防止梯度消失。

特征选择层用来融合当前单元中前面卷积层提取的特征。受文献[18]中的bottleneck layer和translation layer的启发，本文提出了特征融合模块采用卷积核大小为1×1的卷积操作，滤波器个数为32，这使得网络通过学习的方式自适应地选择有效特征，则对于输入${\mathit{\boldsymbol{H}}_{\rm{r}}}$，输出为

$ \boldsymbol{H}_{j}=C_{1, 32}\left(\boldsymbol{H}_{\mathrm{r}}\right) $

(5)

式中，${\mathit{\boldsymbol{H}}_j}$表示第$j$个融合单元的输出。一方面该层可以解决由于密集连接导致的提取特征冗余度高带来的特征不均衡问题。另一方面，密集连接的方式使得特征图数量不断增多，该层可以减少特征图数量，降低网络训练难度。

1.2.2 多路径连接模式

网络被分成不同的阶段以后，就需要将它们连接起来，本文再次借用密集网络的思想，将提取的特征中可以连续向前传播$k$个单元的网络称为$k$-路径前馈网络。与密集网络不同的是，密集网络实现的是局部的密集连接，而本文实现的是在整个网络中的多路径连接。如图 3所示，图 3(a)为一阶前馈结构，即单链模式，结构与VDSR^[15]结构相同；图 3(c)为2阶前馈结构，结构与图 3(b)表示的ResNet(residual neural network)^[19]相似，但是连接时没有采用残差的方式，而是采用通道合并的形式，有助于结合前面提取的特征创造出新的特征；图 3(d)为$k$-路径前馈网络，这里将前$k$层提取的特征级联在一起后作为第$k$+1层的输入。实际中由于网络的深度不断增加，将网络所有层的特征级联到一起并不实际，因此全网络的密集连接在深层网络中是不可行的。故本文采用的连接方式只允许每个网络层最多向前传播$k$个单位(在深层网络中，$k$远小于网络的深度)。

图 3 网络层之间连接方式示意图

Fig. 3 Schematic diagram of the connection between layers

((a) single chain; (b) skipping connection; (c) channel concatenation; (d) multi-path connection)

多路径前馈结构的目的是通过加强网络层间的关联来获得更多的高频信息。本文将所有的特征融合单元都使用该方式进行连接，如图 1所示，每个SFFU提取的特征被后继$k$个SFFU充分学习，加强了层间联系，提高了特征的利用效率，使得每个融合单元可以利用不同层次的高频信息，从而深层次地提取更多更丰富的高频信息。令多路前馈结构的输入特征图表示为${\mathit{\boldsymbol{H}}_0}$，对于$k$阶前馈网络, 则有

$ \boldsymbol{H}_{1}=F_{1}\left(\boldsymbol{H}_{0}\right) $

(6)

$ \boldsymbol{H}_{2}=F_{2}\left(\left[\boldsymbol{H}_{0}, \boldsymbol{H}_{1}\right]\right) $

(7)

$ \begin{array}{c}{\vdots} \\ {\boldsymbol{H}_{k}=F_{k}\left(\left[\boldsymbol{H}_{0}, \boldsymbol{H}_{1}, \cdots, \boldsymbol{H}_{k-1}\right]\right)}\end{array} $

(8)

式中，${\mathit{\boldsymbol{H}}_j}$表示第$j$个SFFU单元输出的特征图，${F_j}\left( \cdot \right)$表示第$j$个SFFU中所有操作的集合，则对于有$D$个SFFU的$k$阶前馈网络, 其第$D$个输出为

$ \boldsymbol{H}_{D}=\boldsymbol{F}_{D}\left(\left[\boldsymbol{H}_{D-k-1}, \cdots, \boldsymbol{H}_{D-1}\right]\right) $

(9)

则整个$k$-路径前馈网络的输出为

$ \boldsymbol{H}_{\mathrm{KF}}=C_{1, 64}\left(\left[\boldsymbol{H}_{D-k}, \boldsymbol{H}_{D-k+1}, \cdots, \boldsymbol{H}_{D}\right]\right) $

(10)

即对应图 1中多路径前馈网络中最后一个卷积层，其包含64个卷积核大小为1×1的滤波器。

1.3 像素编码网络

像素编码网络是为了保存网络提取的浅层特征中的局部高频细节。由于像素编码网络(如图 1所示)由4个卷积核大小为1×1、滤波器个数为64的卷积层构成，使得特征图的局部高分辨率细节不会受到相邻像素的空间干扰，因为卷积核的大小为1×1，因此保留了浅层特征原有的结构信息。令${F_{{\rm{PE}}}}$(·)表示像素编码网络的所有操作，则对于输入特征图${\mathit{\boldsymbol{H}}_0}$，有

$ \boldsymbol{H}_{\mathrm{PE}}=F_{\mathrm{PE}}\left(\boldsymbol{H}_{0}\right) $

(11)

式中，${\mathit{\boldsymbol{H}}_{{\rm{PE}}}}$表示像素编码网络编码的浅层特征。浅层特征对重建效果也有显著影响，在重建过程中，高低分辨率图像之间的差距较小，本文使用像素编码的方式提取低分辨率图像的大部分低频特征，利用更深层的多路径前馈网络恢复更加精细的高频细节。

1.4 重构网络

重构网络的作用是将信息从特征空间映射到图像空间。在进入重构网络之前，先将多路径前馈网络提取的高频细节和像素编码保存的结构特征融合在一起，如图 1所示，将融合的特征用于最终的重建。本文的模型不是学习低分辨率图像到高分辨率图像的直接映射，而是利用一个滤波器尺寸为3×3大小的权重层去重建高分辨与低分辨率之间的残差图像${\mathit{\boldsymbol{R}}_{{\rm{GE}}}}$，具体为

$ \boldsymbol{R}_{\mathrm{GE}}=F_{\mathrm{rec}}\left(\boldsymbol{H}_{\mathrm{KF}}+\boldsymbol{H}_{\mathrm{PE}}\right) $

(12)

式中，${F_{{\rm{rec}}}}$表示重构函数，其仅包含一个卷积操作，没有经过激活函数，${\mathit{\boldsymbol{H}}_{{\rm{KF}}}}$和${\mathit{\boldsymbol{H}}_{{\rm{PE}}}}$分别来自多路径网络和编码网络，故网络最后的输出为

$ \boldsymbol{I}_{\mathrm{SR}}=M\left(\boldsymbol{I}_{\mathrm{LR}}\right)=\boldsymbol{R}_{\mathrm{CE}}+\boldsymbol{I}_{\mathrm{LR}} $

(13)

式中，${\mathit{\boldsymbol{I}}_{{\rm{SR}}}}$表示重建的高分辨图像。

1.5 训练网络

令$\mathit{\boldsymbol{\theta }}$表示网络中涉及的所有参数的集合，给定一个训练集$\left\{ {\mathit{\boldsymbol{I}}_{{\rm{LR}}}^{(i)}, \mathit{\boldsymbol{I}}_{{\rm{HR}}}^{(i)}} \right\}_{i = 1}^N$，$N$表示训练集的大小，${\mathit{\boldsymbol{I}}_{{\rm{HR}}}^{(i)}}$是低分辨率图像块${\mathit{\boldsymbol{I}}_{{\rm{LR}}}^{(i)}}$对应的原始高分辨率图像块。本文使用残差之间的最小均方误差代替高分辨率图像${\mathit{\boldsymbol{I}}_{{\rm{HR}}}}$与网络生成的高分辨率${\mathit{\boldsymbol{I}}_{{\rm{SR}}}}$之间的最小均方误差作为损失函数，具体为

$ L(\boldsymbol{\theta})=\frac{1}{2 N} \sum\limits_{i=1}^{N}\left\|\boldsymbol{R}_{\mathrm{GT}}^{(i)}-\boldsymbol{R}_{\mathrm{GE}}^{(i)}\right\|^{2} $

(14)

式中，$\mathit{\boldsymbol{R}}_{{\rm{GT}}}^{(i)} = \mathit{\boldsymbol{I}}_{{\rm{HR}}}^{(i)} - \mathit{\boldsymbol{I}}_{{\rm{LR}}}^{(i)}$表示原始高分辨率图像与低分辨率图像之间的残差图像。本文使用带有动量的随机梯度下降方法^[20]学习上述方程中的参数$\mathit{\boldsymbol{\theta }}$，动量参数设置为0.9，批量数据规模设置为128。

2 实验

本节描述实验的基本设置，在简化测试中探究本文使用的不同组件的影响，分析多路径前馈结构中$k$值的选取，最后将本文方法与经典方法进行比较。

2.1 实验设置

1) 数据集。与文献[15-17]一致，本文使用包含291幅图像的训练数据集，其中91幅图像来自Yang等人^[6]的数据集，另外200幅图像来自Berkeley Segmentation Dataset^[21]。测试时使用4个广泛使用的基准数据集作为测试集，分别为Set5测试集^[22]、Set14测试集^[23]、BSD100测试集^[21]和Urban100测试集^[8]。

2) 图像预处理。受文献[17, 24]的启发，本文对训练集进行数据增强操作，将训练集每一幅图像旋转90°、180°、和270°，并进行水平翻转，使每幅图像有8个不同的版本。接着使用MATLAB的双立方插值函数下采样所有的高分辨率图像，生成相应的高分辨率和低分辨率图像对。由于人眼对亮度通道较敏感，故本文仅对亮度通道Y进行处理，色度通道Cb、Cr使用插值的方式放大。另一方面，与文献[15-17]相同，本文训练集包含了不同尺寸的图像块(×2，×3和×4)，则对于不同尺度的超分辨率重建，仅需要训练单个模型。

3) 训练设置。为了缩小训练时间，减小存储复杂度，本文将训练图像裁剪成31×31像素大小的图像块，步长为21。为了防止过拟合，本文设置权重衰减系数为10^-4。为了加速网络的收敛，本文设置初始学习率为0.1，每隔10轮学习率减小一半，但是过大的学习率容易导致梯度爆炸的现象，为避免这种现象，本文使用VDSR^[15]提到的梯度裁剪的方法。对于权重初始化，使用He等人^[25]提出的方法，它被证明适用于激活函数为ReLU的网络。此外，对于网络中滤波器尺寸为3×3的权重层，均设置填充为1，以保证在卷积的过程中不会改变特征图尺寸的大小，确保可以恢复图像的边缘信息。

2.2 模型简化测试

本文利用模型简化测试评估提出的相关结构，这里称为组件，包括$k$-路径前馈结构(MF)、阶段特征融合单元(SFF)和像素编码模块(PE)。网络深度为22层，测试集使用Set5数据集。图 4显示了×2、×3和×4尺寸的峰值信噪比(PSNR)从开始训练到收敛整个训练过程中的变化情况, 其中黑线表示VDSR结构；蓝线表示使用多路径连接方式，如图 3(d)所示结构；绿线表示仅使用多路径前馈网络；红线表示本文使用的方法。从图 4可以看出：1)随着不同组件的依次增加，PSNR值逐渐变好。2)仅使用多路径前馈网络，在逐渐收敛过程中PSNR值波动较大，不容易收敛。3)使用像素编码网络的结构可以稳定网络的收敛，并且有一定的效果提升，尤其在放大倍数为4时。

图 4 不同放大倍数的收敛分析

Fig. 4 Convergence analysis ((a) scale factor×2; (b) scale factor×3; (c) scale factor×4)

此外，重新组合不同的组件，训练过程同上，但是这里仅训练比例因子为×2的情况，测试集使用Set5数据集，测试比例因子为×2时的平均PSNR值，得到表 1的结果。从表 1可以看出：1)使用多路径前馈结构的网络, 可以较大幅度地增加PSNR值，而其他两个组件提升不大。2)在使用两个组件组合时，多路前馈结构以及阶段特征融合的组合效果最好，但是考虑图 4中出现的收敛问题，本文同时使用了上述3种组件。上述定量和可视化分析证明了本文使用的MF、SFF和PE的有效性。

表 1 模型简化测试
Table 1 Ablation study

下载CSV

组件	MF、SFF和PE的不同组合
MF	×	√	×	×	√	√	×	√
SFF	×	×	√	×	√	×	√	√
PE	×	×	×	√	×	√	√	√
PSNR/dB	37.53	37.61	37.56	37.54	37.64	37.61	37.52	37.63
注：×表示不使用该组件，√表示使用该组件。

2.3 $k$值的学习

本节讨论多路径连接方式中$k$的取值对网络效果的影响。本文使用VDSR网络结构作为基线(即$k$=1)，整个网络有20层，然后使用不同的$k$值，观察不同的$k$值对PSNR值的影响，其结构如图 3(d)所示，连接的均为卷积层，并没有进行阶段性的处理，也没有使用编码网络。对每一个$k$值均训练50个epoch，并在Set5和Set14数据集上测试比例因子为×2、×3和×4时的平均PSNR值，如表 2所示，显示的是$k$=1, …, 6的结果。

表 2 $k$值分析
Table 2 $k$-value analysis

下载CSV

/dB
数据集	比例	$k$=1	$k$=2	$k$=3	$k$=4	$k$=5	$k$=6
Set5	×2	37.53	37.57	37.60	37.63	37.61	37.60
	×3	33.66	33.73	33.77	33.78	33.76	33.75
	×4	31.35	31.38	31.41	31.43	31.40	31.38
Set14	×2	33.03	33.13	33.18	33.18	33.18	33.15
	×3	29.77	29.83	29.92	29.93	29.94	29.93
	×4	28.01	28.07	28.10	28.11	28.09	28.10
注：加粗字体表示最优效果。

从表 2可以看出，当$k$>1时，即网络不再是单链结构时，PSNR显著增加；当$k$=4时，重建的PNSR值最好；但是随着$k$值继续增大，效果没有变好，反而逐渐变差，分析可能的原因是：随着$k$值的增大，网络的参数变多，而样本数量没有发生变化，过拟合的风险变大。因此本文在原来的291训练集上又增加了General-100数据集^[20]，在上述$k$=5和$k$=6的训练好的网络的基础上继续训练，初始学习率为0.1，再训练50个epoch。在Set5测试集上测试×2、×3和×4的尺寸。在$k$=5时，PSNR分别为37.64 dB、33.80 dB和31.47 dB；在$k$=6时，PSNR分别为37.67 dB、33.83 dB和31.49 dB，从而验证了上述分析的原因是正确的。

为了保证公平性，本文后续的实验均仅采用291数据集，因此这里认为当$k$=4时，网络的效果达到最佳。上述定量和可视化分析再次证明本文提出的多路前馈结构的有效性。

2.4 基准测试

本节将本文网络结构与几种经典的图像SR方法Bicubic、A+^[10]、SRCNN^[11]、VDSR^[15]、DRCN^[16]和DRRN^[17]进行比较，这些方法均需要将原始的低分辨率图像插值到目标大小，然后进行重建。另外，本文方法与VDSR、DRCN和DRRN方法也仅存在结构上的区别，它们在训练集以及优化器的选择和学习率的设置方式上均相同。考虑到参数的性能和数量，本文选择包含10个阶段特征融合单元的4路前馈网络作为最佳模型，深度与DRRN相同，共52层。对比时均使用峰值信噪比(PSNR)和结构相似性(SSIM)作为指标。为了保证公平性，与文献[10, 15-17]相同，本文在评估之前裁剪图像边缘附近一定数量像素，尽管本文方法不需要进行这样的操作。在基准测试集上放大2倍、3倍和4倍时的结果如表 3所示，本文方法相较于目前的经典方法在PSNR和SSIM上均有提高，其中本文算法的PSNR相比Bicubic、A+、SRCNN、VDSR、DRCN和DRRN在Set5测试集放大3倍时的结果分别提高了约3.66 dB、1.47 dB、1.3 dB、0.39 dB、0.23 dB和0.01 dB, 而SSIM则分别提高了6.18、1.58、1.56、0.33、0.2和0.02个百分点。

表 3 对于基准测试集，本文方法与其他方法的(PSNR/dB)/SSIM对比情况
Table 3 Average(PSNR/dB)/SSIM for scale factor 2, 3 and 4 on benchmark sets

下载CSV

数据集	比例	算法
数据集	比例	Bicubic	A+	SRCNN	VDSR	DRCN	DRRN	本文
Set5	×2	33.66/0.929 9	36.54/0.954 4	36.66/0.954 2	37.53/0.958 7	37.63/0.958 8	37.74/0.959 1	37.78/0.959 6
	×3	30.39/0.862 8	32.58/0.908 8	32.75/0.909 0	33.66/0.921 3	33.82/0.922 6	34.03/0.924 4	34.05/0.924 6
	×4	28.24/0.810 4	30.28/0.860 3	30.48/0.862 8	31.35/0.883 8	31.53/0.885 4	31.68/0.888 8	31.69/0.889 0
Set14	×2	30.24/0.868 8	32.28/0.905 6	32.42/0.906 3	33.03/0.912 4	33.04/0.911 8	33.23/0.913 6	33.26/0.914 4
	×3	27.55/0.774 2	29.13/0.818 8	29.28/0.820 9	29.77/0.831 4	29.76/0.831 1	29.96/0.834 9	29.97/0.835 1
	×4	26.00/0.702 7	27.32/0.749 1	27.49/0.750 3	28.01/0.767 4	28.02/0.767 0	28.21/0.772 1	28.24/0.773 0
BSD100	×2	29.56/0.843 1	31.21/0.886 3	31.36/0.887 9	31.90/0.896 0	31.85/0.894 2	32.05/0.897 3	32.06/0.897 6
	×3	27.21/0.738 5	28.29/0.783 5	28.41/0.786 3	28.82/0.797 6	28.80/0.796 3	28.95/0.800 4	28.95/0.800 7
	×4	25.96/0.667 5	26.82/0.708 7	26.90/0.710 1	27.29/0.725 1	27.23/0.723 3	27.38/0.728 4	27.39/0.727 9
Urban100	×2	26.88/0.840 3	29.20/0.893 8	29.50/0.894 6	30.76/0.914 0	30.75/0.913 3	31.23/0.918 8	31.24/0.918 9
	×3	24.46/0.734 9	26.03/0.797 3	26.24/0.798 9	27.14/0.827 9	27.15/0.827 6	27.53/0.837 8	27.52/0.837 1
	×4	23.14/0.657 7	24.32/0.718 3	24.52/0.722 1	25.18/0.752 4	25.14/0.751 0	25.44/0.763 8	25.46/0.763 0
注：加粗字体表示最优效果。

同时，本文还与网络深度从20层增加到52层的DRRN的PSNR的增幅效果进行了对比，两者仅存在网络结构的差异，得到的结果如表 4所示，DRRN-DI表示随网络深度增加DRRN的PSNR值的增幅效果，本文(DI)表示相应的本文方法的PSNR值的增幅效果，在深度同为20层的网络，本文方法的整体效果接近于DRRN-20, 但是随着网络均加深至52层时，本文的网络结构表现出了更好的效果, 且相对于前面的深度为20层的网络模型在性能上有了大幅度的提升，并且在×2、×3和×4时的平均PSNR值的增长幅度均大于DRRN。

表 4 PSNR值随网络深度的变化情况
Table 4 The change of PSNR value with network depth

下载CSV

/dB
数据集	DRRN-20	DRRN-52	DRRN-DI	本文(20)	本文(52)	本文(DI)
Set5	33.93	34.03	0.10	33.88	34.05	0.17
Set14	29.94	29.96	0.02	29.93	29.97	0.04
BSD100	28.91	28.95	0.04	28.87	28.95	0.08
Urban100	27.38	27.53	0.15	27.32	27.52	0.20

此外，本文给出了比例因子为×3的各方法重建图像的视觉效果图，如图 5-图 7所示，对于图像Baby，本文的重建方法恢复了更多的眉毛的细节信息，眉毛的边缘相较于其他方法的锐化程度更加明显；对于图像Butterfly，本文方法重建的图像包含了更多的纹理细节，与其他方法相比，本文方法在图像结构的边缘处理的效果更好，没有其他方法那么平滑；对于图像ppt3，本文方法很好地恢复了图像包含的文本细节。从以上分析可以看出，本文方法重建的图像在细节上更加丰富，并且视觉效果更好。

图 5 Set5中Baby重建效果对比图

Fig. 5 Result of super resolution on Baby image in Set5 with scale factor 3

((a) HR; (b) Bicubic; (c) A+; (d) SRCNN; (e) VDSR; (f)DRCN; (g) DRRN; (h) ours)

图 6 Set5中Butterfly重建效果对比图

Fig. 6 Result of super resolution on Butterfly image in Set5 with scale factor 3

((a) HR; (b) Bicubic; (c) A+; (d) SRCNN; (e) VDSR; (f) DRCN; (g) DRRN; (h) ours)

图 7 Set14中ppt3重建效果对比图

Fig. 7 Result of super resolution on ppt3 image in Set14 with scale factor 3

((a) HR; (b) Bicubic; (c) A+; (d) SRCNN; (e) VDSR; (f) DRCN; (g) DRRN; (h) ours)

最后，本文对模型的复杂度进行分析。由于采用卷积神经网络完成图像的重建，故模型的时间复杂度即为每个卷积层的时间复杂度之和，而单个卷积层的时间复杂度为

$ \mathrm{O}\left(M^{2} \times K^{2} \times C_{\mathrm{in}} \times C_{\mathrm{out}}\right) $

(15)

式中，$M$表示每个卷积核输出特征图的大小，$K$表示每个卷积核的大小，${C_{{\rm{in}}}}$表示输入通道数，${C_{{\rm{out}}}}$表示输出通道数。因此，对于有$D$个卷积层的卷积神经网络来说，时间复杂度为

$ \mathrm{O}\left(\sum\limits_{l=1}^{D} M_{l}^{2} \times K_{l}^{2} \times C_{l-1} \times C_{l}\right) $

(16)

式中，$l$表示第$l$个卷积层，${C_l}$表示第$l$个卷积层的输出通道数${C_{{\rm{out}}}}$，则其输入通道数${C_{{\rm{in}}}}$就是第$l - 1$个卷积层的输出通道数${C_{l - 1}}$。由于DRRN与本文提出的网络深度相同，故本文将DRRN作为比较对象。由式(16)可以看出，同为52层的网络模型，由于DRRN相当于每层均为128个滤波器尺寸为3×3的权重层，假设本文方法所有的滤波器尺寸也为3×3，在特征图大小相同的情况下，两者的时间复杂度大小取决于输入输出的通道数的乘积，DRRN每层均为128×128，而本文模型最高为256×64，故整体时间复杂度小于DRRN。DRRN采用了递归的结构使参数量在网络深度增加时没有提升，52层的网络模型对应的参数量仅有297 k, 而本文方法却达到1 675.2 k，但是递归结构的特点使得参数量的减少并没有为重建效率带来特别的提升，在重建大小为288×288像素的图像时，20层的DRRN需要0.25 s，对应相同深度的本文方法仅需要0.18 s，可见在性能上本文方法稍优于DRRN。

3 结论

本文提出了基于多阶段特征融合网络的超分辨率重建方法，主要用于解决目前许多经典的重建网络结构上的弊端，即通过改变网络的结构达到提升重建效果的目的。一方面，本文模型借鉴密集网络的连接方式，通过整个网络的多路径连接加强网络层之间的联系，达到充分利用网络分层特征的目的，从而提取更多的高频信息，提升重建质量。另一方面，本文利用1×1卷积的特性提取低分辨率特征的结构信息用于最后的重建。实验结果表明，本文方法相较于其他方法在PSNR和结构相似性上均有一定优势，且重建的图像具有更好的视觉效果。但是本文方法也存在不足之处，现有的多阶段融合网络的思想相对比较简单，在以后的工作中需要针对特征复用的网络以及模型的构建方式进行深入研究。后续的工作中，可以采取递归学习的思想减小网络参数、增加训练样本等方法进一步优化模型，并可以从进一步提高分层特征使用以及分层特征融合的角度进行探究和完善。

参考文献

[1] Li X, Orchard M T. New edge-directed interpolation[J]. IEEE Transactions on Image Processing, 2001, 10(10): 1521–1527. [DOI:10.1109/83.951537]

[2] Zhang L, Wu X L. An edge-guided image interpolation algorithm via directional filtering and data fusion[J]. IEEE Transactions on Image Processing, 2006, 15(8): 2226–2238. [DOI:10.1109/TIP.2006.877407]

[3] Dai S Y, Han M, Xu W, et al. SoftCuts:a soft edge smoothness prior for color image super-resolution[J]. IEEE Transactions on Image Processing, 2009, 18(5): 969–981. [DOI:10.1109/TIP.2009.2012908]

[4] Sun J, Xu Z B, Shum H Y. Image super-resolution using gradient profile prior[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008: 1-8.[DOI: 10.1109/CVPR.2008.4587659]

[5] Yang J C, Wright J, Huang T, et al. Image super-resolution as sparse representation of raw image patches[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008: 1-8.[DOI: 10.1109/CVPR.2008.4587647]

[6] Yang J C, Wright J, Huang T S, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861–2873. [DOI:10.1109/TIP.2010.2050625]

[7] Yang J C, Wang Z W, Lin Z, et al. Coupled dictionary training for image super-resolution[J]. IEEE Transactions on Image Processing, 2012, 21(8): 3467–3478. [DOI:10.1109/TIP.2012.2192127]

[8] Huang J B, Singh A, Ahuja N. Single image super-resolution from transformed self-exemplars[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 5197-5206.[DOI: 10.1109/CVPR.2015.7299156]

[9] Timofte R, De V, van Gool L. Anchored neighborhood regression for fast example-based super-resolution[C]//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, NSW, Australia: IEEE, 2014: 1920-1927.[DOI: 10.1109/ICCV.2013.241]

[10] Timofte R, de Smet V, van Gool L. A+: adjusted anchored neighborhood regression for fast super-resolution[M]//Cremers D, Reid I, Saito H, et al. Computer Vision-ACCV 2014. Cham: Springer, 2014: 111-126.[DOI: 10.1007/978-3-319-16817-3_8]

[11] Dong C, Loy C C, He K M, et al. Learning a deep convolutional network for image super-resolution[C]//Proceedings of European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 184-199.[DOI: 10.1007/978-3-319-10593-2_13]

[12] Dong C, Loy C C, He K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295–307. [DOI:10.1109/TPAMI.2015.2439281]

[13] Dong C, Loy C C, Tang X O. Accelerating the super-resolution convolutional neural network[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer, 2016: 391-407.[DOI: 10.1007/978-3-319-46475-6_25]

[14] Shi W Z, Caballero J, Huszár F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1874-1883.[DOI: 10.1109/CVPR.2016.207]

[15] Kim J, Lee J K, Lee K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1646-1654.[DOI: 10.1109/CVPR.2016.182]

[16] Kim J, Lee J K, Lee K M. Deeply-recursive convolutional network for image super-resolution[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1637-1645.[DOI: 10.1109/CVPR.2016.181]

[17] Tai Y, Yang J, Liu X M. Image super-resolution via deep recursive residual network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 2790-2798.[DOI: 10.1109/CVPR.2017.298]

[18] Huang G, Liu Z, van der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2016.[DOI: 10.1109/CVPR.2017.243]

[19] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2015: 770-778.[DOI: 10.1109/cvpr.2016.90]

[20] Qian N. On the momentum term in gradient descent learning algorithms[J]. Neural Networks, 1999, 12(1): 145–151. [DOI:10.1016/s0893-6080(98)00116-6]

[21] Martin D, Fowlkes C, Tal D, et al. A Database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Proceedings of the 8th IEEE International Conference on Computer Vision. Vancouver BC, Canada: IEEE, 2002: 416-423.[DOI: 10.1109/iccv.2001.937655]

[22] Bevilacqua M, Roumy A, Guillemot C, et al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding[C]//Proceedings of British Machine Vision Conference. Guildford, UK: BMVA Press, 2012.[DOI: 10.5244/c.26.135]

[23] Zeyde R, Elad M, Protter M. On single image scale-up using sparse-representations[C]//Proceedings of the 7th International Conference on Curves and Surfaces. Avignon, France: Springer, 2010: 711-730.[DOI: 10.1007/978-3-642-27413-8_47]

[24] Timofte R, Rothe R, van Gool L. Seven ways to improve example-based single image super resolution[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016.[DOI: 10.1109/CVPR.2016.206]

[25] He K M, Zhang X Y, Ren S Q, et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1026-1034.[DOI: 10.1109/ICCV.2015.123]