|
发布时间: 2019-08-16 |
图像处理和编码 |
|
|
收稿日期: 2018-11-07; 修回日期: 2018-12-25
第一作者简介:
沈明玉, 1963年生, 男, 副教授, 博士, 主要研究方向为模式识别、网络与信息安全。E-mail:shenmy@126.com;
俞鹏飞, 男, 硕士研究生, 主要研究方向为深度学习、数字图像处理。E-mail:ypf716@outlook.com; 汪荣贵, 男, 教授, 博士, 主要研究方向为深度学习、智能视频处理与分析、视频大数据与云计算。E-mail:wangrgui@foxmail.com; 薛丽霞, 女, 副教授, 博士, 主要研究方向为数字图像处理、地理信息系统。E-mail:xlxzzm@163.com.
中图法分类号: TP
文献标识码: A
文章编号: 1006-8961(2019)08-1258-12
|
摘要
目的 近年来,深度卷积神经网络成为单帧图像超分辨率重建任务中的研究热点。针对多数网络结构均是采用链式堆叠方式使得网络层间联系弱以及分层特征不能充分利用等问题,提出了多阶段融合网络的图像超分辨重建方法,进一步提高重建质量。方法 首先利用特征提取网络得到图像的低频特征,并将其作为两个子网络的输入,其一通过编码网络得到低分辨率图像的结构特征信息,其二通过阶段特征融合单元组成的多路径前馈网络得到高频特征,其中融合单元将网络连续几层的特征进行融合处理并以自适应的方式获得有效特征。然后利用多路径连接的方式连接不同的特征融合单元以增强融合单元之间的联系,提取更多的有效特征,同时提高分层特征的利用率。最后将两个子网络得到的特征进行融合后,利用残差学习完成高分辨图像的重建。结果 在4个基准测试集Set5、Set14、B100和Urban100上进行实验,其中放大规模为4时,峰值信噪比分别为31.69 dB、28.24 dB、27.39 dB和25.46 dB,相比其他方法的结果具有一定提升。结论 本文提出的网络克服了链式结构的弊端,通过充分利用分层特征提取更多的高频信息,同时利用低分辨率图像本身携带的结构特征信息共同完成重建,并取得了较好的重建效果。
关键词
卷积神经网络; 超分辨率重建; 分层特征; 阶段特征融合; 多路径连接
Abstract
Objective Image super-resolution is an important branch of digital image processing and computer vision. This method has been widely used in video surveillance, medical imaging, and security and surveillance imaging in recent years. Super-resolution aims to reconstruct a high-resolution image from an observed degraded low-resolution one. Early methods include interpolation, neighborhood embedding, and sparse coding. Deep convolutional neural network has recently become a major research topic in the field of single image super-resolution reconstruction. This network can learn the mapping between high-and low-resolution images better than traditional learning-based methods. However, many deep learning-based methods present two evident drawbacks. First, most methods use chained stacking to create the network. Each layer of the network is only related to its previous layer, leading to weak inter-layer relationships. Second, the hierarchical features of the network are partially utilized. These shortcomings can lead to loss of high frequency components. A novel image super-resolution reconstruction method based on multi-staged fusion network is proposed to address these drawbacks. This method is used to improve the quality of image reconstruction. Method Numerous studies have shown that feature re-usage can improve the capability of the network to extract and express features. Thus, our research is based on the idea of feature re-usage. We implemented this idea through the multipath connection, which includes two forms, namely, global multipath mode and local fusion unit. First, the proposed model uses an interpolated low-resolution image as input. The feature extraction network extracts shallow features as the mixture network's input. Mixture network consists of two parts. The first one is pixel encoding network, which is used to obtain structural feature information of the image. This network presents four weight layers, each consisting of 64 filters with a size of 1×1, which can guarantee that the feature map distribution will be protected. This process is similar to those of encoding and decoding pixels. The other one is multi-path feedforward network, which is used to extract the high-frequency components needed for reconstruction. This network is formed by staged feature fusion units connected by multi-path mode. Each fusion unit is composed of dense connection, residual learning, and feature selection layers. The dense connection layer is composed of four weight layers with 32 filters with a size of 3×3. This layer is used to improve the nonlinear mapping capability of the network and extract substantial high frequency information. The residual learning layer contains a 1×1 weight layer to alleviate the vanishing gradient problem. Feature selection layer uses a 1×1 weight layer to obtain effective features. Then, the multi-path mode is used to connect different units, which could enhance the relationship between the fusion units. This mode extracts substantial effective features and increases the utilization of hierarchical features. Both sub-networks output 64 feature-maps, fusing their output features as input of reconstructed network that includes a 1×1 weight layer. Therefore, the final residual image between low-and high-resolution images can be obtained. Finally, the reconstructed image can be obtained by combining the original low-resolution and residual images. In the training process, we select the rectified linear unit as the activation function to accelerate the training process and avoid gradient vanishing. For a weight layer with a filter size of 3×3, we pad one pixel to ensure that all feature-maps have the same size, which can improve the edge information of the reconstructed image. Furthermore, the initial learning rate is set to 0.1 and then decreased to half every 10 epochs, which can accelerate network convergence. We set mini-batch size of SGD and momentum parameter to 0.9. We use 291 images as the training set. In addition, we used data augmentation (rotation 90°, 180°, 270°, and vertical flip) to augment the training set, which could avoid the overfitting problems and increase sample diversity. The network is trained with multiple scale factors (×2, ×3, and×4) to ensure that it could be used to solve the reconstruction problem of different scale factors. Result All experiments are implemented under the PyTorch framework. We use four common benchmark sets (Set5, Set14, B100, and Urban100) to evaluate our model. Moreover, we use peak signal-to-noise ratio as evaluation criteria. The images of RGB space are converted to YCbCr space. The proposed algorithm only reconstructs the luminance channel Y because human vision is highly sensitive to the luminance channel. The Cb and Cr channels are reconstructed by using the interpolation method. Experimental results on four benchmark sets for scaling factor of four are 31.69 dB, 28.24 dB, 27.39 dB, and 25.46 dB, respectively. The proposed method shows better performance and visual effects than Bicubic, A+, SRCNN, VDSR, DRCN, and DRRN. In addition, we have validated the effectiveness of the proposed components, which includes multipath mode, staged fusion unit, and pixel coding network. Conclusion The proposed network overcomes the shortcoming of the chain structure and extracts substantial high-frequency information by fully utilizing the hierarchical features. Moreover, such network simultaneously uses the structural feature information carried by the low-resolution image to complete the reconstruction together. Furthermore, techniques that include dense connection and residual learning are adopted to accelerate convergence and mitigate gradient problems during training. Extensive experiments show that the proposed method can reconstruct an image with more high-frequency details than other methods with the same preprocessing step. We will consider using the idea of recursive learning and increasing the number of training samples to optimize the model further in the subsequent work.
Key words
convolutional neural network (CNN); super-resolution reconstructions; hierarchical features; staged feature fusion; multi-path mode
0 引言
图像超分辨率重建问题是计算机视觉领域的一个经典问题。图像超分辨率重建旨在通过输入一幅或多幅低分辨率(LR)图像重建出包含丰富细节的高分辨率(HR)图像,因此图像超分辨率重建技术广泛应用于医疗影像、卫星遥感、视频监控等领域。然而对于任意的低分辨图像,其对应着无数个高分辨图像,因此图像超分辨率重建问题是一个病态问题。为了解决这个问题,人们提出了基于插值的方法[1-2]、基于重建的方法[3-4]以及基于学习的方法[5-10]。其中基于学习的方法是通过学习低分辨率图像和高分辨图像之间的对应关系来获得图像的先验知识,进而预测目标高分辨率图像,并且与其他两种重建方法相比可以得到更好的重建效果,因而受到了众多研究者的关注。Yang等人[5-7]将稀疏编码理论引入到超分辨重建领域,并且利用字典学习的方式学习高低分辨率之间的映射关系。Timofte等人[9-10]利用K-SVD(K-singular value decomposition)方法训练出低分辨率字典,然后基于系数相等的原则,利用最小二乘法来获得高低分辨率字典的映射关系。
近年来,深度学习广泛应用于计算机视觉领域,同时出现了用于解决超分辨重建问题的各种网络模型。Dong等人[11-12]提出了超分辨率重建卷积神经网络(SRCNN),论证了卷积神经网络(CNN)可以通过端到端的方式学习LR到HR的映射,原理与Yang等人[5-6]使用稀疏编码完成重建的方法完全一致。在快速的重建网络(FSRCNN)[13]中,Dong等人将特征提取以及非线性映射放在低分辨率空间进行,最后使用去卷积完成图像重建。Shi等人[14]提出了高效的亚像素卷积层替代Dong等人使用的去卷积层,在减少网络参数的同时,获得了更好的重建效果。
上述方法都采用浅层的网络,之后研究人员发现更深的网络重建的效果更好。Kim等人[15]在VDSR(super-resolution using very deep convolutional networks)中采用了更深的网络以及更大的感受野,同时利用梯度裁剪、跳过连接等学习策略,加速了网络收敛。而在DRCN(deeply recursive convolutional network)[16]中,Kim等人结合VDSR的优点,提出递归监督的学习策略,使用递归单元减少了模型的参数。Tai等人[17]在DRRN(deeply recursive convolutional network)中提出了递归残差块,减少了网络参数,加强了对浅层特征的复用。这些模型虽然获得了较好的重建效果,但是并没有充分利用网络的性能。这些模型均采用层与层之间堆叠的方式构建模型,称为单路径前馈架构。该类结构中网络的各层联系较弱,每层提取的特征仅与其直接前驱层有关,忽略了其他前驱层的影响,使得各层提取的特征不能被充分地应用于重建过程。尽管Tai等人[17]使用递归残差块可以在一定程度上规避单路结构的弊端,输入特征可以有效地被后继层多次使用,但是仅存在输入特征被充分利用的可能,块内其他层提取的特征仍可能得不到有效利用。
针对该问题,受Huang等人[18]提出的密集网络(DenseNet)(其认为可以通过对提取的特征图充分利用从而取得更好的效果)的启发,本文提出了多阶段融合网络, 如图 1所示,从特征复用的角度加强网络层之间的联系,以达到充分利用网络分层特征的目的。首先,对于单路前馈网络来说,整个网络通过链式堆叠的方式连接,前一层提取的特征向后传播以后就不再被使用是不合适的。而本文使用的多路径前馈结构在加强网络层之间联系的同时使得每层提取的特征可以被充分使用,从而获得丰富的高频信息。此外,对于一个非常深的网络来说,直接提取LR空间中每个卷积层的输出是困难和不切实际的。本文提出了阶段特征融合单元(SFFU)来解决该问题。融合单元包括密集连接层、残差学习层和特征选择层。在融合单元中,每个卷积层提取的特征都可以被后继层使用,然后通过传递提取的特征,进一步提取新的特征。融合单元整合了一定阶段提取的特征,并通过自适应的方式保存提取的特征,解决了密集连接提取特征存在冗余的问题。最后,为了防止重建过程原始低分辨率空间中局部高频细节的丢失,本文利用像素编码网络编码原始低分辨特征空间中的特征,保存了局部结构信息。因此本文提出的深度网络有效地利用了网络各层提取的特征,提升了重建效果。
本文主要贡献如下:
1) 使用多路径的连接模式,从特征复用的角度加强网络分层特征利用,以获得更加丰富的高频信息。
2) 提出了阶段特征融合单元,即多路径前馈网络组成单元。每个单元既可以使用前面几个单元提取的信息,又能充分利用自身提取的特征,最后通过自适应的方式选择其中的有效特征。
3) 使用编码网络保存低分辨率特征的结构信息用于最后的重建过程。
1 本文方法
本节将详细介绍所提出的超分辨率重建方法。如图 1所示,本文网络结构主要包括4个部分:1)提取浅层特征的特征提取网络;2)阶段特征融合单元组成的多路径前馈网络;3)用于编码结构特征的像素编码网络;4)生成最终残差图像的重建网络。网络的目的是学习低分辨率图像
1.1 特征提取网络
本文方法并不是直接完成低分辨率图像的重建,而是先将低分辨率图像使用双立方插值到目标大小,然后将插值后的
$ \boldsymbol{H}_{0}=F_{\mathrm{ext}}\left(\boldsymbol{I}_{\mathrm{LR}}\right)=\max \left(0, \boldsymbol{W} * \boldsymbol{I}_{\mathrm{LR}}+\boldsymbol{B}\right) $ | (1) |
式中,
1.2 多路径前馈网络
多路径前馈网络用来提取网络的深层高频信息,其通过网络中层与层之间的互连以及网络的阶段性处理实现特征的充分利用,使得到的特征更加丰富。该网络主要包括两个部分的内容,其一是网络的阶段性处理;其二是整个子网络的多路径连接模式。
1.2.1 阶段特征融合单元
在深层网络中,要联合所有层提取的特征共同完成重建是困难的,因此本文提出了阶段特征融合的概念,将网络分成不同的阶段进行处理,以实现对特征的充分利用。如图 2所示,阶段特征融合单元包含密集连接层、局部残差层和特征选择层3个部分。下面详述阶段特征融合单元。
密集连接层与密集网络[18]连接方式相同,旨在特征复用的基础上探索全新的特征,提高特征的利用率以提取更丰富的高频信息,同时增强网络表达特征的能力。令输入特征为
$ \boldsymbol{x}_{i}=C_{3, 32}\left(\left[\boldsymbol{H}, \boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{i-1}\right]\right) $ | (2) |
式中,
$ \boldsymbol{H}_{\mathrm{d}}=\left[\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \boldsymbol{x}_{3}, \boldsymbol{x}_{4}\right] $ | (3) |
局部残差用来进一步融合信息流。与ResNet[19]中描述的略有不同,本文在跳跃连接过程中引入了一个卷积层,令输入特征图为
$ \boldsymbol{H}_{\mathrm{r}}=C_{1, 128}(\boldsymbol{H})+\boldsymbol{H}_{\mathrm{d}} $ | (4) |
式中,
特征选择层用来融合当前单元中前面卷积层提取的特征。受文献[18]中的bottleneck layer和translation layer的启发,本文提出了特征融合模块采用卷积核大小为1×1的卷积操作,滤波器个数为32,这使得网络通过学习的方式自适应地选择有效特征,则对于输入
$ \boldsymbol{H}_{j}=C_{1, 32}\left(\boldsymbol{H}_{\mathrm{r}}\right) $ | (5) |
式中,
1.2.2 多路径连接模式
网络被分成不同的阶段以后,就需要将它们连接起来,本文再次借用密集网络的思想,将提取的特征中可以连续向前传播
多路径前馈结构的目的是通过加强网络层间的关联来获得更多的高频信息。本文将所有的特征融合单元都使用该方式进行连接,如图 1所示,每个SFFU提取的特征被后继
$ \boldsymbol{H}_{1}=F_{1}\left(\boldsymbol{H}_{0}\right) $ | (6) |
$ \boldsymbol{H}_{2}=F_{2}\left(\left[\boldsymbol{H}_{0}, \boldsymbol{H}_{1}\right]\right) $ | (7) |
$ \begin{array}{c}{\vdots} \\ {\boldsymbol{H}_{k}=F_{k}\left(\left[\boldsymbol{H}_{0}, \boldsymbol{H}_{1}, \cdots, \boldsymbol{H}_{k-1}\right]\right)}\end{array} $ | (8) |
式中,
$ \boldsymbol{H}_{D}=\boldsymbol{F}_{D}\left(\left[\boldsymbol{H}_{D-k-1}, \cdots, \boldsymbol{H}_{D-1}\right]\right) $ | (9) |
则整个
$ \boldsymbol{H}_{\mathrm{KF}}=C_{1, 64}\left(\left[\boldsymbol{H}_{D-k}, \boldsymbol{H}_{D-k+1}, \cdots, \boldsymbol{H}_{D}\right]\right) $ | (10) |
即对应图 1中多路径前馈网络中最后一个卷积层,其包含64个卷积核大小为1×1的滤波器。
1.3 像素编码网络
像素编码网络是为了保存网络提取的浅层特征中的局部高频细节。由于像素编码网络(如图 1所示)由4个卷积核大小为1×1、滤波器个数为64的卷积层构成,使得特征图的局部高分辨率细节不会受到相邻像素的空间干扰,因为卷积核的大小为1×1,因此保留了浅层特征原有的结构信息。令
$ \boldsymbol{H}_{\mathrm{PE}}=F_{\mathrm{PE}}\left(\boldsymbol{H}_{0}\right) $ | (11) |
式中,
1.4 重构网络
重构网络的作用是将信息从特征空间映射到图像空间。在进入重构网络之前,先将多路径前馈网络提取的高频细节和像素编码保存的结构特征融合在一起,如图 1所示,将融合的特征用于最终的重建。本文的模型不是学习低分辨率图像到高分辨率图像的直接映射,而是利用一个滤波器尺寸为3×3大小的权重层去重建高分辨与低分辨率之间的残差图像
$ \boldsymbol{R}_{\mathrm{GE}}=F_{\mathrm{rec}}\left(\boldsymbol{H}_{\mathrm{KF}}+\boldsymbol{H}_{\mathrm{PE}}\right) $ | (12) |
式中,
$ \boldsymbol{I}_{\mathrm{SR}}=M\left(\boldsymbol{I}_{\mathrm{LR}}\right)=\boldsymbol{R}_{\mathrm{CE}}+\boldsymbol{I}_{\mathrm{LR}} $ | (13) |
式中,
1.5 训练网络
令
$ L(\boldsymbol{\theta})=\frac{1}{2 N} \sum\limits_{i=1}^{N}\left\|\boldsymbol{R}_{\mathrm{GT}}^{(i)}-\boldsymbol{R}_{\mathrm{GE}}^{(i)}\right\|^{2} $ | (14) |
式中,
2 实验
本节描述实验的基本设置,在简化测试中探究本文使用的不同组件的影响,分析多路径前馈结构中
2.1 实验设置
1) 数据集。与文献[15-17]一致,本文使用包含291幅图像的训练数据集,其中91幅图像来自Yang等人[6]的数据集,另外200幅图像来自Berkeley Segmentation Dataset[21]。测试时使用4个广泛使用的基准数据集作为测试集,分别为Set5测试集[22]、Set14测试集[23]、BSD100测试集[21]和Urban100测试集[8]。
2) 图像预处理。受文献[17, 24]的启发,本文对训练集进行数据增强操作,将训练集每一幅图像旋转90°、180°、和270°,并进行水平翻转,使每幅图像有8个不同的版本。接着使用MATLAB的双立方插值函数下采样所有的高分辨率图像,生成相应的高分辨率和低分辨率图像对。由于人眼对亮度通道较敏感,故本文仅对亮度通道Y进行处理,色度通道Cb、Cr使用插值的方式放大。另一方面,与文献[15-17]相同,本文训练集包含了不同尺寸的图像块(×2,×3和×4),则对于不同尺度的超分辨率重建,仅需要训练单个模型。
3) 训练设置。为了缩小训练时间,减小存储复杂度,本文将训练图像裁剪成31×31像素大小的图像块,步长为21。为了防止过拟合,本文设置权重衰减系数为10-4。为了加速网络的收敛,本文设置初始学习率为0.1,每隔10轮学习率减小一半,但是过大的学习率容易导致梯度爆炸的现象,为避免这种现象,本文使用VDSR[15]提到的梯度裁剪的方法。对于权重初始化,使用He等人[25]提出的方法,它被证明适用于激活函数为ReLU的网络。此外,对于网络中滤波器尺寸为3×3的权重层,均设置填充为1,以保证在卷积的过程中不会改变特征图尺寸的大小,确保可以恢复图像的边缘信息。
2.2 模型简化测试
本文利用模型简化测试评估提出的相关结构,这里称为组件,包括
此外,重新组合不同的组件,训练过程同上,但是这里仅训练比例因子为×2的情况,测试集使用Set5数据集,测试比例因子为×2时的平均PSNR值,得到表 1的结果。从表 1可以看出:1)使用多路径前馈结构的网络, 可以较大幅度地增加PSNR值,而其他两个组件提升不大。2)在使用两个组件组合时,多路前馈结构以及阶段特征融合的组合效果最好,但是考虑图 4中出现的收敛问题,本文同时使用了上述3种组件。上述定量和可视化分析证明了本文使用的MF、SFF和PE的有效性。
表 1
模型简化测试
Table 1
Ablation study
组件 | MF、SFF和PE的不同组合 | |||||||
MF | × | √ | × | × | √ | √ | × | √ |
SFF | × | × | √ | × | √ | × | √ | √ |
PE | × | × | × | √ | × | √ | √ | √ |
PSNR/dB | 37.53 | 37.61 | 37.56 | 37.54 | 37.64 | 37.61 | 37.52 | 37.63 |
注:×表示不使用该组件,√表示使用该组件。 |
2.3 $k$ 值的学习
本节讨论多路径连接方式中
表 2
Table 2
/dB | |||||||
数据集 | 比例 | ||||||
Set5 | ×2 | 37.53 | 37.57 | 37.60 | 37.63 | 37.61 | 37.60 |
×3 | 33.66 | 33.73 | 33.77 | 33.78 | 33.76 | 33.75 | |
×4 | 31.35 | 31.38 | 31.41 | 31.43 | 31.40 | 31.38 | |
Set14 | ×2 | 33.03 | 33.13 | 33.18 | 33.18 | 33.18 | 33.15 |
×3 | 29.77 | 29.83 | 29.92 | 29.93 | 29.94 | 29.93 | |
×4 | 28.01 | 28.07 | 28.10 | 28.11 | 28.09 | 28.10 | |
注:加粗字体表示最优效果。 |
从表 2可以看出,当
为了保证公平性,本文后续的实验均仅采用291数据集,因此这里认为当
2.4 基准测试
本节将本文网络结构与几种经典的图像SR方法Bicubic、A+[10]、SRCNN[11]、VDSR[15]、DRCN[16]和DRRN[17]进行比较,这些方法均需要将原始的低分辨率图像插值到目标大小,然后进行重建。另外,本文方法与VDSR、DRCN和DRRN方法也仅存在结构上的区别,它们在训练集以及优化器的选择和学习率的设置方式上均相同。考虑到参数的性能和数量,本文选择包含10个阶段特征融合单元的4路前馈网络作为最佳模型,深度与DRRN相同,共52层。对比时均使用峰值信噪比(PSNR)和结构相似性(SSIM)作为指标。为了保证公平性,与文献[10, 15-17]相同,本文在评估之前裁剪图像边缘附近一定数量像素,尽管本文方法不需要进行这样的操作。在基准测试集上放大2倍、3倍和4倍时的结果如表 3所示,本文方法相较于目前的经典方法在PSNR和SSIM上均有提高,其中本文算法的PSNR相比Bicubic、A+、SRCNN、VDSR、DRCN和DRRN在Set5测试集放大3倍时的结果分别提高了约3.66 dB、1.47 dB、1.3 dB、0.39 dB、0.23 dB和0.01 dB, 而SSIM则分别提高了6.18、1.58、1.56、0.33、0.2和0.02个百分点。
表 3
对于基准测试集,本文方法与其他方法的(PSNR/dB)/SSIM对比情况
Table 3
Average(PSNR/dB)/SSIM for scale factor 2, 3 and 4 on benchmark sets
数据集 | 比例 | 算法 | ||||||
Bicubic | A+ | SRCNN | VDSR | DRCN | DRRN | 本文 | ||
Set5 | ×2 | 33.66/0.929 9 | 36.54/0.954 4 | 36.66/0.954 2 | 37.53/0.958 7 | 37.63/0.958 8 | 37.74/0.959 1 | 37.78/0.959 6 |
×3 | 30.39/0.862 8 | 32.58/0.908 8 | 32.75/0.909 0 | 33.66/0.921 3 | 33.82/0.922 6 | 34.03/0.924 4 | 34.05/0.924 6 | |
×4 | 28.24/0.810 4 | 30.28/0.860 3 | 30.48/0.862 8 | 31.35/0.883 8 | 31.53/0.885 4 | 31.68/0.888 8 | 31.69/0.889 0 | |
Set14 | ×2 | 30.24/0.868 8 | 32.28/0.905 6 | 32.42/0.906 3 | 33.03/0.912 4 | 33.04/0.911 8 | 33.23/0.913 6 | 33.26/0.914 4 |
×3 | 27.55/0.774 2 | 29.13/0.818 8 | 29.28/0.820 9 | 29.77/0.831 4 | 29.76/0.831 1 | 29.96/0.834 9 | 29.97/0.835 1 | |
×4 | 26.00/0.702 7 | 27.32/0.749 1 | 27.49/0.750 3 | 28.01/0.767 4 | 28.02/0.767 0 | 28.21/0.772 1 | 28.24/0.773 0 | |
BSD100 | ×2 | 29.56/0.843 1 | 31.21/0.886 3 | 31.36/0.887 9 | 31.90/0.896 0 | 31.85/0.894 2 | 32.05/0.897 3 | 32.06/0.897 6 |
×3 | 27.21/0.738 5 | 28.29/0.783 5 | 28.41/0.786 3 | 28.82/0.797 6 | 28.80/0.796 3 | 28.95/0.800 4 | 28.95/0.800 7 | |
×4 | 25.96/0.667 5 | 26.82/0.708 7 | 26.90/0.710 1 | 27.29/0.725 1 | 27.23/0.723 3 | 27.38/0.728 4 | 27.39/0.727 9 | |
Urban100 | ×2 | 26.88/0.840 3 | 29.20/0.893 8 | 29.50/0.894 6 | 30.76/0.914 0 | 30.75/0.913 3 | 31.23/0.918 8 | 31.24/0.918 9 |
×3 | 24.46/0.734 9 | 26.03/0.797 3 | 26.24/0.798 9 | 27.14/0.827 9 | 27.15/0.827 6 | 27.53/0.837 8 | 27.52/0.837 1 | |
×4 | 23.14/0.657 7 | 24.32/0.718 3 | 24.52/0.722 1 | 25.18/0.752 4 | 25.14/0.751 0 | 25.44/0.763 8 | 25.46/0.763 0 | |
注:加粗字体表示最优效果。 |
同时,本文还与网络深度从20层增加到52层的DRRN的PSNR的增幅效果进行了对比,两者仅存在网络结构的差异,得到的结果如表 4所示,DRRN-DI表示随网络深度增加DRRN的PSNR值的增幅效果,本文(DI)表示相应的本文方法的PSNR值的增幅效果,在深度同为20层的网络,本文方法的整体效果接近于DRRN-20, 但是随着网络均加深至52层时,本文的网络结构表现出了更好的效果, 且相对于前面的深度为20层的网络模型在性能上有了大幅度的提升,并且在×2、×3和×4时的平均PSNR值的增长幅度均大于DRRN。
表 4
PSNR值随网络深度的变化情况
Table 4
The change of PSNR value with network depth
/dB | ||||||
数据集 | DRRN-20 | DRRN-52 | DRRN-DI | 本文(20) | 本文(52) | 本文(DI) |
Set5 | 33.93 | 34.03 | 0.10 | 33.88 | 34.05 | 0.17 |
Set14 | 29.94 | 29.96 | 0.02 | 29.93 | 29.97 | 0.04 |
BSD100 | 28.91 | 28.95 | 0.04 | 28.87 | 28.95 | 0.08 |
Urban100 | 27.38 | 27.53 | 0.15 | 27.32 | 27.52 | 0.20 |
此外,本文给出了比例因子为×3的各方法重建图像的视觉效果图,如图 5-图 7所示,对于图像Baby,本文的重建方法恢复了更多的眉毛的细节信息,眉毛的边缘相较于其他方法的锐化程度更加明显;对于图像Butterfly,本文方法重建的图像包含了更多的纹理细节,与其他方法相比,本文方法在图像结构的边缘处理的效果更好,没有其他方法那么平滑;对于图像ppt3,本文方法很好地恢复了图像包含的文本细节。从以上分析可以看出,本文方法重建的图像在细节上更加丰富,并且视觉效果更好。
最后,本文对模型的复杂度进行分析。由于采用卷积神经网络完成图像的重建,故模型的时间复杂度即为每个卷积层的时间复杂度之和,而单个卷积层的时间复杂度为
$ \mathrm{O}\left(M^{2} \times K^{2} \times C_{\mathrm{in}} \times C_{\mathrm{out}}\right) $ | (15) |
式中,
$ \mathrm{O}\left(\sum\limits_{l=1}^{D} M_{l}^{2} \times K_{l}^{2} \times C_{l-1} \times C_{l}\right) $ | (16) |
式中,
3 结论
本文提出了基于多阶段特征融合网络的超分辨率重建方法,主要用于解决目前许多经典的重建网络结构上的弊端,即通过改变网络的结构达到提升重建效果的目的。一方面,本文模型借鉴密集网络的连接方式,通过整个网络的多路径连接加强网络层之间的联系,达到充分利用网络分层特征的目的,从而提取更多的高频信息,提升重建质量。另一方面,本文利用1×1卷积的特性提取低分辨率特征的结构信息用于最后的重建。实验结果表明,本文方法相较于其他方法在PSNR和结构相似性上均有一定优势,且重建的图像具有更好的视觉效果。但是本文方法也存在不足之处,现有的多阶段融合网络的思想相对比较简单,在以后的工作中需要针对特征复用的网络以及模型的构建方式进行深入研究。后续的工作中,可以采取递归学习的思想减小网络参数、增加训练样本等方法进一步优化模型,并可以从进一步提高分层特征使用以及分层特征融合的角度进行探究和完善。
参考文献
-
[1] Li X, Orchard M T. New edge-directed interpolation[J]. IEEE Transactions on Image Processing, 2001, 10(10): 1521–1527. [DOI:10.1109/83.951537]
-
[2] Zhang L, Wu X L. An edge-guided image interpolation algorithm via directional filtering and data fusion[J]. IEEE Transactions on Image Processing, 2006, 15(8): 2226–2238. [DOI:10.1109/TIP.2006.877407]
-
[3] Dai S Y, Han M, Xu W, et al. SoftCuts:a soft edge smoothness prior for color image super-resolution[J]. IEEE Transactions on Image Processing, 2009, 18(5): 969–981. [DOI:10.1109/TIP.2009.2012908]
-
[4] Sun J, Xu Z B, Shum H Y. Image super-resolution using gradient profile prior[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008: 1-8.[DOI: 10.1109/CVPR.2008.4587659]
-
[5] Yang J C, Wright J, Huang T, et al. Image super-resolution as sparse representation of raw image patches[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008: 1-8.[DOI: 10.1109/CVPR.2008.4587647]
-
[6] Yang J C, Wright J, Huang T S, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861–2873. [DOI:10.1109/TIP.2010.2050625]
-
[7] Yang J C, Wang Z W, Lin Z, et al. Coupled dictionary training for image super-resolution[J]. IEEE Transactions on Image Processing, 2012, 21(8): 3467–3478. [DOI:10.1109/TIP.2012.2192127]
-
[8] Huang J B, Singh A, Ahuja N. Single image super-resolution from transformed self-exemplars[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 5197-5206.[DOI: 10.1109/CVPR.2015.7299156]
-
[9] Timofte R, De V, van Gool L. Anchored neighborhood regression for fast example-based super-resolution[C]//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, NSW, Australia: IEEE, 2014: 1920-1927.[DOI: 10.1109/ICCV.2013.241]
-
[10] Timofte R, de Smet V, van Gool L. A+: adjusted anchored neighborhood regression for fast super-resolution[M]//Cremers D, Reid I, Saito H, et al. Computer Vision-ACCV 2014. Cham: Springer, 2014: 111-126.[DOI: 10.1007/978-3-319-16817-3_8]
-
[11] Dong C, Loy C C, He K M, et al. Learning a deep convolutional network for image super-resolution[C]//Proceedings of European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 184-199.[DOI: 10.1007/978-3-319-10593-2_13]
-
[12] Dong C, Loy C C, He K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295–307. [DOI:10.1109/TPAMI.2015.2439281]
-
[13] Dong C, Loy C C, Tang X O. Accelerating the super-resolution convolutional neural network[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer, 2016: 391-407.[DOI: 10.1007/978-3-319-46475-6_25]
-
[14] Shi W Z, Caballero J, Huszár F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1874-1883.[DOI: 10.1109/CVPR.2016.207]
-
[15] Kim J, Lee J K, Lee K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1646-1654.[DOI: 10.1109/CVPR.2016.182]
-
[16] Kim J, Lee J K, Lee K M. Deeply-recursive convolutional network for image super-resolution[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1637-1645.[DOI: 10.1109/CVPR.2016.181]
-
[17] Tai Y, Yang J, Liu X M. Image super-resolution via deep recursive residual network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 2790-2798.[DOI: 10.1109/CVPR.2017.298]
-
[18] Huang G, Liu Z, van der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2016.[DOI: 10.1109/CVPR.2017.243]
-
[19] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2015: 770-778.[DOI: 10.1109/cvpr.2016.90]
-
[20] Qian N. On the momentum term in gradient descent learning algorithms[J]. Neural Networks, 1999, 12(1): 145–151. [DOI:10.1016/s0893-6080(98)00116-6]
-
[21] Martin D, Fowlkes C, Tal D, et al. A Database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Proceedings of the 8th IEEE International Conference on Computer Vision. Vancouver BC, Canada: IEEE, 2002: 416-423.[DOI: 10.1109/iccv.2001.937655]
-
[22] Bevilacqua M, Roumy A, Guillemot C, et al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding[C]//Proceedings of British Machine Vision Conference. Guildford, UK: BMVA Press, 2012.[DOI: 10.5244/c.26.135]
-
[23] Zeyde R, Elad M, Protter M. On single image scale-up using sparse-representations[C]//Proceedings of the 7th International Conference on Curves and Surfaces. Avignon, France: Springer, 2010: 711-730.[DOI: 10.1007/978-3-642-27413-8_47]
-
[24] Timofte R, Rothe R, van Gool L. Seven ways to improve example-based single image super resolution[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016.[DOI: 10.1109/CVPR.2016.206]
-
[25] He K M, Zhang X Y, Ren S Q, et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1026-1034.[DOI: 10.1109/ICCV.2015.123]