Print

发布时间: 2018-01-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170312
2018 | Volume 23 | Number 1




    CACIS2017学术会议专栏    




  <<上一篇 




  下一篇>> 





边缘增强深层网络的图像超分辨率重建
expand article info 谢珍珠, 吴从中, 詹曙
合肥工业大学计算机与信息学院, 合肥 230009

摘要

目的 针对基于学习的图像超分辨率重建算法中存在边缘信息丢失、易产生视觉伪影等问题,提出一种基于边缘增强的深层网络模型用于图像的超分辨率重建。方法 本文算法首先利用预处理网络提取输入低分辨率图像的低级特征,然后将其分别输入到两路网络,其中一路网络通过卷积层级联的卷积网络得到高级特征,另一路网络通过卷积网络和与卷积网络成镜像结构的反卷积网络的级联实现图像边缘的重建。最后,利用支路连接将两路网络的结果进行融合,并将其结果通过一个卷积层从而得到最终重建的具有边缘增强效果的高分辨率图像。结果 以峰值信噪比(PSNR)和结构相似度(SSIM)作为评价指标来评价算法性能,在Set5、Set14和B100等常用测试集上放大3倍情况下进行实验,并且PSNR/SSIM指标分别取得了33.24 dB/0.9156、30.60 dB/0.852 1和28.45 dB/0.787 3的结果,相比其他方法有很大提升。结论 定量与定性的实验结果表明,基于边缘增强的深层网络的图像超分辨重建算法所重建的高分辨率图像不仅在重建图像边缘信息方面有较好的改善,同时也在客观评价和主观视觉上都有很大提高。

关键词

超分辨率重建; 卷积神经网络; 反卷积; 去池化; 边缘增强

Image super-resolution reconstruction via deep network based on edge-enhancement
expand article info Xie Zhenzhu, Wu Congzhong, Zhan Shu
School of Computer and Information, Hefei University of Technology, Hefei 230009, China
Supported by: National Natural Science Foundation of China (61371156)

Abstract

Objective Image super-resolution reconstruction is a branch of image restoration, which concerns with the problem of generating a plausible and visually pleasing high-resolution output image from a low-resolution input image. This approach has many practical applications, ranging from video surveillance imaging to medical imaging and satellite remote-sensing image processing. Although some methods have achieved reasonable results in recent years, they have mainly focused on visual artifacts, while the loss of edge information has been rarely mentioned. To address these weaknesses, a novel image super-resolution reconstruction method via deep network based on edge enhancement is proposed in this study. Method Given that deep learning has demonstrated excellent performance in computer vision problems, some scholars have utilized convolutional neural networks to design deep architecture for image super resolution. Dong et al successfully introduced deep learning into a super-resolution-based method; they demonstrated that convolutional neural networks could be used to learn mapping from a low-resolution image to a high-resolution image in an end-to-end way and achieved state-of-the-art results. Besides, Inspired by semantic segmentation based on deconvolution network, we introduce a deconvolution network to reconstruct edge information. The proposed model considers an interpolated low-resolution image (to the desired size) as input. The preprocessed network is utilized to extract low-level features of the input image, which are imported into the mixture network. The mixture network consists of two roads. One road is used to obtain high-level features by cascading the convolutional layer many times, and the other road realizes the reconstruction of the image edge by cascading between the convolutional network and its mirror network-deconvolution network. The convolutional and deconvolution layers in stacked style can retain the feature map size by adding pad wise-pixel. We can obtain the final reconstruction result through a convolutional layer by fusing the two road results via bypass connection. We select the rectified linear unit as activation function in our model to accelerate the training process and avoid the vanishing gradient. We employ 91 images as the training set and observe their performance changes in Set5, Set14, and B100 with scaling factors of 2, 3, and 4 respectively. The training set is further augmented by rotating the original image by 90°, 180°, and 270° and flipping them upside down to prevent overfitting in deep network. Notably, we initially convert the color images of RGB space into YCbCr space, considering that human vision is more sensitive to details in intensity than in color. We then apply the proposed algorithm to the luminance Y channel, and the Cb, Cr channels are upscaled by bicubic interpolation. Result All experiments are implemented on the Caffe package. The proposed algorithm considers peak-signal-to-noise ratio and structural similarity index as evaluation metrics. The experimental results on Set5 for the scale factor of 3 are 33.24 dB/0.915 6, 30.60 dB/0.852 1, and 27.99 dB/0.784 8. Compared with bicubic, ScSR, A+, SelfEx, SRCNN, and CSCN, the proposed algorithm shows improved performances by 2.85 dB/4.74, 1.9 dB/2.87, 0.66 dB/0.68, 0.66 dB/0.63, 0.49 dB/0.66, and 0.14 dB/0.12 respectively. The running time of GPU version on Set5 for scale factor of 3 only takes 0.62 s, which is obviously superior to those of the other methods. Conclusion Convolutional neural networks have been increasingly popular in image super-resolution reconstruction. This study employs a deep network that contains convolution, deconvolution, and unpooling, which is used for reconstructing image edge information. The experimental results demonstrate that the proposed method based on edge enhancement model achieves better quantitative and qualitative reconstruction performances than those of the other methods.

Key words

super-resolution reconstructions; convolutional neural networks; deconvolution; unpooling; edge enhancement

0 引言

图像的超分辨率(SR)重建一直是计算机视觉领域的研究热点。它是指在不需要增加硬件成本的条件下,通过软件处理的方法利用一幅或多幅低分辨率(LR)图像重建出一幅清晰的高分辨率(HR)图像。由于不需要额外的硬件成本就能获得具有更多细节信息的高分辨率图像,因此该技术被广泛的应用在刑侦破案、公共安全、视频监控、卫星遥感图像处理、医学影像处理等领域。目前具有代表性的SR算法是基于稀疏编码的方法。2010年Yang等人[1]开创性的将稀疏表示理论应用于图像的超分辨率重建,并利用高、低分辨率图像块在高、低分辨率字典中特定稀疏基下有相同的稀疏表示系数作为约束条件重建出高分辨率图像。随后,Zeyde等人[2]在Yang等人的基础上进行改进,利用主成分分析对训练样本进行降维,并使用K-SVD(K-singular value decomposition)算法进行字典训练,进一步提高字典训练的效率。Timofte等人[3]则在Zeyde等人的研究基础上提出锚定邻域回归(ANR)的方法,该方法在字典学习时结合邻域嵌入,并利用全局回归或锚定邻域回归的方法让低分辨率图像块使用通过KSVD算法训练后的字典进行重建,从而获得具有较高重建质量的高分辨率图像。

近年来,深度学习在各种计算机视觉问题上表现优异,因此许多学者开始设计用于图像超分辨率重建的深度网络结构[4]。2016年Dong等人[5]使用一个简单的3层卷积神经网络模型(SRCNN)成功地将卷积神经网络引入到超分辨率重建中,同时证明卷积神经网络可以直接学习从低分辨率图像到高分辨率图像的端到端的非线性映射,在不需要传统方法所要求的人工特征的条件下就可以取得很好的效果。Dong等人试图去设计更深层的网络,但是在一周的训练之后并没有发现预期的较好的性能,因此他们得出深层网络并不会导致更好的性能的结论。Kim等人[6]提出了一个20层的基于VGG网络[7]的深层卷积网络用来预测残差图像,并且验证了随着层数的增加, 模型性能会得到很大的提升。尽管这些方法有效地改善了重建后图像的质量,但是并没有考虑图像中存在的边缘信息丢失等问题。

图像边缘是重要的结构性信息,人的视觉系统也对它相当敏感。边缘特征可以为图像的超分辨率重建提供有价值的导向性。Hyeonwoo等人[8]提出的用于语义分割的反卷积网络(DeconvNet),其通过在VGG卷积网络后使用一个多层的反卷积网络产生输入图像的逐像素(pixel-wise)预测,实现目标边缘的精准预测,可以有效地解决目标边缘细节丢失等问题。因此受到SRCNN和DeconvNet等模型的启发,本文提出基于边缘增强的深层网络的图像超分辨率重建算法。该算法首先利用预处理网络提取输入低分辨率图像的低级特征,然后将其分别输入到两路网络,其中一路网络通过卷积层级联的卷积网络得到高级特征,另一路网络通过卷积网络和与卷积网络成镜像结构的反卷积网络的级联实现图像边缘的重建。最后,利用支路连接将两路网络的结果进行融合,并将其融合结果通过一个卷积层得到最终重建的边缘增强的高分辨率图像。在Set5、Set14和B100测试集的实验表明,本文算法得到的高分辨率图像不仅在保持图像边缘信息方面有较好的改善,同时也在客观指标和主观视觉上都有很大提高。

本文主要贡献包括以下两点:

1) 引入反卷积网络[9],用于重建输入图像的边缘细节信息,并通过去池化存储最大池化操作的位置,以减少上采样时的细节信息丢失问题,并对特征图边缘填充宽度为1的0值,使得本文的输出图像和输入图像的尺寸保持一致。

2) 相比于仅使用3层卷积层的SRCNN网络实现超分辨率图像重建,本文算法采用两路网络,其中一路网络通过卷积层级联的卷积网络学习图像的高级特征,另一路网络在SRCNN框架基础上加入反卷积网络来增加网络的深度用于实现边缘信息的重建,最后将两路网络的结果进行融合从而获得最终的重建图像。

1 基于边缘增强的深层网络

图 1是本文提出的深层网络结构算法框图。整个网络可以分为3部分:预处理网络、混合网络和重建网络。预处理网络主要是进行特征提取和表示的预处理操作。混合网络是本文算法的核心内容。重建网络主要是用来整合混合网络中学习到的HR图像块从而产生出最终重建的HR图像。本节将分别介绍3个子网络。

图 1 本文算法框图
Fig. 1 Flow chart of the proposed algorithm

1.1 预处理网络

特征提取在整个模型中是最为关键的一步,特征的好坏直接影响最终的重建效果。对于超分辨率重建而言,提取特征之前要进行预处理操作即将低分辨率图像进行双三次插值。本文网络采用插值后的LR图像作为网络的输入, 该网络的参数配置为7×7的卷积核, 滤波器数目为128(表示每层学习128种特征), 步长为1, 填充为3。特征提取是将输入的LR图像从图像空间映射到特征空间,具体是指从低分辨率图像中重叠的提取图像块并将每个块表示成一个高维向量,这些向量组成了一组特征图,其数量和向量的维度相等。特征提取方法采用卷积层来实现,通过卷积核来提取图像特征。直观地说,通过第1层的卷积核学习提取图像的低级特征。需要说明的是,所有卷积层都采用修正线性单元(ReLU)作为激活函数[10],其表达式为$f\left( x \right) = \max (0, x) $。ReLU激活函数不仅可以在不影响图片质量的情况下较快地收敛,还可以有效减轻训练深层网络时产生的“消失的梯度问题” (vanishing gradient)问题[11]。整个预处理网络的数学形式可以表示为

$ {\mathit{\boldsymbol{F}}_{{\rm{rep}}}} = \max (0, \mathit{\boldsymbol{W}}*\mathit{\boldsymbol{Y}} + \mathit{\boldsymbol{B}}) $ (1)

式中, WY分别表示滤波器和输入的低分图像,B为偏差。

1.2 混合网络

混合网络是整个网络中的核心,主要包括两路网络,其中一路网络(Conv网络)是8层卷积层级联的网络,通过卷积层的级联实现逐层的特征学习,使得到的特征更加全局化。另一路网络(DeConv网络)是综合网络,其中前4层是包含卷积层、激活函数和池化操作的卷积网络,主要用于将输入图片转化为多维特征表达的特征,后4层是包含反卷积层、激活函数和去池化操作的反卷积网络,此反卷积网络相当于一个形状产生器用于产生来自于卷积网络提取特征的目标分割得到的边缘信息。下面分别介绍两路网络。

1.2.1 Conv网络

图 1所示的Conv网络中,该网络使用具有相同参数配置的8层卷积层级联而成即:3×3的卷积核、滤波器数目为64、定值为1的步长和填充,随着网络深度的增加,由浅入深地提取图像不同层次的特征。Conv网络的输入是卷积层预处理网络输出的特征,通过多次级联小尺寸的感受野(3×3的卷积核)不仅能学习到更多的网络参数,还可以有效的避免过拟合现象,而且在大型图像区域上更多的上下文信息可以被有效利用。整个Conv网络学习过程的数学表达式为

$ {\mathit{\boldsymbol{F}}_{{\rm{Conv}}}} = {\rm{Conv}}({\mathit{\boldsymbol{F}}_{{\rm{rep}}}}) $ (2)

1.2.2 DeConv网络

与Conv网络不同的是,DeConv网络包含两部分——卷积部分和反卷积部分。其中,卷积部分总共包含3层卷积层和1层池化层。反卷积部分是卷积部分的镜像网络,包含1层去池化层和3层反卷积层,其中卷积层和反卷积层具有相同的参数:64个滤波器,填充、步长都是1,卷积核为3×3。而池化和去池化都是通过大小为2×2的滤波器采用步长为2的方式在特征图上滑动。

卷积部分的池化可以滤除掉在感受野中提取的特征图中含有干扰的特征值, 经过池化后的特征单元具有平移、旋转和尺度不变性,并且特征维度减小,便于实现特征分类, 但是池化时在感受野中丢失的空间信息,对于图像边缘部位的精确位置预测是很重要的。为了解决这个问题,引入池化的反操作——去池化操作。去池化的操作本文沿袭文献[12]中用到的方法。它以转换变量的方式记录了池化操作时最大值的数值和位置,并且根据数值和位置在相应的位置恢复其最大值,其余的地方都被设置为0。这样经过池化和去池化操作后的特征就会变得“稀疏化”,有利于目标边缘重建。

去池化层的输出特征图是逐渐变大且稀疏的,而反卷积层可以用多个学习到的滤波器通过类卷积操作使得由去池化得到的稀疏特征图变得稠密,而这将会减少由于去池化的“稀疏”而丢掉的部分图像信息。通过反卷积层学习到的滤波器相当于重建输入图像形状的基础。因此,与卷积网络相似,反卷积层的层级结构被用于捕捉不同层次的形状细节。低层的滤波器倾向于捕捉目标的整体形状而高层的滤波器对特定类的细节信息进行编码。以这种方式,网络直接将图像的形状信息用于边缘重建。因此,可以得到重建的边缘信息。该DeConv网络可以表示为

$ {\mathit{\boldsymbol{F}}_{{\rm{DeConv}}}} = {\rm{DeConv}}({\mathit{{F}}_{{\rm{rep}}}}) $ (3)

综上所述,整个混合网络可以表示为

$ {\mathit{\boldsymbol{F}}_{{\rm{mix}}}} = \frac{1}{2}{\mathit{\boldsymbol{F}}_{{\rm{Conv}}}} + \frac{1}{2}{\mathit{\boldsymbol{F}}_{{\rm{DeConv}}}} $ (4)

1.3 重建网络

重建网络的作用是将信息从特征空间映射到图像空间,即将混合网络输出的HR图像块进行整合得到最终重建的与真实图像接近的HR图像。该网络的参数配置为:3×3的卷积核、滤波器数目为64、步长为1、填充为1。这里,本文采用一个3×3的卷积层来实现这个操作。

$ {\mathit{\boldsymbol{F}}_{{\rm{out}}}} = {\rm{Conv}}({\mathit{\boldsymbol{F}}_{{\rm{mix}}}}(Y;\theta )) $ (5)

式中,$ {\mathit{\boldsymbol{F}}_{{\rm{mix}}}}(Y;\theta ) $表示混合网络输出的预测HR图像块,θ表示整个网络的参数。

为了更好地说明反卷积网络中反卷积层与去池化层的作用以及各层之间的内部联系,图 2给出每层特征图可视化结果。从图 2可知,低层特征图关注图像中的不同细节信息,而随着层数的加深,图像的边缘更加丰富,学习到的特征图变得局部且稀疏,主要用于剔除不相关内容(背景等)并提取更加具有辨识性的关键信息如边缘轮廓等。图 3分别给出了混合网络中两路网络特征图可视化的结果,其中每个小方块显示了对应特定滤波器的响应特征图,其中响应特征图为0的全黑小方块是由于Relu非负部分0梯度产生的“dead features”。通过图 3(a)中的特征图可以知道Conv网络学习到的信息主要集中在图像的纹理信息。而DeConv网络的dead features相比于Conv网络更少,学习到的信息主要集中在图像边缘,其特征也更加具体全面。综上所述,两者进行融合可以进一步提升图像的重建质量。

图 2 DeConv网络每层特征图可视化的结果
Fig. 2 Visualization result of feature map layert-wise in DeConv network
图 3 混合网络中两路网络的特征图可视化结果
Fig. 3 Visualization result of mixture network

1.4 训练

引入均方根误差(MSE)作为网络模型的损失函数,MSE主要是根据重建得到的高分辨率图像$ {\mathit{\boldsymbol{F}}_{{\rm{out}}}} $与相应的真实高分辨率图像X之间的差值进行网络参数的估计,即

$ L = \frac{1}{n}\sum\limits_{i = 1}^n {{{\left\| {{\mathit{\boldsymbol{F}}_{{\rm{out}}}}-\mathit{\boldsymbol{X}}} \right\|}^2}} $ (6)

式中,$ n$是训练样本的总数目。所有的参数优化均使用标准反向投影和随机梯度下降法[13]

2 实验设置与结果分析

2.1 实验细节

1) 训练集。Yang等人[2]的91幅图片作为训练集已被广泛地应用于基于学习的SR方法中,又由于SRCNN中已经验证了深度模型通常受益于海量数据的训练。因此,本文通过将91幅训练集图像先逆时针旋转0°、90°、180°和270°后的每幅图像进行镜像操作,从而得到含有728幅图片的扩展训练集。其中每个子块大小为36,将扩展后的训练集设置步长为14可以得到232 064个子块。

2) 测试集。本文选择分别包含5、14、100幅图片的Set5、Set14、B100作为测试集。

3) 参数配置。训练过程中,网络的输入是固定大小为36×36像素大小的图像。唯一的预处理操作是减去平均值,避免数据过多偏差,影响训练效果。训练是通过使用带动量参数的随机梯度下降法(基于小批量处理)对回归目标进行优化的,其中,批大小和动量参数分别被设置为128和0.9。训练通过权重衰减的方式正则化。初始学习率被设置为0.000 1,并且学习过程在2 176 800次迭代(600 epochs)后被停止。所有卷积和反卷积层通过Xavier算法[14]初始化,并且所有层只有权重而无偏差。

对于彩色图像,本文首先将彩色RGB测试图像转换为YCbCr信号,并且只对亮度通道Y进行超分辨重建,Cb、Cr通道直接插值放大。网络的训练与测试在Caffe工具[15]和Matlab2014a接口环境下进行,硬件参数:Intel Core i7-4790K 4.0 GHz, 1X NVIDIA Tian X GPU。

2.2 实验结果分析

2.2.1 运行时间

本节绘出了本文算法以及其他方法的时间成本。图 4给出了Set5测试集上放大因子为3的运行时间(单位:s)与性能峰值信噪比(PSNR)的定量对比图。所有对比方法的代码都是来自于作者或相关论文的通信作者在网上公开的源码。以上所有的训练时间都是基于同样的机器配置:Intel Corei7-4790K 4.0 GHz CPU和一个Titan X GPU。GPU版本的运行时间在Set5测试集上平均花费0.62 s,其他方法比本文算法慢很多。从图 4看出,本文的方法在性能和时间上相比于其他方法具有较好的重建结果。

图 4 运行时间
Fig. 4 Running time

2.2.2 收敛性

网络的收敛性是一个很重要的指标,对训练网络调参的首要目标就是使网络收敛。图 5是使用SRCNN和本文算法分别在Set5测试集与放大因子为3时进行超分辨率重建的测试收敛曲线,需要说明的是,虽然本文训练是使用的是扩展后的包含728幅图的训练集,但是为了比较的公正性,这里本文采用91幅图片作为训练集。从图 5可以看出,在相同的epoch时,本文算法的Test loss比SRCNN下降的快,而图 6中PSNR曲线中在相同的时间时, 本文算法的PSNR都比SRCNN的值高。综合来说本文算法有较快的收敛速度。

图 5 Test-epoch曲线
Fig. 5 The curve of test-epoch
图 6 PSNR-time曲线
Fig. 6 The curve of PSNR-time

2.2.3 量化评价

为了客观评价算法的性能,本文采用峰值信噪比(PSNR)和结构相似度(SSIM)作为客观评价标准。表 1给出了7种算法在Set5、Set14和B100数据集上分别使用2倍、3倍和4倍放大因子下重建图像的PSNR和SSIM指标。从表 1可以看出本文算法重建图像的PSNR、SSIM相比其他算法均有所提高,其中本文算法的PSNR相比Bicubic算法、ScSR算法[1]、A+算法[3]、SelfEx[16]、SRCNN[4]和CSCN[17]算法在Set5测试集在×3放大因子时的结果分别提高了约2.85 dB、1.9 dB、0.66 dB、0.66、0.49 dB和0.14 dB,而SSIM则分别提高了4.74、2.87、0.68、0.63、0.66和0.12个百分点。

表 1 各算法的PSNR与SSIM
Table 1 Average PSNR(dB)/SSIM for scale factor 2, 3and 4 on datasets Set5, Set14, and Set100

下载CSV
数据集 Scale 算法
Bicubic ScSR A+ SelfEx SRCNN CSCN Ours
PSNR/dB Set5 2 33.66 35.78 36.54 36.49 36.66 36.88 37.06
3 30.39 31.34 32.58 32.58 32.75 33.10 33.24
4 28.42 29.07 30.28 30.31 30.48 30.78 30.80
Set14 2 30.24 31.64 32.28 32.22 32.42 32.50 32.70
3 27.55 28.19 29.13 29.16 29.28 29.41 30.60
4 26.00 26.40 27.32 27.40 27.49 27.64 28.60
BSD100 2 29.56 30.77 31.21 31.18 31.34 31.36 31.38
3 27.21 27.72 28.29 28.29 28.40 28.47 28.45
4 25.96 26.61 26.82 26.84 26.90 27.01 26.96
SSIM Set5 2 0.929 9 0.948 6 0.954 4 0.953 7 0.954 2 0.954 7 0.956 4
3 0.868 2 0.886 9 0.908 8 0.909 3 0.909 0 0.914 4 0.915 6
4 0.810 4 0.826 3 0.905 6 0.861 9 0.862 8 0.873 2 0.873 6
Set14 2 0.868 8 0.899 0 0.905 6 0.903 4 0.906 3 0.906 9 0.908 7
3 0.774 2 0.797 7 0.818 8 0.816 9 0.820 9 0.823 8 0.852 1
4 0.702 7 0.721 8 0.749 1 0.751 8 0.750 3 0.757 3 0.792 1
BSD100 2 0.843 1 0.874 4 0.866 3 0.885 5 0.887 9 0.888 2 0.888 3
3 0.738 5 0.764 7 0.783 5 0.784 0 0.786 3 0.788 0 0.787 3
4 0.667 5 0.698 3 0.708 7 0.710 6 0.710 1 0.715 9 0.711 8
注:以上数据为各测试集所有图片进行实验得到的平均值。

同时,为了表明本文算法相比于其他方法在主观视觉上的差异,本文选择了表 1中的具有代表性的方法作为对比参考,各种算法重建的结果如图 7所示。

图 7 不同算法超分辨率重建比较
Fig. 7 The super-resolution reconstruction using various algorithms ((a) ScSR; (b) A+; (c) SRCNN; (d) ScSR; (e) original HR)

图 7分别对蝴蝶翅膀颜色的变化、Lenna的眼睛部位、鸟的爪子部位进行局部放大。Bicubic和ScSR方法虽然提高了图像质量,但是其得到的结果存在一些视觉伪影以及模糊边缘。SRCNN虽然恢复了边缘信息,但是它对噪声的去除不够理想。CSCN虽然含有少量伪影,但是其边缘不够清晰。本文算法相比于其他方法原图效果最为接近,并且重建后图像的边缘较为清晰,可以恢复出更多的细节信息。尤其是图 7中的蝴蝶翅膀黄黑相接部分的边缘、Lenna的睫毛部位和鸟的腿部与爪子衔接的地方。

另外,为了进一步从主观上说明所用网络的有效性,本文做了一些对比实验。以Set5数据集中的butterfly图片为例,分别将本文网络、SRCNN网络重建得到的高分辨图像与输入的低分辨率图像(双三次插值图像)进行相同的增强对比度处理,获得两个网络学习到的有用信息如图 8所示。通过图 8可以很直观地看到,右图翅膀的边缘信息(尤其是左下方)相较于SRCNN具有很明显的改善,学习到了更加细微的边缘高频信息,从而提高了图像的重建质量。

图 8 不同网络对比度增强结果比较(Set5/Butterfly)
Fig. 8 The contrast enhancement result in different network(Set5/Butterfly)((a)SRCNN; (b)ours)

3 结论

本文采用最新的深度学习技术用来实现图像的超分辨率重建任务。为了有效地恢复图像的边缘等细节信息,进一步改善视觉效果,本文提出一种基于边缘增强的深层网络的超分辨率重建算法。本文算法首先通过预处理网络对输入图像提取低级特征,然后采用混合网络分别重建不同层次的特征,其中一路网络通过卷积层级联的卷积网络得到高级特征,另一路网络通过卷积网络和与卷积网络成镜像结构的反卷积网络的级联实现图像边缘的重建。最后通过重建网络实现图像的超分辨率重建。实验结果表明,本文算法在客观评价以及主观视觉上较之前方法都有提升。虽然本文方法并不是在所有测试集上的所有放大因子都超过最新的方法,但是本文算法利用反卷积网络实现边缘的增强,在边缘重建方面上较其他方法有很大改善。本文算法在GPU上运行,大量减少了算法的运算时间,距离实时性要求更进一步。后续工作将考虑残差网络[18]以及构建更深层次的网络来进一步提高超分辨率重建效果。

参考文献

  • [1] Yang J C, Wright J, Huang T S, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861–2873. [DOI:10.1109/TIP.2010.2050625]
  • [2] Zeyde R, Elad M, Protter M. On single image scale-up using sparse-representations[C]//Proceedings of the 7th International Conference on Curves and Surfaces. Avignon, France:Springer-Verlag, 2010:711-730.[DOI:10.1007/978-3-642-27413-8_47] http://www.springerlink.com/content/56276x8370377023/
  • [3] Timofte R, De Smet V, Van Gool L. A+:adjusted anchored neighborhood regression for fast super-resolution[C]//Proceedings of the 12th Asian Conference on Computer Vision. Singapore:Springer, 2015, 9006:111-126.[DOI:10.1007/978-3-319-16817-3_8] http://link.springer.com/chapter/10.1007/978-3-319-16817-3_8
  • [4] Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA:IEEE, 2015:1-9.[DOI:10.1109/CVPR.2015.7298594] http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=7298594
  • [5] Dong C, Chen C L, He K C, He K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295–307. [DOI:10.1109/TPAMI.2015.2439281]
  • [6] Kim J, Lee J K, Lee K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA:IEEE, 2016:1646-1654.[DOI:10.1109/CVPR.2016.182] http://arxiv.org/abs/1511.04587
  • [7] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. Proceedings of 2015 International Conference on Learning Representations.
  • [8] Noh H, Hong S, Han B. Learning deconvolution network for semantic segmentation[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile:IEEE, 2015:1520-1528.[DOI:10.1109/ICCV.2015.178]
  • [9] Zeiler M D, Taylor G W, Fergus R. Adaptive deconvolutional networks for mid and high level feature learning[C]//Proceedings of 2011 IEEE International Conference on Computer Vision. Barcelona, Spain:IEEE, 2011:2018-2025.[DOI:10.1109/ICCV.2011.6126474]
  • [10] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada:Curran Associates Inc., 2012:1097-1105.
  • [11] Kolen J, Kremer S. Gradient flow in recurrent nets:the difficulty of learning LongTerm dependencies[M]. Wiley-IEEE Press, 2001.
  • [12] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//Proceedings of the 13th European Conference. Zurich, Switzerland:Springer, 2013, 8689:818-833.[DOI:10.1007/978-3-319-10590-1_53]
  • [13] LeCun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541–551. [DOI:10.1162/neco.1989.1.4.541]
  • [14] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//Proceedings of the 13th International Conference on Artificial Intelligence and Statistics. Sardinia, Italy:PMLR, 2010, 9:249-256.
  • [15] Jia Y Q, Shelhamer E, Donahue J, et al. Caffe:convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando, Florida, USA:ACM, 2014:675-678.[DOI:10.1145/2647868.2654889]
  • [16] Huang J B, Singh A, Ahuja N. Single image super-resolution from transformed self-exemplars[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA:IEEE, 2015:5197-5206.[DOI:10.1109/CVPR.2015.7299156]
  • [17] Wang Z W, Liu D, Yang J C, et al. Deep networks for image super-resolution with sparse prior[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Washington, DC, USA:IEEE, 2015:370-378.[DOI:10.1109/ICCV.2015.50]
  • [18] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA:IEEE, 2016:770-778.[DOI:10.1109/CVPR.2016.90]