Print

发布时间: 2018-07-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170538
2018 | Volume 23 | Number 7




    图像处理和编码    




  <<上一篇 




  下一篇>> 





基于中间层监督卷积神经网络的图像超分辨率重建
expand article info 李现国1,2, 孙叶美1,2, 杨彦利1,2, 苗长云1,2
1. 天津工业大学电子与信息工程学院, 天津 300387;
2. 天津市光电检测技术与系统重点实验室, 天津 300387

摘要

目的 基于学习的图像超分辨率重建方法已成为近年来图像超分辨率重建研究的热点。针对基于卷积神经网络的图像超分辨率重建(SRCNN)方法网络层少、感受野小、泛化能力差等缺陷,提出了基于中间层监督卷积神经网络的图像超分辨率重建方法,以进一步提高图像重建的质量。方法 设计了具有中间层监督的卷积神经网络结构,该网络共有16层卷积层,其中第7层为中间监督层;定义了监督层误差函数和重建误差函数,用于改善深层卷积神经网络梯度消失现象。训练网络时包括图像预处理、特征提取和图像重建3个步骤,采用不同尺度因子(2、3、4)模糊的低分辨率图像交叉训练网络,以适应对不同模糊程度的图像重建;使用卷积操作提取图像特征时将参数$pad$设置为1,提高了对图像和特征图的边缘信息利用;利用残差学习完成高分辨率图像重建。结果 在Set5和Set14数据集上进行了实验,并和双三次插值、A+、SelfEx和SRCNN等方法的结果进行比较。在主观视觉评价方面,本文方法重建图像的清晰度和边缘锐度更好。客观评价方面,本文方法的峰值信噪比(PSNR)平均分别提高了2.26 dB、0.28 dB、0.28 dB和0.15 dB,使用训练好的网络模型重建图像耗用的时间不及SRCNN方法的一半。结论 实验结果表明,本文方法获得了更好的主观视觉评价和客观量化评价,提升了图像超分辨率重建质量,泛化能力好,而且图像重建过程耗时更短,可用于自然场景图像的超分辨率重建。

关键词

图像超分辨率重建; 深度学习; 中间层监督; 卷积神经网络; 梯度消失; 残差学习

Image super-resolution reconstruction based on intermediate supervision convolutional neural networks
expand article info Li Xianguo1,2, Sun Yemei1,2, Yang Yanli1,2, Miao Changyun1,2
1. School of Electronics and Information Engineering, Tianjin Polytechnic University, Tianjin 300387, China;
2. Tianjin Key Laboratory of Optoelectronic Detection Technology and System, Tianjin 300387, China
Supported by: Tianjin Research Program of Application Foundation and Advanced Technology (15JCYBJC16500)

Abstract

Objective Learning-based image super-resolution reconstruction has recently become a research hotspot. A new image super-resolution reconstruction method based on intermediate supervision convolutional neural network (CNN) is proposed to solve the problems of less network layers, small receptive field, and functionality that is limited to a single scale in the original network super-resolution CNN (SRCNN) to further improve the quality of image reconstruction. Method This method is based on the idea of deep learning CNN. First, when information regarding the input or gradient passes through many layers, such information can vanish and be "washed out" by the time it reaches the end (or beginning) of the network. Therefore, we design a CNN structure that has an intermediate supervision layer. The learning architecture has 16 weight layers, and information used for reconstruction (receptive field) is considerably substantial (31×31 versus 13×13). The learning architecture layers are the same type, except for the first, seventh, and the last layers:64 filters with a size of 3×3×64, where a filter operates on a 3×3 spatial region across 64 channels (feature maps). Each convolutional layer is followed by a rectified linear unit as an activation function. The first convolution layer operates on the input image. The seventh layer is an intermediate supervision layer that can guide the training of preceding layers in the CNN; this guidance can be considered an implicit deep supervision adopted to strengthen the learning capability during training. The last layer, which uses a single filter with size 3×3×64, is used for image reconstruction. Second, the supervision layer and reconstruction loss functions are defined to solve the vanishing gradient problem of the deep CNN. The training procedure includes three steps:image preprocessing, feature extraction, and image reconstruction. In the first step, the network is trained by the low-resolution images, which are blurred by different upscaling factors (2, 3, 4, possibly including fractional factors), to reconstruct different degrees of blurred images well. In the second step, the image feature is extracted using convolution operations. Unlike center pixels in the SRCNN, those in the center-surround relation methodology are inferred by surrounding pixels that are not fully utilized. We pad one before the convolutions to keep the sizes of all feature maps (including the output image) uniform, thereby increasing the use of edge information for images and feature maps. In the last step, a smooth loss function with a good generalization performance is easily achieved with a comprehensive use of the features of shallow complexity because the input and output (predicted) images have high similarity and the high-resolution image is reconstructed by the residual learning method. Result The proposed method is evaluated on open challenge datasets Set5 and Set14, which are often used in super-resolution methods. Experimental results show that the proposed method has better subjective visual effect and objective quantitative evaluation than bicubic interpolation, A+, SelfEx, and SRCNN. For subjective visual evaluation, the proposed method produces a reconstructed image that has superior clarity and edge sharpness. For objective evaluation, the average peak signal to noise ratio (PSNR) achieved by this method is 2.26 dB, 0.28 dB, 0.28 dB, and 0.15 dB higher, respectively, than those attained by the other approaches. Meanwhile, the time consumed is less than half that of the SRCNN method when using the trained network models to reconstruct images. Conclusion The flow of information and gradients can be smoothly propagated throughout the entire network by introducing intermediate supervision into our network, thereby enhancing the reconstruction capability of networks and the training efficiency. Extensive experiments confirm that the proposed method, which has intermediate supervision, improves the quality and efficiency of image super-resolution reconstruction. This approach has good generalization capability and can be used for the super-resolution reconstruction of natural scene images.

Key words

super-resolution reconstruction; deep learning; intermediate supervision; convolution neural network; vanishing gradients; residual-learning

0 引言

图像超分辨率重建是由单帧或多帧低分辨率(LR)图像重构具有良好视觉效果和更加接近真实图像的高分辨率(HR)图像或序列的技术。由于该技术具有广泛的实用价值与理论价值[1-2], 已成为计算机视觉与图像处理研究的一个热点[3]。现有的图像超分辨率重建方法可以分为三大类[3-4]:基于插值的方法[5]、基于重建的方法[6-7]和基于学习的方法[8-17]。基于学习的图像超分辨率重建方法是通过训练样本建立低、高分辨率图像两者之间的映射模型, 利用学习获得的先验知识来重建图像, 相较于其他重建方法可获得更好的重建效果, 因而已成为当前图像超分辨率重建研究的热点[3, 10]。例如:文献[11]提出了邻域嵌入(neighbor embedding)方法, 通过插补子空间重建图像; 文献[12-15]提出了稀疏编码(sparse coding)方法, 使用基于稀疏信号表示的学习字典重建图像; 文献[16]提出了随机森林(random forest)方法, 采用分层的决策树来表示数据, 利用随机森林算法实现图像重建; 文献[17]提出了基于卷积神经网络的图像超分辨率重建(SRCNN)方法, 利用深度卷积神经网络直接学习建立低、高分辨率图像端对端的映射关系, 提高了图像的重建精度, 获得了很好的性能。

SRCNN方法成功地将深度学习技术应用到了图像超分辨率重建, 但也存在一定的缺陷:第一, 网络层少, SRCNN仅使用三层卷积网络导致训练得到的模型重建性能有一定的限制。研究表明较深层次的神经网络可提取图像更深层次的特征, 可提升图像重建性能[18]。第二, 感受野小, 在卷积神经网络中, 利用局部感受野可构成相邻层神经元的上下文信息关联, SRCNN仅使用三层卷积网络导致卷积网络的感受野太小(13×13), 不能充分利用图像的上下文信息。第三, 泛化能力差, 只采用单一尺度因子模糊的图像对卷积神经网络模型进行训练, 导致得到的模型仅对某个模糊范围的低分辨率图像有较好的重建效果, 比如采用2的尺度因子模糊的图像训练的模型, 用来重建采用3的尺度因子模糊的图像时, 重建的图像效果甚至比双三次插值更差[19], 需重新训练模型。一些研究学者针对SRCNN的不足做了改进, 其中文献[20]在原有的三层卷积神经网络中, 调整卷积核大小, 加入池化层以降低维度减少计算等操作来提高重建的精度, 但对图像细节信息要求较高的超分辨率重建来说, 使用池化层降低维度会导致丢失图像的很多细节信息, 影响超分辨率重建的精度。文献[21]通过加深网络层提高重建性能, 其采用7个卷积层和1个反卷积层联合实现超分辨率的重建, 但依然存在网络层少、感受野小等缺陷。

本文针对这些不足进行了改进:第一, 采用16层卷积神经网络(滤波器核大小3×3)重建高分辨率图像, 与SRCNN(滤波器核大小9×9、1×1、5×5)相比, 增加了网络层并扩大了卷积网络的感受野(31×31 vs.13×13), 使模型的空间表达及上下文信息关联能力进一步加强。第二, 利用不同尺度因子(2、3、4)模糊得到的低分辨率图像对卷积神经网络模型交叉训练, 提高了网络的泛化能力, 得到的网络模型对不同模糊程度的图像都可以达到很好的重建效果。第三, 由于网络层太深会导致误差函数在反向传播过程中梯度消失现象[22], 使前几层网络层无法完成权重更新, 不能精确的学习到图像的特征[23]。本文采用中间层监督方法[24]设计网络结构, 改善了深层卷积神经网络误差函数反向传播过程中梯度消失的现象, 提高了图像重建的精度。第四, 基于卷积神经网络的残差学习思想[25]构造网络模型误差函数, 网络模型仅学习标准高分辨率图像与低分辨图像的残差图像, 减少了模型训练时的学习任务。

1 本文方法

1.1 具有中间层监督的卷积神经网络结构

本文设计的具有中间层监督的卷积神经网络结构如图 1所示。该卷积神经网络的卷积层共有16层, 即Conv.1、Conv.2、……、Conv.16, 其中的第7层设计为中间监督层。中间监督层定义了监督层误差函数, 用于优化卷积神经网络误差反向传播机制, 实现网络层各权重参数的迭代更新, 以改善深层卷积神经网络梯度消失现象。

图 1 具有中间层监督的卷积神经网络结构
Fig. 1 The framework with intermediate supervision of the proposed method

基于该网络结构, 本文提出了基于中间层监督卷积神经网络的图像超分辨率重建方法。该方法在网络模型建立时包含3个步骤:图像预处理、特征提取和图像重建。1)图像预处理, 主要完成对输入的训练数据进行通道转换、不同尺度因子模糊和实验所需大小图像块的截取, 作为卷积神经网络输入层的数据。2)特征提取, 可分为阶段1、阶段2和中间监督3个部分, 其中阶段1、阶段2利用多个卷积层和非线性函数的复合完成网络中不同特征图的提取, 中间监督在当前层产生梯度信息, 进行反向传播对整个网络形成中间监督。3)图像重建, 利用预测的残差图像重建出最终的高分辨率图像。测试网络模型时, 只需要将预处理后的图像输入训练好的网络模型即可。

1.2 图像预处理

本文使用的训练集为标准的91幅图像训练集, 首先对其进行YCbCr颜色空间转换并提取Y通道, 然后使用不同尺度因子(2、3、4)分别对高分辨率图像进行模糊得到不同模糊程度的低分辨率图像, 该预处理方法和文献[19]一样。按步长为41, 将得到的图像截取为大小41×41的图像块, 作为卷积神经网络输入层的数据。这些图像块将用于特征提取步骤中, 对本文设计的卷积神经网络模型进行交叉训练。经训练建立的网络模型能够很好地重建不同模糊程度的图像, 提高了网络的泛化能力。为了更好地利用深度学习框架Caffe[26]进行训练, 未将这个预处理过程包含在训练网络中。

1.3 特征提取

利用前层学习得到的特征图与卷积核进行卷积操作提取局部特征, 卷积结果经激活函数运算后得到当前层的特征图。卷积操作示意图如图 2所示。卷积层的输出结果为

$ x_j^l = f(\sum\limits_{i \in {M_j}} {x_i^{l-1}} \times \mathit{\boldsymbol{W}}_{ij}^l + b_j^l) $ (1)

图 2 卷积操作示意图
Fig. 2 The operation of convolution

式中, $x$为特征图中像素点的值; $l$为卷积层的层数; $i$$j$为像素点的位置; $f$为神经网络采取的激活函数, $\mathit{M}$为卷积核; $\mathit{\boldsymbol{W}}$$b$分别为卷积核中的权值和常数偏置。在卷积核提取特征的过程中, SRCNN将卷积层参数$\mathit{pad}$设置为0, 导致提取的特征图随网络层深度的增加而变小, 使每层的特征图边缘像素仅参与了一次卷积运算, 没有充分利用边缘信息。本文将网络模型的参数$\mathit{pad}$设置为1(卷积核大小为3×3), 使每次进行卷积运算提取的特征图前后大小保持不变, 增加了图像及特征图边缘像素参与卷积运算的次数, 更好地利用了低分辨率图像和每层特征图的边缘信息。

在网络的训练过程中, $\mathit{\boldsymbol{W}}$$b$会不断通过误差反向传播迭代更新, 使得特征提取向有利于误差减小的方向进行。式(1)可被表示为

$ {x^l} = f({\mu ^l}) $ (2)

式中, ${\mu ^l} = {x^{l-1}} \times {\mathit{\boldsymbol{W}}^l} + {b^l}$

$E$为卷积神经网络的输出误差函数, 令${\mathit{\boldsymbol{\delta }}^l}$为第$l$层卷积层偏置$b$引起的$E$的误差, 则

$ {\mathit{\boldsymbol{\delta }}^l} = \frac{{\partial E}}{{\partial {b^l}}} = \frac{{\partial E}}{{\partial {\mu ^l}}}\frac{{\partial {\mu ^l}}}{{\partial {b^l}}} = \frac{{\partial E}}{{\partial {\mu ^l}}} $ (3)

有如下递推关系:

$ \begin{array}{l} {\mathit{\boldsymbol{\delta }}^l} = \frac{{\partial E}}{{\partial {x^l}}}\frac{{\partial {x^l}}}{{\partial {\mu ^l}}} = \frac{{\partial E}}{{\partial {\mu ^{l + 1}}}}\frac{{\partial {\mu ^{l + 1}}}}{{\partial {x^l}}}\frac{{\partial {x^l}}}{{\partial {\mu ^l}}} = \\ \;\;\;\;\;\;\;\;{\rm{ }}{\delta ^{l + 1}}{({\mathit{\boldsymbol{W}}^{l + 1}})^{\rm{T}}}f^\prime ({\mu ^l}) \end{array} $ (4)

$ \Delta {\mathit{\boldsymbol{W}}^l} = \frac{{\partial E}}{{\partial {\mathit{\boldsymbol{W}}^l}}} = \frac{{\partial E}}{{\partial {\mu ^l}}}\frac{{\partial {\mu ^l}}}{{\partial {\mathit{\boldsymbol{W}}^l}}} = {({\mathit{\boldsymbol{\delta }}^l})^{\rm{T}}}{x^{l-1}} $ (5)

式(3)和式(5)中得到的$\frac{{\partial E}}{{\partial {\mathit{\boldsymbol{W}}^l}}}$$\frac{{\partial E}}{{\partial {b^l}}}$和负的学习率$\eta $相乘即可得到该层的权值更新, 即

$ \begin{array}{l} \Delta {\mathit{\boldsymbol{W}}^l} =-\eta \frac{{\partial E}}{{\partial {\mathit{\boldsymbol{W}}^l}}} =-\eta \frac{{\partial E}}{{\partial {\mu ^l}}}\frac{{\partial {\mu ^l}}}{{\partial {\mathit{\boldsymbol{W}}^l}}} = \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;-\eta {({\mathit{\boldsymbol{\delta }}^l})^{\rm{T}}}{x^{l - 1}} \end{array} $ (6)

$ \Delta {b^l} =-\eta \frac{{\partial E}}{{\partial {b^l}}} =-\eta \frac{{\partial E}}{{\partial {\mu ^l}}}\frac{{\partial {\mu ^l}}}{{\partial {b^l}}} =-\eta {\mathit{\boldsymbol{\delta }}^l} $ (7)

$l$层中${b^l}$引起的${x^l}$的偏差为

$ \Delta {x^l} \approx \frac{{\partial {x^l}}}{{\partial {b^l}}}\Delta {b^l} = f^\prime ({\mu ^l})\Delta {b^l} $ (8)

第2层神经元的偏差$\Delta {\mu ^2}$

$ \Delta {\mu ^2} = \frac{{\partial {\mu ^2}}}{{\partial {x^l}}}\Delta {x^l} = {\mathit{\boldsymbol{W}}^2}f^\prime ({\mu ^l})\Delta {b^l} $ (9)

类似地, 最终输出误差函数的偏差$\Delta E$

$ \begin{array}{l} \Delta E = f\prime ({x^1}){\mathit{\boldsymbol{W}}^2}f^\prime ({x^2}){\mathit{\boldsymbol{W}}^3}f^\prime ({x^3}) \ldots \times {\rm{ }}\\ \;\;\;\;\;\;\;\;\;{\mathit{\boldsymbol{W}}^n}f^\prime ({x^n})\frac{{\partial E}}{{\partial {x^n}}}\Delta {b^l} \end{array} $ (10)

对式(10)两边同时除以$\Delta {b^l}$, 则有

$ \begin{array}{l} \frac{{\Delta E}}{{\Delta {b^l}}} = \frac{{\partial E}}{{\partial {b^l}}} = f^\prime ({x^1}){\mathit{\boldsymbol{W}}^2}f^\prime ({x^2}){\mathit{\boldsymbol{W}}^3}f^\prime ({x^3}) \ldots \times {\rm{ }}\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\mathit{\boldsymbol{W}}^n}f^\prime ({x^n})\frac{{\partial E}}{{\partial {x^n}}} \end{array} $ (11)

由式(11)可见, 对于神经网络中的激活函数$\mathit{f}\left( x \right)$, 若$\;f\prime (x) < 1$, 则层数$n$较大的情况下$\frac{{\Delta E}}{{\Delta {b^l}}} \approx 0$, 即第1层网络参数因不能得到反向传播的结果而不能有效训练, 导致深层的神经网络的表现反而不如浅层网络, 这种现象称作梯度消失现象[27]

为了解决深层神经网络梯度消失的问题, 本文采用中间层监督方法设计网络模型, 在如图 1所示的中间监督层, 采用均方误差作为监督层误差函数, 利用随机梯度下降法(SGD)最小化该误差函数。监督层误差函数${E_1}({\mathit{\boldsymbol{\theta }}_1})$定义式为

$ {E_1}({\mathit{\boldsymbol{\theta }}_1}) = \frac{1}{N}\sum\limits_{i = 1}^N {{{\left\| {{\mathit{\boldsymbol{Y}}_i}-{F_1}({\mathit{\boldsymbol{X}}_i};{\mathit{\boldsymbol{\theta }}_1})} \right\|}^2}} $ (12)

式中, $N$是训练样本的数量, ${{F_1}}$是第1层至第7层从低分辨率到高分辨率图像学习到的一种映射函数, ${\mathit{\boldsymbol{\theta }}_1} = \{ {\mathit{\boldsymbol{W}}_1}, {\mathit{\boldsymbol{W}}_2}, \ldots, {\mathit{\boldsymbol{W}}_7}, {b_1}, {b_2}, \ldots {\rm{ }}, {b_7}\} $, ${{\mathit{\boldsymbol{Y}}_i}}$是第$i$幅标准高分辨率图像(Ground Truth HR), ${{\mathit{\boldsymbol{X}}_i}}$是输入的第$i$幅低分辨率图像。通过${E_1}({\mathit{\boldsymbol{\theta }}_1})$反向传播的梯度值与图像重建部分构造的重建误差函数${E_2}({\mathit{\boldsymbol{\theta }}_2})$反向传播的梯度值共同迭代更新各层的卷积权重, 使前几层的网络层也能够充分完成权重更新, 改善了深层卷积神经网络反向梯度传播消失现象, 提高了训练得到的网络模型的准确性。

1.4 图像重建

输入的低分辨率图像和对应的高分辨图像包含的图像信息有很大的相似性, 因而两者的残差图像的像素值大多数为0或者很小的数值。因此本文基于卷积神经网络的残差学习思想, 在图像重建阶段构造了网络模型的重建误差函数${E_2}({\mathit{\boldsymbol{\theta }}_2})$, 定义式为

$ \begin{array}{l} {E_2}({\mathit{\boldsymbol{\theta }}_2}) = \frac{1}{N}\sum\limits_{i = 1}^N {{{\left\| {{\mathit{\boldsymbol{Y}}_i}-{\mathit{\boldsymbol{X}}_i}-{F_2}({\mathit{\boldsymbol{X}}_i};{\mathit{\boldsymbol{\theta }}_2})} \right\|}^2}} = \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\frac{1}{N}\sum\limits_{i = 1}^N {{{\left\| {\mathit{\boldsymbol{r}}-{F_2}({\mathit{\boldsymbol{X}}_i};{\mathit{\boldsymbol{\theta }}_2})} \right\|}^2}} \end{array} $ (13)

式中, $N$是训练样本的数量, ${X_i}$为输入的第$\;i$幅低分辨率图像, ${\mathit{\boldsymbol{\theta }}_2} = \{ {\mathit{\boldsymbol{W}}_1}, {\mathit{\boldsymbol{W}}_2}, \ldots, {\mathit{\boldsymbol{W}}_{16}}, {b_1}, {b_2}, \ldots {b_{16}}\} $, $\mathit{\boldsymbol{r}}$是标准高分辨率图像${{\mathit{\boldsymbol{Y}}_i}}$与低分辨图像${{\mathit{\boldsymbol{X}}_i}}$的残差图像, ${{F_2}}$是第1层至第16层学习残差图像得到的一种映射函数。由于网络仅学习残差图像$\mathit{\boldsymbol{r}}$, 减少了网络模型的学习任务, 而且与SRCNN仅单一依赖预测的高分辨率图像完成高分辨率图像重建相比, 本文使用标准高分辨率图像、输入的低分辨图像和网络模型预测得到的残差图像三部分共同完成模型训练阶段高分辨率图像的重建, 提高了图像的重建精度。

2 实验结果与分析

网络模型训练时采用的硬件平台为Intel(R) Xeon(R) CPU E5-1650 v4、64 GB内存、Tesla K20c GPU, 模型测试环境为Intel i5 6200U CPU、4 GB内存、Nvidia Geforce 920M显卡, 软件平台为MATLAB 2017a、Caffe和Matconvernet-1.0-beta24。在网络训练中学习率始终是固定的, 每层学习率均为10-4。在标准测试集Set5和Set14进行了图像重建实验, 并与双三次插值、A+[15]、SelfEx[28]和SRCNN[17]方法进行了比较, 对比方法的实验结果均由原文作者所公开的源码测试所得。使用峰值信噪比(PSNR)和结构相似度(SSIM)作为衡量图像重建质量的客观指标。对于高分辨率图像$\mathit{\boldsymbol{Y}}$和重建的图像${\mathit{\boldsymbol{\tilde Y}}}$, PSNR和SSIM为

$ {\rm{PSNR}} = 10{\rm{lg}}\frac{{\mathit{MN}}}{{{{\left\| {\mathit{\boldsymbol{Y}}-\mathit{\boldsymbol{\tilde Y}}} \right\|}^2}}} $ (14)

$ {\rm{SSIM}} = \frac{{(2{\mu _Y}{\mu _{\mathit{\boldsymbol{\tilde Y}}}} + {C_1})\left( {{\sigma _{\mathit{\boldsymbol{Y\tilde Y}}}} + {C_2}} \right)}}{{\left( {\mu _\mathit{\boldsymbol{Y}}^2 + \mu _{\mathit{\boldsymbol{\tilde Y}}}^2 + {C_1}} \right)\left( {\sigma _\mathit{\boldsymbol{Y}}^2 + \sigma _{\mathit{\boldsymbol{\tilde Y}}}^2 + {C_2}} \right)}} $ (15)

式中, $\mathit{M}$$\mathit{N}$为图像的尺寸, ${{\mu _\mathit{\boldsymbol{Y}}}}$${\sigma _\mathit{\boldsymbol{Y}}}$分别为原始高分辨率图像的平均灰度值和方差, ${{\mu _{\mathit{\boldsymbol{\tilde Y}}}}}$${\sigma _{\mathit{\boldsymbol{\tilde Y}}}}$分别为重建后图像的灰度平均值和方差, ${{\sigma _{\mathit{\boldsymbol{Y\tilde Y}}}}}$为原始高分辨率图像和重建图像的协方差, ${{C_1}}$, ${{C_2}}$为常数。

图 3是Set14中zebra原图及局部放大2倍图, 采用不同尺度因子(2、3、4)模糊后, 采用SRCNN和本文方法重建结果的局部放大2倍图。由于SRCNN的网络仅由单一尺度因子(此实验中尺度因子为3)模糊的图像训练, 所以得到的模型仅对某个模糊范围的图像有好的重建效果, 当尺度因子为4时重建图像的边缘有明显的振铃效应现象, 而本文方法重建图像在边缘细节部分的表现均优于SRCNN。

图 3 对Set 14中Zebra采用不同尺度因子模糊后SRCNN和本文方法重建结果对比图
Fig. 3 The reconstruction results with different upscaling factor 2, 3 and 4 on Zebra
((a) original high resolution image; (b) SRCNN result; (c) our result)

图 4图 7为Set5中Bird、Butterfly、Head和Baby图像采用尺度因子3模糊后, 不同方法的重建图像。可以看出, 本文方法重建图像的清晰度和边缘锐度更好, 细节更丰富, 整体视觉效果更好。

图 4 Set 5中Bird重建对比图
Fig. 4 Result of super resolution on Bird image with 3 upscaling factor
((a) original high resolution image; (b) Bicubic result; (c) SRCNN result; (d) our result)
图 5 Set 5中Butterfly重建对比图
Fig. 5 Result of super resolution on Butterfly image with 3 upscaling factor
((a) original high resolution image; (b) Bicubic result; (c) SRCNN result; (d) our result)
图 6 Set 5中Head重建对比图
Fig. 6 Result of super resolution on Head image with 3 upscaling factor
((a) original high resolution image; (b) Bicubic result; (c) SRCNN result; (d) our result)
图 7 Set 5中Baby重建对比图
((a) original high resolution image; (b) Bicubic result; (c) SRCNN result; (d) our result)
Fig. 7 Result of super resolution on Baby image with 3 upscaling factor

图 8为统计的Set5测试集重建结果的峰值信噪比(PSNR)收敛曲线, 两曲线是在本文方法模型是否采用中间层监督的前提下, 各迭代训练55万次得到的结果。表 1是对Set5和Set14中图像采用不同尺度因子模糊后用不同方法重建图像的PSNR和SSIM对比。表 2是对Set5利用不同尺度因子模糊后用不同方法重建图像的耗时对比。

图 8 两种方法在Set5测试集的峰值信噪比(PSNR)收敛曲线
Fig. 8 The convergence curves of two methods on dataset Set5

表 1 对Set5和Set14利用不同尺度因子模糊后用不同方法重建图像的PSNR和SSIM对比
Table 1 PSNR/SSIM of different methods with upscaling factor 2, 3 and 4 on datasets Set5, Set14

下载CSV
数据库 尺度因子 双三次插值
(PSNR/dB)/SSIM
A+
(PSNR/dB)/SSIM
SelfEx
(PSNR/dB)/SSIM
SRCNN
(PSNR/dB)/SSIM
本文方法
(PSNR/dB)/SSIM
2 33.66/0.992 36.54/0.954 36.49/0.953 36.66/0.954 36.81/0.956
Set5 3 30.39/0.868 32.58/0.908 32.58/0.909 32.75/0.909 32.97/0.914
4 28.42/0.810 30.28/0.860 30.31/0.861 30.31/0.862 30.72/0.882
2 30.24/0.868 32.28/0.905 32.22/0.903 32.42/0.906 32.46/0.907
Set14 3 27.55/0.774 29.13/0.818 29.16/0.819 29.28/0.820 29.31/0.823
4 26.00/0.702 27.32/0.749 27.40/0.751 27.49/0.750 27.56/0.756
平均值 29.38/0.836 31.36/0.866 31.36/0.866 31.49/0.867 31.64/0.873

表 2 对Set5和Set14利用不同尺度因子模糊后用不同方法重建图像的耗时对比
Table 2 CPU time of different methods with upscaling factor 2, 3 and 4 on datasets Set5, Set14

下载CSV
/s
数据库 尺度因子 双三次插值 A+ SelfEx SRCNN 本文方法
2 0.00 0.52 59.38 5.31 2.50
Set5 3 0.00 0.32 42.66 5.23 1.92
4 0.00 0.24 35.96 5.22 2.51
2 0.00 1.14 149.72 10.88 5.12
Set14 3 0.00 0.65 106.05 10.63 4.07
4 0.00 0.49 90.95 10.52 5.01

图 8可以看出, 与不使用中间层监督的方法相比, 使用中间层监督的方法PSNR有明显提高, 表明采用中间层监督的方法对深层卷积神经网络反向梯度传播消失的现象有明显的改善作用。从表 1可以看出, 本文方法与双三次插值、A+和SelfEx方法相比, 效果提升较明显; 在不同尺度因子下, 本文方法的PSNR比其他3种方法平均分别提高了2.26 dB、0.28 dB和0.28 dB, SSIM平均分别提高了0.037、0.007和0.007;与SRCNN算法相比PSNR平均提高了0.15 dB, SSIM平均提高了0.006, 尤其是对于Set5提高更明显。由于SRCNN只采用尺度因子3模糊后的图像对卷积神经网络模型进行训练, 在标准数据集Set5、尺度因子为4时本文方法的PSNR/SSIM比SRCNN高0.41 dB/0.02, 即便是尺度因子为3时, PSNR/SSIM也有一定程度的提高。而且从表 2可以看出, 本文方法重建图像所耗用的时间不及SRCNN的一半, 有利于实现实时性应用。

3 结论

本文基于深度学习卷积神经网络的思想, 针对SRCNN存在的不足进行了改进, 提出了基于中间层监督卷积神经网络的图像超分辨率重建方法, 提高了图像重建的质量及精度。在标准测试集Set5和Set14上的实验结果表明, 本文方法与其他方法相比, 在主观视觉评价和客观量化评价上均具有更好的表现, 运行时间也有明显的优势。由于本文方法的网络结构是基于通用的卷积神经网络设计的, 重建的高分辨率图像与真实的高分辨率图像仅是低层次的像素值上接近, 较容易出现重建图像边缘趋于平滑、缺少一些细节上的真实感的问题。下一步的工作是使重建的高分辨率图像与真实的高分辨率图像在高层次的抽象特征上更接近, 这也是目前基于学习的图像超分辨率重建所共同面对的问题。

参考文献

  • [1] Zhang Y, Li J Z, Li D L, et al. Super-resolution reconstruction for UAV video[J]. Journal of Image and Graphics, 2016, 21(7): 967–976. [张岩, 李建增, 李德良, 等. 无人机侦察视频超分辨率重建方法[J]. 中国图象图形学报, 2016, 21(7): 967–976. ] [DOI:10.11834/jig.20160715]
  • [2] Zhao J J, Fang Q, Liang Z C, et al. Sketch face recognition based on super-resolution reconstruction[J]. Journal of Image and Graphics, 2016, 21(2): 218–224. [赵京晶, 方琪, 梁植程, 等. 超分辨率重建的素描人脸识别[J]. 中国图象图形学报, 2016, 21(2): 218–224. ] [DOI:10.11834/jig.20160211]
  • [3] Hu C S, Zhan S, Wu C Z. Image super-resolution based on deep learning features[J]. Acta Automatica Sinica, 2017, 43(5): 814–821. [胡长胜, 詹曙, 吴从中. 基于深度特征学习的图像超分辨率重建[J]. 自动化学报, 2017, 43(5): 814–821. ] [DOI:10.16383/j.aas.2017.c150634]
  • [4] Su H, Zhou J, Zhang Z H. Survey of super-resolution image reconstruction methods[J]. Acta Automatica Sinica, 2013, 39(8): 1202–1213. [苏衡, 周杰, 张志浩. 超分辨率图像重建方法综述[J]. 自动化学报, 2013, 39(8): 1202–1213. ] [DOI:10.3724/SP.J.1004.2013.01202]
  • [5] Chavez-Roman H, Ponomaryov V. Super resolution image generation using wavelet domain interpolation with edge extraction via a sparse representation[J]. IEEE Geoscience and Remote Sensing Letters, 2014, 11(10): 1777–1781. [DOI:10.1109/LGRS.2014.2308905]
  • [6] Tai Y W, Liu S C, Brown M S, et al. Super resolution using edge prior and single image detail synthesis[C]//Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010: 2400-2407. [DOI:10.1109/CVPR.2010.5539933]
  • [7] Zhang K B, Gao X B, Tao D C, et al. Single image super-resolution with non-local means and steering kernel regression[J]. IEEE Transactions on Image Processing, 2012, 21(11): 4544–4556. [DOI:10.1109/TIP.2012.2208977]
  • [8] Xu J, Chang Z G, Fan J L. Image superresolution by midfrequency sparse representation and total variation regularization[J]. Journal of Electronic Imaging, 2015, 24(1): #013039. [DOI:10.1117/1.JEI.24.1.013039]
  • [9] Zhang K B, Tao D C, Gao X B, et al. Learning multiple linear mappings for efficient single image super-resolution[J]. IEEE Transactions on Image Processing, 2015, 24(3): 846–861. [DOI:10.1109/TIP.2015.2389629]
  • [10] Deng C Z, Tian W, Wang S Q, et al. Super-resolution reconstruction of approximate sparsity regularized infrared images[J]. Optics and Precision Engineering, 2014, 22(6): 1648–1654. [邓承志, 田伟, 汪胜前, 等. 近似稀疏正则化的红外图像超分辨率重建[J]. 光学精密工程, 2014, 22(6): 1648–1654. ] [DOI:10.3788/OPE.20142206.1648]
  • [11] Chang H, Yeung D Y, Xiong Y M. Super-resolution through neighbor embedding[C]//Proceedings of 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2004: Ⅰ. [DOI:10.1109/CVPR.2004.1315043]
  • [12] Cao X, Chen X H, Pan R H. Fast image super-resolution algorithm based on sparse representation[J]. Computer Engineering, 2015, 41(6): 211–215, 220. [曹翔, 陈秀宏, 潘荣华. 基于稀疏表示的快速图像超分辨率算法[J]. 计算机工程, 2015, 41(6): 211–215, 220. ] [DOI:10.3969/j.issn.1000-3428.2015.06.038]
  • [13] Zeyde R, Elad M, Protter M. On single image scale-up using sparse-representations[C]//Proceedings of the 7th International Conference on Curves and Surfaces. Avignon, France: Springer, 2012: 711-730. [DOI:10.1007/978-3-642-27413-8_47]
  • [14] Timofte R, De V, Van Gool L. Anchored neighborhood regression for fast example-based super-resolution[C]//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013: 1920-1927. [DOI:10.1109/ICCV.2013.241]
  • [15] Timofte R, De Smet V, Van Gool L. A+: adjusted anchored neighborhood regression for fast super-resolution[C]//Proceedings of the 12th Asian Conference on Computer Vision. Singapore: Springer, 2014: 111-126. [DOI:10.1007/978-3-319-16817-3_8]
  • [16] Schulter S, Leistner C, Bischof H. Fast and accurate image upscaling with super-resolution forests[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 3791-3799. [DOI:10.1109/CVPR.2015.7299003]
  • [17] Dong C, Loy C C, He K M, et al. Learning a deep convolutional network for image super-resolution[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 184-199. [DOI:10.1007/978-3-319-10593-2]
  • [18] He K M, Zhang X Y, Ren S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904–1916. [DOI:10.1109/TPAMI.2015.2389824]
  • [19] Kim J, Lee J K, Lee K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1646-1654. [DOI:10.1109/CVPR.2016.182]
  • [20] Xiao J S, Liu E Y, Zhu L, et al. Improved image super-resolution algorithm based on convolutional neural network[J]. Acta Optica Sinica, 2017, 37(3): #0318011. [肖进胜, 刘恩雨, 朱力, 等. 改进的基于卷积神经网络的图像超分辨率算法[J]. 光学学报, 2017, 37(3): #0318011. ] [DOI:10.3788/AOS201737.0318011]
  • [21] Li S M, Lei G Q, Fan R. Depth map super-resolution reconstruction based on convolutional neural networks[J]. Acta Optica Sinica, 2017, 37(12): #1210002. [李素梅, 雷国庆, 范如. 基于卷积神经网络的深度图超分辨率重建[J]. 光学学报, 2017, 37(12): #1210002. ] [DOI:10.3788/AOS201737.1210002]
  • [22] Xu K S, Wang H L, Tang P J. Image captioning with deep LSTM based on sequential residual[C]//Proceedings of 2017 IEEE International Conference on Multimedia and Expo. Hong Kong, China: IEEE, 2017: 361-366. [DOI:10.1109/ICME.2017.8019408]
  • [23] Sun X, Li X G, Li J F, et al. Review on deep learning based image super-resolution restoration algorithms[J]. Acta Automatica Sinica, 2017, 43(5): 697–709. [孙旭, 李晓光, 李嘉锋, 等. 基于深度学习的图像超分辨率复原研究进展[J]. 自动化学报, 2017, 43(5): 697–709. ] [DOI:10.16383/j.aas.2017.c160629]
  • [24] Wei S E, Ramakrishna V, Kanade T, et al. Convolutional pose machines[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 4724-4732. [DOI:10.1109/CVPR.2016.511]
  • [25] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 770-778. [DOI:10.1109/CVPR.2016.90]
  • [26] Jia Y Q, Shelhamer E, Donahue J, et al. Caffe: convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando, Florida: ACM, 2014: 675-678. [DOI:10.1145/2647868.2654889]
  • [27] Sun Y W, Li L T, Cong P, et al. Super-resolution method for radiation image based on deep learning[J]. Atomic Energy Science and Technology, 2017, 51(5): 890–895. [孙跃文, 李立涛, 丛鹏, 等. 基于深度学习的辐射图像超分辨率重建方法[J]. 原子能科学技术, 2017, 51(5): 890–895. ] [DOI:10.7538/yzk.2017.51.05.0890]
  • [28] Huang J B, Singh A, Ahuja N. Single image super-resolution from transformed self-exemplars[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 5197-5206. [DOI:10.1109/CVPR.2015.7299156]