Print

发布时间: 2019-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180410
2019 | Volume 24 | Number 2




    ChinaMM 2018    




  <<上一篇 




  下一篇>> 





递归式多阶特征融合图像超分辨率算法
expand article info 佟骏超, 费加罗, 陈靖森, 李恒, 丁丹丹
杭州师范大学信息科学与工程学院, 杭州 311121

摘要

目的 近年来,卷积神经网络在解决图像超分辨率的问题上取得了巨大成功,不同结构的网络模型相继被提出。通过学习,这些网络模型对输入图像的特征进行抽象、组合,进而建立了从低分辨率的输入图像到高分辨率的目标图像的有效非线性映射。在该过程中,无论是图像的低阶像素级特征,还是高阶各层抽象特征,都对像素间相关性的挖掘起了重要作用,影响着目标高分辨图像的性能。而目前典型的超分辨率网络模型,如SRCNN(super-resolution convolutional neural network)、VDSR(very deep convolutional networks for super-resolution)、LapSRN(Laplacian pyramid super-resolution networks)等,都未充分利用这些多层次的特征。方法 提出一种充分融合网络多阶特征的图像超分辨率算法:该模型基于递归神经网络,由相同的单元串联构成,单元间参数共享;在每个单元内部,从低阶到高阶的逐级特征被级联、融合,以获得更丰富的信息来强化网络的学习能力;在训练中,采用基于残差的策略,单元内使用局部残差学习,整体网络使用全局残差学习,以加快训练速度。结果 所提出的网络模型在通用4个测试集上,针对分辨率放大2倍、3倍、4倍的情况,与深层超分辨率网络VDSR相比,平均分别能够获得0.24 dB、0.23 dB、0.19 dB的增益。结论 实验结果表明,所提出的递归式多阶特征融合图像超分辨率算法,有效提升了性能,特别是在细节非常丰富的Urban100数据集上,该算法对细节的处理效果尤为明显,图像的客观质量与主观质量都得到显著改善。

关键词

图像超分辨率; 卷积神经网络; 特征融合; 递归神经网络; 残差学习

Multi-level feature fusion image super-resolution algorithm with recursive neural network
expand article info Tong Junchao, Fei Jialuo, Chen Jingsen, Li Heng, Ding Dandan
School of Information Science and Engineering, Hangzhou Normal University, Hangzhou 311121, China
Supported by: National Natural Science Foundation of China (61502133, 61602145); Natural Science Foundation of Zhejiang Province, China (LQ15F010001)

Abstract

Objective The recovery of a high-resolution (HR) image or video from its low-resolution (LR) counterpart, which is referred to as super resolution (SR), has attracted considerable attention in computer vision community. The SR problem is inherently ill-posed because the HR image or video actually does not exist. Several methods have been proposed to address this issue. Several typical methods, such as bilinear or bicubic interpolation, Lanczos resampling, and internal patch recurrence, have been used. Recently, learning-based methods, such as sparse coding, random forest, and convolutional neural networks (CNNs), have been utilized to create a mapping between LR and HR images. Particularly, the CNN-based scheme has achieved remarkable performance improvement. Different network models, such as SRCNN, VDSR, LapSRN, and DRRN, have been proposed. These models abstract and combine the features of LR image to establish an effective nonlinear mapping from LR input images to HR target images. In this process, low- and high-level features play an important role in determining the correlation between pixels and in improving the performance of restored HR images. However, the features of previous layer in the aforementioned typical SR network models are directly fed in the next layer, where multi-level features are incompletely utilized. Inspired by the recent DenseNet, we concatenate and fuse multi-level features from multilayers. Although multi-level features are utilized in this manner, the number of parameters is large, which costs long training time and large storage. Therefore, we employ a recursive network architecture for parameter sharing. The overall model develops an efficient CNN model that can utilize the multi-level features of CNN to improve the SR performance and can control the number of model parameters within an acceptable range. Method We propose an image SR model that utilizes multi-level features. The proposed multi-feature fusion recursive network (MFRN) is based on recursive neural network with the same units in series. The information of features is passed along the basic unit of MFRN, named as the multi-feature fusion unit (MFU). The parameters are shared among these basic units, and the required number of parameters is effectively reduced. The input status within each MFU is obtained from the previous unit with continuous memory mechanism. Then, the low-level to high-level features are concatenated and fused to obtain abundant features in describing the image. Valuable features are extracted and enhanced, which can accurately describe the mapping relationship between LR and HR. With regard to the training process, a residual learning strategy, which involves local residual learning inside each unit and global residual learning through the entire network, is adopted to accelerate the training speed. Specifically, a global residual learning strategy is employed in the training of the overall MFRN, and a local residual learning strategy is applied for MFU. The training difficulty is efficiently reduced, and typical phenomena, such as network degradation and vanishing gradient, can be avoided by combining the aforementioned strategies. In terms of the cost function, the averaged mean square error over the training set is minimized. We train a single model for multiple scales based on the proposed cost function and training methods. Result We use 291 pictures from public databases as the training set. In addition, data augmentation (rotation or flip) is applied. Images with different scales (×2, ×3, and ×4) are included in the training set. Therefore, only a single model is trained for all different scales. During the training process, we adopt an adaptive learning rate and an adjustable gradient clipping to accelerate the convergence rate while suppressing exploding gradients. We evaluate four network models with different numbers of MFUs, which correspond to 29, 37, 53, and 81 layers. The network with nine MFUs achieves the best performance by comparing the convergence rate and performance. Hence, we adopt nine MFUs in the final CNN model. Although the proposed network has 37 layers, it elegantly converges at 230 epochs and obtains remarkable gains. The dominant evaluation criteria of image quality, such as PSNR, SSIM, and IFC, are employed for the performance assessment of restored images. Experimental results show that the proposed model achieves average PSNR gains of 0.24, 0.23, and 0.19 dB compared with the very deep convolutional networks for super-resoluton(VDSR) with the general four test sets for ×2, ×3, and ×4 resolutions. Specifically, the proposed MFRN considerably improves the quality of restored images in the dataset Urban100 that contains rich details. In addition, the subjective quality of restored images is illustrated. The MFRN can produce relatively sharper edges than that of other methods. Conclusion A multilevel feature fusion image SR algorithm based on recursive neural network, referred to as MFRN, is proposed in this study. The MFRN consists of multiple MFUs. Several recursive units are stacked to learn the residual image between the HR and LR images. The parameters with the recursive learning scheme are shared among the units, thereby effectively reducing the number of network parameters. The features of different levels within each unit are concatenated and fused to provide intensive description of the images. In this way, the proposed MFRN can extract and adaptively enhance valuable features, which leads to accurate mapping between LR and HR images. During the training procedure, we adopt a local residual learning inside each unit and a global residual learning through the entire network. Thus, a single model is trained for different scales. Experimental results show that the proposed MFRN considerably improves the performance. Specifically, in the Urban100 dataset, MFRN achieves 0.4 dB PSNR gains compared with the classical VDSR model. In comparison with the basic recursive network DRRN, 0.14 dB PNSR improvement is obtained. With regard to the subjective quality, MFRN is focused on handling the details of images. The visual perception of images is remarkably improved.

Key words

image super-resolution; convolutional neural network; feature fusion; recursive neural network; residual learning

0 引言

图像超分辨率是根据低分辨率图像(LR)获得对应的高分辨率图像(HR)的过程。目前,图像超分辨率已经被广泛用于多种领域,如医学成像[1]、卫星成像[2]和电子监控[3]等。

对于一幅低分辨图像,在图像采集的模数转换过程中,往往并未采样得到对应的高分辨率图像,即高分辨图像并不真实存在,因此,图像超分辨率问题是一个不适定问题。而实际在解决该问题时,为使算法有明确的学习目标并能够客观评价算法性能,通常假定高分辨率图像为真实图像,通过下采样获得低分辨率图像,该低分辨率图像再经过算法映射得到恢复的高分辨率图像。基于上述假设,涌现出许多图像超分辨率算法,如基于自相似性的超分辨率算法SelfEx[4]、基于随机森林的超分辨率算法RFL[5]等。

近年来,借助于强大的学习能力,深度神经网络,尤其是卷积神经网络,为解决图像超分辨问题提供了新思路。Dong等人[6]最早进行了尝试,所提出的超分辨率卷积神经网络(SRCNN)包括3层,分别使用9×9、1×1、5×5尺寸的卷积核提取图像特征。SRCNN是一种典型的端到端的网络模型,其作者也尝试了更深的4层或5层的结构,性能并未有显著提升但训练时间却很长。可能正是因为这一点,SRCNN提出,在超分辨率问题中,网络深度不一定“越深越好”。

在2015年的ILSVRC分类比赛中,残差网络[7]取得了令人瞩目的成功。通过训练残差,网络训练时间被大大缩减,这也使得更深的网络结构成为可能。Kim等人[8]将残差网络用于图像超分辨率问题,所提出的深层超分辨率网络(VDSR)将网络层数加深到20层。在BSD100[9]基准测试集上,针对分辨率放大4倍,VDSR性能比SRCNN平均提高了0.39 dB。此后,图像超分辨率网络几乎都采用残差训练方法,网络深度也越来越深,也似乎越来越表明在该问题上网络“越深越好”。

不可避免地,随着网络深度的增加,参数规模也越来越大。因此,出现了从不同角度加深网络深度并控制参数规模的方法,意在以较低代价获得性能增益。Shi等人[10]认为,在网络学习之前通过双三次插值算法将低分辨率图像插值到目标分辨率,增加了计算成本。他们提出了一种亚像素卷积神经网络(ESPCN),将上采样操作设计在网络的末端,有效减少了参数数量,也降低了计算复杂度。Lai等人[11]设计了“金字塔”式的LapSRN网络结构,该结构有3级,每级完成一次2倍的上采样操作。在每级内部,首先通过若干卷积层来提取特征,然后通过一层反卷积层将提取的特征尺寸上采样2倍。通过连续的3级结构,最终可得到放大8倍的目标分辨率图像。与VDSR、ESPCN不同,LapSRN在网络的中部进行反卷积操作,由于尺寸是逐步放大,一定程度上减少了网络参数的数目。结果表明,LapSRN网络收敛速度较快,在BSD100基准测试集上,针对分辨率放大4倍的情况,LapSRN与VDSR相比,PSNR性能平均提升了0.03 dB。

上述方法都是通过改变上采样的位置来减少参数数量。Kim等人[12]另辟蹊径,通过递归的方式来共享参数,达到同样的目标。他们提出深度递归卷积网络(DRCN),采用链式结构构造了一个16层的递归网络。为方便训练,DRCN使用递归监督减少参数规模,并使用跳跃连接加快梯度在网络中的流动,提升了性能。实验结果表明,相对于VDSR,DRCN在4个通用测试集Set5[13]、Set14[14]、BSD100[9]和Urban100[4]下,针对分辨率放大4倍的情况,性能提升了-0.06~0.18 dB,值得注意的是,在BSD100数据集上,DRCN性能降低了0.06 dB。进一步地,Tai等人[15]提出深度递归残差网络(DRRN),同样借助于递归学习策略实现权值共享,并在网络的训练过程中多次利用残差学习加快训练过程。得益于这些策略的使用,DRRN在提高性能的同时有效地控制了参数数目。DRRN给出了20层和52层的实现,实验表明,在Urban100[4]基准测试集上,针对分辨率放大4倍,与VDSR相比,平均分别获得0.17 dB和0.24 dB的性能增益。

上述网络从不同角度加深了网络深度,显著提升了性能。然而,这些网络普遍都采用卷积层串联的方式,即每个卷积层仅接受上一层的输出,没有充分利用各卷积层所提取的分层特征信息。为此,提出递归式多阶特征融合图像超分辨率算法(MFRN)。MFRN基于递归网络架构,其基本组成单元为多阶特征融合单元(MFU)。MFU之间仍采用特征逐级连续传递的方式,并可以共享参数。在MFU内部,卷积层提取的多阶特征被进一步级联、融合,提高了网络的拟合精度。

本文的主要贡献包括:

1) 基于递归神经网络架构设计算法模型,特征信息在递归的基本单元——多阶特征融合单元间递归传递,形成权值共享,从而有效减少了参数数量。尽管所提出的网络深度多达37层,但能够在230个epoch后收敛,并获得明显性能增益。

2) 每个多阶特征融合单元通过连续内存机制[16]从前一单元获取状态,然后对本单元内的从低阶到高阶的各级特征进行级联、融合,以达到对有效信息的精确筛选,从而能够更加深度刻画低分辨率图像与高分辨率图像之间的映射关系。

3) 在网络训练过程中,充分利用残差网络的优势。具体地,在整体递归网络中使用全局残差学习策略,在多阶特征融合单元内使用局部残差学习策略。通过结合两种策略,有效降低了深层网络的训练难度,避免了网络退化、梯度弥散等问题。

1 超分辨率相关工作

受递归网络、深层网络与残差网络的启发,本文提出的模型结合了递归网络架构的优势,进一步加深了网络层数,并借助于残差网络的方式进行训练。下文将对残差网络ResNet、深层超分辨率网络VDSR、递归网络DRRN进行介绍,3种网络的结构如图 1所示,为了表达简洁,图中并未给出批量数据标准化与激活函数过程。

图 1 相关工作及所提出的多阶特征融合的递归网络结构
Fig. 1 The network structure of proposed multi-feature fusion recursive network and state-of-art methods
((a) ResNet; (b) VDSR; (c) DRRN; (d) MFRN)

1.1 ResNet

对于普通的神经网络,当达到一定深度时,会出现梯度弥散问题,即梯度在反向传播中会逐渐消失,从而导致无法对网络前几层的权重进行调整,使深层网络无法收敛。所以,直接增加网络的深度,往往不能提高网络的性能,还可能引起网络退化问题。为此,He等人[7]设计了易训练的、非常深的残差网络ResNet。在此之前,神经网络一般拟合的是输入与输出之间的潜在映射,而残差网络通过在残差单元中增加捷径连接,使单元中的卷积层拟合残差映射,如图 1(a)所示。设$x$表示输入,$H(x)$是残差单元的潜在映射,残差映射$F(x)$可表示为

$ \hat x = U\left( x \right) = \sigma \left( {F\left( {x,W} \right) + h\left( x \right)} \right) $ (1)

式中,$\widehat x$是残差单元的输出,$h(x)$是恒等映射:$h(x)=x$$W$表示权重(为表达简洁,略去了偏置项),$σ$表示ReLU激活函数。实验结果表明,残差网络更方便训练,从而很容易通过增加深度来提高网络性能。例如,He等人[7]所设计的网络结构深达152层,该网络在每个残差单元都使用了局部残差学习策略,在ImageNet分类中,直接将错误率降低到3.57%。

1.2 VDSR

与残差网络在每个残差单元中都使用局部残差学习不同,VDSR[8]引入了全局残差学习策略,即在输入的低分辨率图像和输出的高分辨率图像之间进行全局残差学习。如图 1(b)所示,右侧的残差分支包括20层卷积层,并且所有的卷积核尺寸都为3×3像素,网络的感受范围达到41×41像素。可见,深度的增加有效地扩大了网络感受范围,从而能够更好地挖掘图像像素间的关联度,提高网络性能。然而,随着深度的增加,网络的训练愈发困难,为此,VDSR采用了全局残差学习和自适应梯度裁剪策略来加快训练速度。实验结果表明,在NVIDIA GeForce GTX TITAN Z上,VDSR仅需要训练4 h左右就可以收敛。

1.3 DRRN

除了给训练带来困难,深度的增加还将导致参数数目增加,进而引起两个问题:一是网络容易过拟合,二是模型大,存储和重现有困难。为解决上述问题,Tai等人[15]提出了基于递归神经网络共享参数的DRRN结构。如图 1(c)所示,DRRN中的递归残差单元都拥有一个共同的输入,每个单元包含2个卷积层,单元间对应位置的卷积层共享参数。通过参数共享,DRRN的参数数量仅为VDSR的一半。

综上,上述基于深度神经网络的图像超分辨率算法从训练方法、参数规模等角度提出解决思路,在提升性能的同时,也降低了训练复杂度。在这些算法中,信息的流动都采用卷积层依次串联的方式。然而,不同的卷积层提取了图像不同维度的特征,这些特征对图像超分辨率的恢复都有贡献。本文提出了卷积后各层特征再融合的思想,设计了多阶特征融合单元,以自适应融合所提取的多阶特征。同时,充分利用上述网络结构的局部残差学习、全局残差学习以及递归学习等策略,来加快网络收敛的速度和减少参数数量,最终形成融合多阶特征的递归网络模型。

2 多阶特征融合的递归网络模型

2.1 网络结构

图 1 (d)所示,所提出的网络包括3部分:粗特征提取网络(CFENet)、多阶特征融合单元MFU以及全局残差学习。定义${\mathit{\boldsymbol{I}}_{{\rm{LR}}}}$${\mathit{\boldsymbol{I}}_{{\rm{HR}}}}$分别为低分辨率与高分辨率图像。先使用双三次插值算法,将低分辨率图像插值到目标分辨率,作为网络的输入

$ {\mathit{\boldsymbol{F}}_{ - 1}} = {H_{{\rm{bic}}}}\left( {{\mathit{\boldsymbol{I}}_{{\rm{LR}}}}} \right) $ (2)

式中,${H_{{\rm{bic}}}}$(·)为双三次插值函数,${\mathit{\boldsymbol{F}}_{ - 1}}$为经过双三次插值函数所得到的图像。因此,可以得到

$ {\mathit{\boldsymbol{F}}_0} = {H_{{\rm{CFEN}}}}\left( {{\mathit{\boldsymbol{F}}_{ - 1}}} \right) $ (3)

式中,${H_{{\rm{CFEN}}}}$为图像粗特征提取网络,其功能是通过一层卷积操作提取图像的浅层特征来作为多阶特征融合单元的输入。设该网络包括$D$个多阶特征融合单元,${\mathit{\boldsymbol{F}}_d}$表示第$d$个多阶特征融合单元的输出, ${\mathit{\boldsymbol{F}}_d}$${\mathit{\boldsymbol{F}}_{{\rm{ - 1}}}}$${\mathit{\boldsymbol{F}}_{\rm{0}}}$开始经过对应的${H_{{\rm{MFU}}}}$函数逐级计算得到

$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{F}}_d} = {H_{{\rm{MFU}},d}}\left( {{\mathit{\boldsymbol{F}}_{d - 1}} + {\mathit{\boldsymbol{F}}_0}} \right) = }\\ {{H_{{\rm{MFU}},d}}\left( {{H_{{\rm{MFU}},d - 1}}\left( { \cdots {H_{{\rm{MFU}},2}}\left( {{\mathit{\boldsymbol{F}}_{ - 1}} + {\mathit{\boldsymbol{F}}_0}} \right) \cdots } \right)} \right)} \end{array} $ (4)

式中,${H_{{\rm{MFU, }}d}}$表示第$d$个多阶特征融合单元,${H_{{\rm{MFU, }}d}}$是一个复合函数,包括卷积操作和ReLU激活函数。在每个${H_{{\rm{MFU, }}d}}$内,不同卷积层提取的图像特征被先级联、后融合,同样,我们使用递归学习策略,在MFU之间实现权值共享。

经过$D$个MFU,网络最终获得特征信息${\mathit{\boldsymbol{F}}_D}$,利用${\mathit{\boldsymbol{F}}_{{\rm{ - 1}}}}$${\mathit{\boldsymbol{F}}_{{\rm{end}}}}$构成全局残差学习架构,更多细节将在2.3节展开。

给定一个训练集$\left\{ {{\mathit{\boldsymbol{x}}^{\left( i \right)}}, {{\mathit{\boldsymbol{\tilde x}}}^{\left( i \right)}}} \right\}_{i = 1}^N$$N$表示训练集中训练数据的个数,${{{\mathit{\boldsymbol{\tilde x}}}^{\left( i \right)}}}$是真实高分辨率图像,${{\mathit{\boldsymbol{x}}^{\left( i \right)}}}$是低分辨率图像,定义损失函数为

$ L\left( \mathit{\boldsymbol{\theta }} \right) = \frac{1}{{2N}}\sum\limits_{i = 1}^N {{{\left\| {{{\mathit{\boldsymbol{\tilde x}}}^{\left( i \right)}} - {\mathit{\boldsymbol{I}}_{{\rm{HR}}}}\left( {{\mathit{\boldsymbol{x}}^{\left( i \right)}}} \right)} \right\|}^2}} $ (5)

式中,$\mathit{\boldsymbol{\theta }}$表示权重参数的集合,${\mathit{\boldsymbol{I}}_{{\rm{HR}}}}$为所获得的高分辨率图像,2.3节给出了更详细的介绍。通过小批量梯度下降算法和反向传播来优化目标函数方程。

2.2 多阶特征融合单元

图 2所示,所提出的多阶特征融合单元MFU基于残差学习结构,将各个卷积层提取的分层特征进行级联、融合,MFU与DenseNet思路类似,但不相同,3.4节详细对比了MFU与稠密网络DenseNet[17]及相关超分辨率网络模型。

图 2 所提出的多阶特征融合单元MFU的内部网络结构
Fig. 2 Network structure of the proposed multi-feature fusion unit (MFU)

定义${\mathit{\boldsymbol{F}}_{d - 1}}$${\mathit{\boldsymbol{F}}_d}$分别为多阶特征融合单元的输入和输出,两者都含有${Q_0}$个特征映射图。例如,第$d$个多阶特征融合单元的第2个卷积层可表示为

$ {\mathit{\boldsymbol{F}}_{d,2}} = \sigma \left( {{W_{d,2}}\left[ {{\mathit{\boldsymbol{F}}_{d - 1}},{\mathit{\boldsymbol{F}}_{d,1}},{\mathit{\boldsymbol{F}}_{d,2}}} \right]} \right) $ (6)

式中,$σ$为ReLU激活函数,${W_{d, 2}}$为第2个卷积层的权重,为了表达简洁,略去了偏置项。设${\mathit{\boldsymbol{F}}_{d, 1}}$${\mathit{\boldsymbol{F}}_{d, 2}}$分别包含${q_1}$${q_2}$个特征映射图,[${\mathit{\boldsymbol{F}}_{d - 1}}$, ${\mathit{\boldsymbol{F}}_{d, 1}}$, ${\mathit{\boldsymbol{F}}_{d, 2}}$]表示特征映射图的级联操作。因此,第$d$个多阶特征融合单元有${Q_0}{\rm{ + }}\left( {{q_1} + {q_2}} \right)$个特征映射图。

图 2可见,第$d$-1个多阶特征融合单元的特征映射图将直接输入至第$d$个多阶特征融合单元中进行级联操作。然后,借助于3×3的卷积层来自适应筛选特征并控制输出的信息

$ {\mathit{\boldsymbol{F}}_{d,{\rm{FFU}}}} = H_{{\rm{FFU}}}^d\left( {\left[ {{\mathit{\boldsymbol{F}}_{d - 1}} + {\mathit{\boldsymbol{F}}_{d,1}} + {\mathit{\boldsymbol{F}}_{d,2}}} \right]} \right) $ (7)

式中,$H_{{\rm{FFU}}}^d$表示在第$d$个多阶特征融合单元内使用3×3的卷积核来实现特征融合。

2.3 局部与全局残差学习

在每个多阶特征融合单元内部,使用局部残差学习策略来加快梯度在网络中的流动,同时也可以进一步改进网络的表达能力和减轻训练一个非常深的网络所带来的梯度消失问题,从而获得更好的性能

$ {\mathit{\boldsymbol{F}}_d} = {\mathit{\boldsymbol{F}}_0} + {\mathit{\boldsymbol{F}}_{d,{\rm{FFU}}}} $ (8)

此外,整个网络的训练还采用了全局残差策略

$ {\mathit{\boldsymbol{I}}_{{\rm{HR}}}} = {\mathit{\boldsymbol{F}}_{ - 1}} + {\mathit{\boldsymbol{F}}_{{\rm{end}}}} $ (9)

式中,${\mathit{\boldsymbol{F}}_{{\rm{ - 1}}}}$表示由双三次插值所得的模糊图像,在采用全局残差学习之前,前向卷积层所提取的所有特征都在MFU中被充分结合、筛选与提取,经过$D$个MFU,这些多阶特征被自适应地融合并形成${\mathit{\boldsymbol{F}}_D}$${\mathit{\boldsymbol{F}}_{{\rm{end}}}}$${\mathit{\boldsymbol{F}}_D}$与模糊图像求和再经过卷积得到。经过全局残差学习,得到了恢复的高分辨率图像${\mathit{\boldsymbol{I}}_{{\rm{HR}}}}$

3 实验结果及分析

3.1 实验条件

本文使用的训练集中共包括291幅图像,其中91幅图像来自Yang等人[18]提供的数据集,其余200幅图像来自伯克利分割数据集[9]。测试集选用的是Set5[13]、Set14[14]、BSD100[9]和Urban100[4],这些测试集分别有5幅、14幅、100幅和100幅图像。

在训练中,使用旋转和翻转两种方式来增加训练数据:1)旋转,将每幅原始图像旋转90°、180°、270°;2)翻转,将旋转后的图像再进行镜像翻转。经过上述操作,每1幅原始图像新增了7个版本,训练集扩充到2 328幅。另外,不同的分辨率放大倍数共享同一个网络模型,即只训练一个模型。网络模型设置小批量数据为20,动量参数为0.9,每个卷积层有128个卷积核,卷积核尺寸为3×3,权值衰减参数为10-4

采用与He等人[19]相同的办法进行权重初始化,即将每层的权重从高斯分布中采样进行初始化,高斯分布的均值为0,实验表明利用这种权重初始化方法配合使用ReLU激活函数,训练效果更佳。采用自适应学习率调整策略,初始学习率设为0.1,设置每10个epoch(期),学习率减半。由于所设定的初始学习率较大,在训练中使用自适应梯度裁减策略来加速收敛的速度,同时防止梯度爆炸。也就是说,初始学习率较大会造成梯度较大,将梯度限定在$\left[ { - \alpha /\eta , \alpha /\eta } \right]$之间,式中$\eta $是当前的学习率,$\alpha $=0.01为梯度裁减参数。该网络基于Caffe平台实现,使用NVIDIA GeForce GTX 1080TI(11 GB显存),对图像亮度分量进行训练。

3.2 实验结果比较与分析

为进一步确定多阶特征融合单元MFU的个数$D$,分别对$D$=7、9、13、20进行实验,分别对应29层、37层、53层、81层的网络。不同深度网络的收敛速度与性能对比如图 3所示。显然,当$D$=9时,网络获得最优性能。最终,采用9个特征融合单元, 即37层网络结构,在230个epoch后收敛。

图 3 基于Set5数据集,针对分辨率放大2倍,$D$=7、9、13、20所对应的网络在200 epoch内的收敛速度与性能对比
Fig. 3 Comparison on performance and covergence speed of different networks: scale factor ×2, $D$=7、9、13、20, Set5 dataset

在评价所重建的高分辨率图像的质量时,与VDSR、DRCN、DRRN等类似,对图像边缘部分进行裁剪,针对分辨率放大2倍、3倍、4倍的情况,每个边分别剪掉2、3、4行像素。

表 1对所提出的MFRN网络与双三次插值Bicubic、SRCNN、VDSR、DRCN、LapSRN、DRRN等方法的峰值信噪比(PSNR)和结构相似性(SSIM)性能进行了对比。显然,在所有数据集的不同缩放因子下,MFRN模型的PSNR与SSIM两个指标几乎都优于其他网络模型。尤其是在细节非常丰富的Urban100基准测试集上,MFRN极大地提升了重建图像的质量,针对分辨率放大2倍、3倍、4倍的情况,相较于基础递归网络结构DRRN,分别获得0.08 dB、0.04 dB、0.03 dB的增益。值得注意的是,表 1给出的LapSRN网络针对不同放大倍数分别训练了不同的模型,在此前提下,LapSRN在Set14上的平均性能比所提出的网络模型高0.02 dB。此外,本文还使用了信息保真度准则(IFC)[20]指标对图像质量进行了评价,IFC被誉为与主观评价打分结果最相似的评价标准[21]。如表 2所示,计算了所提出的MFRN的IFC指标,并引用了PsyCo[22]和LapSRN[11]所给出的关于其他网络的实验结果。通过对比发现,在大部分放大倍数与数据集上,MFRN的IFC性能有明显提升。同样,在针对不同放大倍数单独训练模型的前提下,仅在前3个数据集放大2倍的这种情况中,LapSRN的性能稍高于MFRN。

表 1 基准测试集下的PSRN/SSIM指标对比
Table 1 Average PSNR/SSIM on benchmark dataset

下载CSV
Dataset Scale Bicubic SRCNN VDSR DRCN LapSRN DRRN_B1U9 MFRN
Set5 ×2 33.66/0.929 9 36.66/0.954 2 37.53/0.958 7 37.63/0.958 8 37.52/0.95 9 37.66/0.958 9 37.75/0.959 5
×3 30.39/0.868 2 32.75/0.909 0 33.66/0.921 3 33.82/0.922 6 33.82/0.92 2 33.93/0.923 4 33.95/0.924 2
×4 28.42/0.810 4 30.48/0.862 8 31.35/0.883 8 31.53/0.885 4 31.54/0.88 5 31.58/0.886 4 31.62/0.888 2
Set14 ×2 30.24/0.868 8 32.45/0.906 7 33.03/0.912 4 33.04/0.911 8 33.08/0.91 3 33.19/0.913 3 33.24/0.913 9
×3 27.55/0.774 2 29.30/0.821 5 29.77/0.831 4 29.76/0.831 1 29.87/0.83 2 29.94/0.833 9 29.97/0.834 7
×4 26.00/0.702 7 27.50/0.751 3 28.01/0.767 4 28.02/0.767 0 28.19/0.77 2 28.18/0.770 1 28.17/0.771 6
BSD100 ×2 29.56/0.843 1 31.36/0.887 9 31.90/0.896 0 31.85/0.894 2 31.80/0.89 5 32.01/0.896 9 32.04/0.897 5
×3 27.21/0.738 5 28.41/0.786 3 28.82/0.797 6 28.80/0.796 3 28.82/0.79 8 28.91/0.799 2 28.93/0.799 9
×4 25.96/0.667 5 26.90/0.710 1 27.29/0.725 1 27.23/0.723 3 27.32/0.72 7 27.35/0.726 2 27.38/0.728 0
Urban100 ×2 26.88/0.840 3 29.50/0.894 6 30.76/0.914 0 30.75/0.913 3 30.41/0.91 0 31.02/0.916 4 31.16/0.918 1
×3 24.46/0.734 9 26.24/0.798 9 27.14/0.827 9 27.15/0.827 6 27.07/0.82 8 27.38/0.833 1 27.45/0.835 6
×4 23.14/0.657 7 24.52/0.722 1 25.18/0.752 4 25.14/0.751 0 25.21/0.75 6 25.35/0.757 6 25.42/0.761 9
注:加粗字体表示最优性能。

表 2 基准测试集下的IFC指标对比
Table 2 Average IFC on benchmark dataset

下载CSV
Dataset Scale Bicubic SRCNN VDSR DRCN LapSRN DRRN_B1U9 MFRN
Set5 ×2 6.083 8.036 8.569 8.326 9.010 8.583 8.753
×3 3.580 4.658 5.221 5.202 5.194 5.241 5.362
×4 2.329 2.991 3.547 3.502 3.559 3.581 3.687
Set14 ×2 6.105 7.784 8.178 8.025 8.501 8.181 8.357
×3 3.473 4.338 4.730 4.686 4.662 4.732 4.842
×4 2.237 2.751 3.133 3.066 3.147 3.147 3.238
BSD100 ×2 5.695 7.242 7.169 7.220 7.715 7.43 7.620
×3 3.168 3.879 4.043 4.070 4.057 4.129 4.222
×4 1.993 2.412 2.627 2.587 2.677 2.669 2.743
Urban100 ×2 6.245 7.989 8.645 8.527 8.907 8.653 8.947
×3 3.620 4.584 5.194 5.187 5.168 5.259 5.421
×4 2.361 2.963 3.496 3.412 3.530 3.536 3.673
注:加粗字体表示最优性能。

各方法所获得的高分辨图像的主观质量比较如图 4所示。可以看出,MFRN能够更好地保留图像的细节。以图 4所给出的局部图像为例,MFRN能够重建出相对清晰的边缘,而其他方法得到的结果都过于平滑,线条偏模糊,甚至得到了错误的结果。

图 4 各方法所获得的高分辨图像的主观质量对比
Fig. 4 The subjective quality comparison of super-resolution results from different methods
((a)original images; (b)Bicubic; (c)SRCNN; (d)VDSR; (e)DRCN; (f)LapSRN; (g)DRRN_B1U9; (h)MFRN)

本文所提出的MFRN与稠密网络(DenseNet)[17]都采用了多维特征图级联的思想。受DenseNet启发,在单幅图像超分辨率问题上,先后有基于稠密网络的跳跃连接超分辨率网络(SRDenseNet)[23]与残差稠密网络(RDN)[16]被提出。SRDenseNet采用DenseNet的稠密块作为网络的基本组成单元,单元之间采用稠密的跳跃方式连接。RDN采用全局与局部稠密连接结合的策略,在每个稠密块中,每一层所提取的特征信息以一种前馈的方式连接到之后的每一层。SRDenseNet与RDN都获得了可观的增益,表明了充分利用多层次特征图对图像性能提升具有积极作用。

然而,上述不断迭代的级联将导致通道数与网络参数急剧增加,造成瞬时显存的占用率剧增,极易引起显存溢出,从而给硬件设备带来极大挑战。虽然本文所提出的MFRN同样也利用了网络不同卷积层所提取的图像多层次特征,但更注重对参数规模的控制,是一种“全局稀疏,局部稠密”的网络。其特点体现在:1)在MFU内部采用稠密增量学习机制,借助于局部残差,在已有的特征图基础上继续追加学习新特征;2) MFU之间不存在稠密连接,而是一种稀疏连接,后续MFU只需要在输入特征图的基础上,继续学习高维度特征;3) MFU之间共享参数,网络深度的增加并不影响参数规模,从而有效降低了算法对硬件的需求,同等环境下能够加快图像处理速度。

图 5给出了各种方法的性能与参数对比,尽管RDN达到了所列举方法中的最优性能,但其参数数量高达1 500万,是MFRN的8.8倍。由于SRDenseNet并未给出基于Urban100数据集,针对分辨率放大2倍的性能,因此在图中未绘制。但经过统计,SRDenseNet的参数数目达430万,是MFRN的2.4倍。借助于递归网络的优势,MFRN实现了参数共享,参数数目为170万,在同等规模参数的网络中,获得了最优性能。

图 5 基于Urban100数据集,针对分辨率放大2倍,各方法的性能与参数数量对比
Fig. 5 Comparison on performance and number of parameters of different methods: scale factor ×2, Urban100 dataset

4 结论

本文提出了递归式多阶特征融合图像超分辨率算法MFRN。MFRN采用“全局稀疏,局部稠密”的结构,由多阶特征融合单元MFU组成,并通过递归学习,形成MFU间权值共享,从而有效减少网络的参数数量。在每个MFU内,采用稠密连接,从低阶到高阶的各级特征被级联、融合,并对特征信息自适应地筛选,从而能够更加精准地刻画低分辨率图像和高分辨率图像之间的映射。在MFU之间,采用稀疏连接,后续MFU只需要在输入特征图的基础上,继续提取高维度特征。在训练过程中,整体递归网络使用全局残差学习策略,多阶特征融合单元使用局部残差学习策略,两种策略的结合有效降低了训练深层网络的难度。实验结果表明,与同等参数规模的几种典型网络相比,MFRN能够达到最优性能。在主观质量上,MFRN对细节的处理效果尤为明显,图像质量得到显著改善。

参考文献

  • [1] Shi W Z, Caballero J, Ledig C, et al. Cardiac image super-resolution with global correspondence using multi-atlas patchmatch[C]//Proceedings of the 16th International Conference. Berlin Heidelberg: Springer, 2013: 9-16.[DOI: 10.1007/978-3-642-40760-4_2]
  • [2] Thornton M W, Atkinson P M, Holland D A. Sub-pixel mapping of rural land cover objects from fine spatial resolution satellite sensor imagery using super-resolution pixel-swapping[J]. International Journal of Remote Sensing, 2006, 27(3): 473–491. [DOI:10.1080/01431160500207088]
  • [3] Wilman W W Z, Yuen P C. Very low resolution face recognition problem[C]//Proceedings of 2010 Fourth IEEE International Conference on Biometrics: Theory, Applications and Systems. Washington, DC, USA: IEEE, 2010: 1-6.[DOI: 10.1109/BTAS.2010.5634490]
  • [4] Huang J B, Singh A, Ahuja N. Single image super-resolution from transformed self-exemplars[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 5197-5206.[DOI: 10.1109/CVPR.2015.7299156]
  • [5] Schulter S, Leistner C, Bischof H. Fast and accurate image upscaling with super-resolution forests[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 3791-3799.[DOI: 10.1109/CVPR.2015.7299003]
  • [6] Dong C, Loy C C, Tang X O. Accelerating the super-resolution convolutional neural network[C]//Proceedings of 2015 European Conference on Computer Vision. Cham: Springer, 2016: 391-407.[DOI: 10.1007/978-3-319-46475-6_25]
  • [7] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2015: 770-778.[DOI: 10.1109/CVPR.2016.90]
  • [8] Kim J, Lee J K, Lee K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1646-1654.[DOI: 10.1109/CVPR.2016.182]
  • [9] Martin D, Fowlkes C, Tal D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Proceedings of the 8th IEEE International Conference on Computer Vision. Vancouver, BC, Canada: IEEE, 2002: 416-423.[DOI: 10.1109/ICCV.2001.937655]
  • [10] Shi W Z, Caballero J, Huszár F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1874-1883.[DOI: 10.1109/CVPR.2016.207]
  • [11] Lai W S, Huang J B, Ahuja N, et al. Deep laplacian pyramid networks for fast and accurate super-resolution[C]//Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017.
  • [12] Kim J, Lee J K, Lee K M. Deeply-recursive convolutional network for image super-resolution[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1637-1645.[DOI: 10.1109/CVPR.2016.181]
  • [13] Bevilacqua M, Roumy A, Guillemot C, et al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding[C]//Proceedings of 2012 British Machine Vision Conference. Surrey: BMVC, 2012. http://eprints.imtlucca.it/2412/
  • [14] Zeyde R, Elad M, Protter M. On single image scale-up using sparse-representations[C]//Proceedings of the 7th International Conference. Berlin, Heidelberg: Springer-Verlag, 2012: 711-730.[DOI: 10.1007/978-3-642-27413-8_47]
  • [15] Tai Y, Yang J, Liu X M. Image super-resolution via deep recursive residual network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA: IEEE, 2017: 2790-2798.[DOI: 10.1109/CVPR.2017.298]
  • [16] Zhang Y L, Tian Y P, Kong, et al. Residual dense network for image super-resolution[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake: IEEE, 2018: 2472-2481. https://www.researchgate.net/publication/323410292_Residual_Dense_Network_for_Image_Super-Resolution
  • [17] Huang G, Liu Z, van der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA: IEEE, 2017.[DOI: 10.1109/CVPR.2017.243]
  • [18] Yang J C, Wright J, Huang T S, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861–2873. [DOI:10.1109/TIP.2010.2050625]
  • [19] He K M, Zhang X Y, Ren S Q, et al. Delving deep into rectifiers: surpassing human-level performance on imageNet classification[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1026-1034.[DOI: 10.1109/ICCV.2015.123]
  • [20] Sheikh H R, Bovik A C, de Veciana G. An information fidelity criterion for image quality assessment using natural scene statistics[J]. IEEE Transactions on Image Processing, 2005, 14(12): 2117–2128. [DOI:10.1109/TIP.2005.859389]
  • [21] Yang C Y, Ma C, Yang M H. Single-image super-resolution: a benchmark[C]//Proceedings of 2014 European Conference on Computer Vision. Cham: Springer, 2014: 372-386.[DOI: 10.1007/978-3-319-10593-2_25]
  • [22] Pérez-Pellitero E, Salvador J, Ruiz-Hidalgo J, et al. PsyCo: manifold span reduction for super resolution[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1837-1845.[DOI: 10.1109/CVPR.2016.203]
  • [23] Tong T, Li G, Liu X J, et al. Image super-resolution using dense skip connections[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 4809-4817.[DOI: 10.1109/ICCV.2017.514]