
发布时间: 2020-05-16
DOI: 10.11834/jig.190400
2020 | Volume 25 | Number 5




expand article info 吴迪, 赵洪田, 郑世宝
上海交通大学电子信息与电气工程学院, 上海 200240


目的 非均匀盲去运动模糊是图像处理和计算机视觉中的基础课题之一。传统去模糊算法有处理模糊种类单一、耗费时间两大缺点,且一直未能有效解决。随着神经网络在图像生成领域的出色表现,本文把去运动模糊视为图像生成的一种特殊问题,提出一种基于神经网络的快速去模糊方法。方法 首先,将图像分类方向表现优异的密集连接卷积网络(dense connected convolutional network,DenseNets)应用到去模糊领域,该网络能充分利用中间层的有用信息。在损失函数方面,采用更符合去模糊目的的感知损失(perceptual loss),保证生成图像和清晰图像在内容上的一致性。采用生成对抗网络(generative adversarial network,GAN),使生成的图像在感官上与清晰图像更加接近。结果 通过测试生成图像相对于清晰图像的峰值信噪比(peak signal to noise ratio,PSNR),结构相似性(structural similarity,SSIM)和复原时间来评价算法性能的优劣。相比DeblurGAN(blind motion deblurring using conditional adversarial networks),本文算法在GOPRO测试集上的平均PSNR提高了0.91,复原时间缩短了0.32 s,能成功恢复出因运动模糊而丢失的细节信息。在Kohler数据集上的性能也优于当前主流算法,能够处理不同的模糊核,鲁棒性强。结论 本文算法网络结构简单,复原效果好,生成图像的速度也明显快于其他方法。同时,该算法鲁棒性强,适合处理各种因运动模糊而导致的图像退化问题。


运动模糊; 盲去模糊; 生成对抗网络(GAN); 密集连接卷积网络(DenseNets); 感知损失; 全卷积网络(FCN)

Motion deblurring method based on DenseNets
expand article info Wu Di, Zhao Hongtian, Zheng Shibao
School of Electronic information and Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China
Supported by: National Natural Science Foundation of China(61671289)


Objective Non-uniform blind deblurring is a challenging problem in image processing and computer vision communities. Motion blur can be caused by a variety of reasons, such as the motion of multiple objects, camera shake, and scene depth variation. Traditional methods applied various constraints to model the characteristics of blur and utilized different natural image prior to the regularization of the solution space. Most of these methods involve heuristic parameter-tuning and expensive computation. Blur kernels are more complicated than these assumptions. Thus, these methods are not useful for real world images. Impressive results have been obtained in image processing with the development of neural networks. Scholars use neural networks for image generation. In this study, motion deblurring is regarded as a special problem of image generation. We also propose a fast deblurring method based on neural network without using multi-scale, unlike other scholars. Method First, this study adopts the densely connected convolutional network (DenseNets) which recently performed well in image classification direction. Improvements are made for the model to make it suitable for image generation. Our network is a full convolutional network designed to accept various sizes of input images. The input images are trained through two convolutional layers to obtain a total of 256 feature maps with the dimension of 64×64 pixels. Then, these feature maps are introduced into the DenseNets containing bottleneck layers and transitions. The output of bottleneck layers in each dense block is 1 024 feature maps, while the output of the last convolution layer of each dense block is 256 feature maps. Finally, the output of the DenseNets is restored to the size of the original image by three convolutional layers. A residual connection is added between the input and output to preserve the color information of the original image as much as possible. We also speed up the time of training. To ensure the efficiency of deblurring, this network uses only nine dense layers and does not use the multi-scale model adopted by other scholars. However, this method can still guarantee the quality of the restored image. In this study, every layer in DenseNets is connected. With this method, the intermediate information in the network can be fully utilized. In our experiment, the denser the connection among the layers, the better the results obtained. Generative adversarial networks (GANs) help image generation domain achieve a qualitative fly-by. The images generated this way are closer to the real-world image in terms of overall details. Therefore, we also use this idea to improve the performance of deblurring. In terms of the loss function, we use perceptual loss to measure the difference between restored and sharp images. We choose the VGG(visual geometry group)-19 conv3.3 feature maps to define the loss function because a shallower network can better represent the texture information of an image. In the image deblurring field, we focus on restoring the texture and edges of the object rather than wasting too much computation to determine its exact position. Thus, we choose the latter one in meansquare error (MSE) loss and perceptual loss. Result Compared with typical traditional deblurring methods and the recent neural network-based method, the performance of the algorithm is estimated by testing the restoring time, peak signal to noise ratio (PSNR), and structural similarity (SSIM) between the restored and sharp images. Experimental results show that the restored image via our method is clearer than those of others. Moreover, the average PSNR on the test set increased by 0.91, which is obviously superior to that of the traditional deblurring algorithm. According to the qualitative comparison, our method can handle the details of blurry image better than other approaches can. Our proposed method can also restore the small objects, such as text in the image. Results of other relative datasets are also better than other methods. Abandoning the multi-scale approach leads to multiple advantages, such as effectively reduced parameters, shorter training time, and reduced restoring time up to 0.32 s. Conclusion Our algorithm has a simple network structure and good restoring effect. The speed of image generation is also significantly faster than that of other methods. At the same time, the proposed method is robust and suitable for dealing with various image degradation problems caused by motion blur.

Key words

motion blur; blind deblurring; generative adversarial network(GAN); densely connected convolution network(DenseNets); perceptual loss; fully convolution network(FCN)

0 引言


基于机器学习的去模糊方法取得了一定成果。早期基于机器学习的方法(Deng等,2009)主要是利用网络提取相关参数,以此来代替传统方法中的部分步骤。利用pix2pix处理模糊图像(Nah等,2017)和视频(Su等,2017)的方法兴起。Nah等人以多尺度(multi-scale)思想为基础,利用卷积神经网络(convolutional neural network, CNN)实现运动图像去模糊。这种由粗到细的方法相比于早期算法,在复原质量上有显著提升,复原时间上也有了质的飞越。但是多尺度方法消耗了过多的算力,进行了大量无意义计算。Kupyn等人(2018)以残差网络(residual networks, ResNets)为基础,抛弃了多尺度的方法,进一步降低了图像复原时间,提高了图像质量。

生成对抗网络(generative adversarial network,GAN)在图像超分辨率重建(Ledig等,2017)和修复等领域取得了重大进展。应用GAN处理图像,能够保留图像的纹理细节,在视觉上更接近于真实图像。受GAN在图像复原方面的影响,本文提出了基于生成对抗网络的深度学习框架来解决运动图像去模糊这一问题,使去模糊质量进一步提高。生成器网络采用最近提出的密集连接卷积网络(densely connected convolution network, DenseNets)结构(Huang等,2017),该结构能充分利用网络参数,在一定程度上减少网络层数。在损失函数方面采用感知损失(Johnson等,2016),保证生成图像和清晰图像在感官上的一致。实验结果表明,本文算法复原图像更加清晰,鲁棒性好,同时耗时更短,在Kupyn等人(2018)的基础上又缩短0.3 s,只需0.5 s就可实现复原。

1 相关工作

1.1 图像去模糊


$\boldsymbol{I}_{B}=\boldsymbol{k}(\boldsymbol{M}) * \boldsymbol{I}_{S}+\boldsymbol{N}$ (1)




1.2 生成对抗网络

生成对抗网络的思想由Goodfellow等人(2014)提出。它的思想来源于二人零和博弈。该网络由生成网络和判别网络两部分组成。生成网络接收一个随机噪声$z$,噪声$z \sim \boldsymbol{P}(z)$,根据噪声生成假样本$\tilde{x}, \tilde{x}=G(z)$。判别网络用来判别样本是否真实,它的输入是真实样本$x$和假样本$\tilde{x}$。在训练过程中,生成网络的目标是使生成的$\tilde{x}$更加真实,从而欺骗判别网络。判别网络的目标则是把$x$$\tilde{x}$区别开来。这样,生成网络和判别网络就构成了一个动态的博弈过程。这一博弈关系可以表示为

$ \begin{array}{c} \min\limits_{G} \max\limits_{D} \underset{{x} \sim \boldsymbol{P}_{r}}{E}[\log (D(x))]+ \\ \underset{\tilde{x} \sim \boldsymbol{P}_{g}}{E}[\log (1-D(\tilde{x}))] \end{array} $ (2)


1.3 密集连接卷积网络

密集连接卷积网络由Huang等人(2017)提出。具体结构如图 1所示,图 1为一个5层的密集块,每层的输入是其前面所有密集块的特征图。基本思路与ResNets一致,但其建立了高层与之前所有层的紧密连接。

图 1 密集连接卷积网络示意图
Fig. 1 Diagram of dense connected convolutional networks


$ X_{n}=H_{n}\left(X_{n-1}\right) $ (3)


$ X_{n}=H_{n}\left(X_{n-1}\right)+X_{n-1} $ (4)



$ X_{n}=H_{n}\left(\left[X_{0}, X_{1}, \cdots, X_{n-1}\right]\right) $ (5)

式中,$\left[X_{0}, X_{1}, \cdots, X_{n-1}\right]$为第$0, 1, \cdots, n-1$层输出的特征图。DenseNets有效地解决了梯度消失的问题,增强了特征的传播和重利用,进而减少了网络参数。

2 基于生成对抗网络的图像去模糊

盲去模糊的目标是仅在给出模糊图像$\boldsymbol{I}_{B}$的条件下生成清晰的图像$\boldsymbol{I}_{S}$,不提供任何有关模糊核的信息。本文所采用的数据集,每一幅模糊图像都有一幅清晰的图像与之对应,因此采用条件生成对抗网络(conditional GAN,CGAN)来指导样本生成。

2.1 密集块(DenseBlock)和过渡(Transition)

本文所采用的网络基于DenseNets-BC(Huang等,2017),即添加了瓶颈层(Bottleneck)和压缩层的密集网络。并在此基础上进行了一定的改进,使其适合图像生成。具体的密集块结构和变化如图 2所示。本文结构在归一化和池化层进行了改变。

图 2 DenseBlock结构与本文结构
Fig. 2 DenseBlock and the structure adopted in this paper((a) DenseBlock; (b)ours)

1) 密集块。假设每一密集层的输出都为$k$幅特征图,那么第$n$层的输入就会有$k_{0}+k \times(n-1)$幅,其中$k_{0}$为输入层的通道数。这样高层的输入就会很多,计算量大大增加。为了提高计算的效率,DenseNets引入瓶颈层,即在密集层中加一个卷积核为(1, 1),输出为$4k$幅特征图的卷积层。通过实验可以发现,瓶颈层一方面提高了计算效率,另一方面也做到了对信息的整合,提取出了对结果有意义的信息。


2) 过渡。过渡主要由压缩层和池化层组成。过渡中的压缩层是为了减少特征图的数量,如果没有压缩层,下一个密集块的输入就会很大,会消耗大量的计算。


2.2 网络结构

生成器和判别器的网络结构如图 3所示。生成器网络首先用两个卷积层对图像进行下采样,得到256幅特征图,再用密集块进行特征提取,最后用一个卷积块和两个转置卷积块恢复原图像的通道和尺寸。生成器网络中密集块的长度和个数是通过一组对照实验确定,实验结果表明,仅采用一个密集块,放置9个密集层的网络效果最优。每个密集层内采用的作用层和顺序如图 2所示,第1个卷积层为瓶颈层,卷积核大小为(1×1),卷积后添加ReLU激活和InstanceNorm归一化, 之后是一个(3×3)的卷积层,卷积后添加ReLU激活和InstanceNorm归一化。为了避免出现过拟合的现象,(3×3)卷积层添加了随机失活(dropout),失活率设置为0.5。此外,本文还在输入和输出之间添加了一个残差连接。这样中间网络对输出的作用可视为增加了修正因子$\boldsymbol{I}_{R}$,即$\boldsymbol{I}_{S}=\boldsymbol{I}_{B}+\boldsymbol{I}_{R}$。实验表明,这一结构会使生成图像尽可能地保留原图像的色彩信息,会使网络训练得更快,效果也更好。

图 3 生成器和判别器的网络结构
Fig. 3 Networks of generator and discriminator((a) gemerator network; (b) disciminator network)


2.3 损失函数

损失函数的定义对训练结果起着非常重要的作用,由于采用了CGAN,损失函数是对抗损失$L_{a d}$和内容损失$L_{X}$的加权和,即

$L=L_{a d}+\lambda L_{X}$ (6)

式中,$\lambda$在实验中设置为100。其定义思路如图 4所示,模糊的图像作为生成器的输入并通过网络的恢复,得到去除模糊后的图像。判别器把真实清晰的图像和恢复后图像作为输入,并判断输入的图像哪一个是真实图像, 哪一个是经过恢复的。而生成器则通过真实图像和恢复图像的损失函数,来进行优化。

图 4 生成对抗网络的训练模式
Fig. 4 Training mode of generative adversarial networks

1) 对抗损失。与大多数学者采用的方法相同(Kim和Lee,2014),用GAN的原始公式来定义对抗损失$L_{a d}$,计算公式为

$ \begin{array}{c} L_{a d}=\underset{\boldsymbol{I}_{S} \sim \boldsymbol{P}_{S}}{E}\left[\log \left(D\left(\boldsymbol{I}_{S}\right)\right)\right]+ \\ \underset{\boldsymbol{I}_{B} \sim \boldsymbol{P}_{B}}{E}\left[\log \left(1-D\left(\boldsymbol{I}_{B}\right)\right)\right] \end{array} $ (7)


2) 内容损失。两个经典内容损失为$L1$(即mean absolute error,MAE)损失和$L2$(即mean square error,MSE)损失,这两种损失函数都是针对图像原始像素点进行定义。用这类计算方式作为唯一的损失函数会导致生成图像在细节上比较模糊(Ledig等,2017),物体边缘不清晰。因此,本文采用了感知损失(perceptual loss)(Johnson等,2016)。感知损失由训练好的CNN网络中的特征图参数来定义。用这一函数监督训练得到的结果与自然图像更加相似,细节上也更加逼真。感知损失定义为

$ \begin{array}{c} L_{X}=\frac{1}{W_{i, j} H_{i, j}} \sum\limits_{x=1}^{W_{i, j}} \sum\limits_{y=1}^{H_{i, j}} \\ \left(\phi_{i, j}\left(\boldsymbol{I}_{S}\right)_{x, y}-\phi_{i, j}\left(G\left(\boldsymbol{I}_{B}\right)_{x, y}\right)^{2}\right. \end{array} $ (8)

式中,$\phi_{i, j}$是预训练(Deng等,2009)VGG(visual geometry group)19网络中第$i$个池化层前的第$j$个卷积层输出的特征图,$W_{i. j}$$H_{i, j}$是特征图的维度,$G(*)$代表生成器的作用。本文采用VGG3, 3这一卷积层激活后的特征图来定义内容损失。研究发现,较高层输出的特征图大多代表图像更抽象的特征(Zeiler和Fergus,2014),较低层输出的特征图则代表图像纹理信息,因此选择(3, 3)特征图来定义内容损失。

3 实验

实验均使用Pytorch深度学习架构,在GTX 1080Ti GPU上进行训练。

1) 数据集。神经网络训练需要大量的数据集,早期模糊图像通过模糊核与清晰图像卷积得到。但是这种简单方法产生的模糊图像与相机采集的真实图像存在较大差别。Nah等人(2017)提出了一种新的图像生成方法,用高速运动的摄像机拍摄视频,并提取相连的短曝光帧进行平均,从而得到模糊图像。例如用GoPro Hero 4 Black去获得长曝光模糊图像。该方法可以模拟复杂的相机抖动和物体运动,得到的图像更接近现实图像。GOPRO数据集就是由此方法生成的。

本文实验采用GOPRO数据集训练网络。该数据集包含3 214对模糊和清晰的图像,选取2 103对图像进行训练,另外1 111对图像进行测试。

2) 模型训练。采用Adam优化算法进行训练,$\beta_{1}$设置为0.5,使得动量与梯度的占比相同,$\beta_{2}$设置为默认值。由于学习率设置过大,难以找到最优解,设置过小,则使得损失下降缓慢,所以将前1 000个epoch的学习率设置为0.000 1,之后每增加100个epoch,学习率由0.000 1线性下降为0。实验发现,1 500个epoch就可以充分训练网络。


3) 结果测试。将测试集中的模糊图像放入生成网络进行处理,得到去模糊后的图像。在这一过程中不需要使用判别器。由于生成网络是全卷积网络,任意大小的图像都能正确恢复,因此用两个数据集来进行结果测试,分别为GOPRO数据集和Kohler数据集。通过对比恢复图像的峰值信噪比(peak signal to noise ratio,PSNR)、结构相似性(structural similarity,SSIM)和时间长短,来评判算法的优劣。

4 实验结果

4.1 不同密集块设计对训练结果的影响

针对密集块的数量和长度进行了多种设计,为了保证时间效率,网络总密集层数均不超过9层。具体的网络设计分别为{3, 3, 3},{4, 4}和{9},其中{3, 3, 3}代表网络含有3个密集块,每个密集块含有3个密集层,这3个密集层之间是紧密连接的。{4, 4}则代表网络中包含两个密集块,每个密集块含有4个密集层,这4个密集层紧密连接。同理{9}则代表网络中只含有一个密集块,共有9个密集层,它们之间都紧密连接。通过测试这3种方法在GOPRO数据集上的复原结果,来进行网络选择。具体结果如表 1所示。

表 1 不同模型定量对比结果
Table 1 Quantitative comparison results of different models

{3, 3, 3} {4, 4} {9}
PSNR/dB 28.72 28.82 29.11
SSIM 0.927 0 0.927 2 0.931 2


4.2 本文结果与主流算法对比

4.2.1 GOPRO数据集

选取几种经典算法进行对比,在GOPRO数据集中1 111幅测试图像进行结果对比,其中GOPRO数据集的图像分辨率为1 280×720像素。

通过表 2的定量对比和图 5定性对比,可以看出本文方法在去模糊的质量上相比于其他方法有明显提高。Xu和Jia(2010)Kim和Lee(2014)孙士洁等人(2017)基于传统方法进行去模糊,虽然这类方法有一定的去模糊效果,但是物体边缘并不清晰,一幅图的复原时间也过长,满足不了现实的应用。Sun等人(2015)利用神经网络来估计模糊核,再进行去模糊,可以明显地看到,这种方法在GOPRO数据集上并不适用,不能准确地估计大部分模糊核,去模糊后的图像清晰程度不高,复原时间也过长。Nah等人(2017)算法重建的图像比较清晰,但是在细节上仍比较模糊。本文结果与Kupyn等人(2018)算法在视觉上都较为清晰,能清楚地复原出图像的细节,如模糊的车牌号码、远处的电线。通过表 2的定量对比,可以看出从图像处理效果和时间效率等综合因素考虑,本文算法明显更胜一筹。原因是相对于Kupyn等人(2018),本文引入了DenseNet网络,使得网络较低层的信息能够更充分地传到高层,进一步提高了信息利用率。可以看出,本文方法在GOPRO数据集上复原质量高、时间短。

表 2 在GOPRO数据集上去模糊性能的定量比较
Table 2 Quantitative comparison of deblurring performance on GOPRO dataset

Xu和Jia(2010) Kim和Lee(2014) 孙士洁等人(2017) Sun等人(2015) Nah等人(2017) Kupyn等人(2018) 本文
PSNR/dB 25.19 23.64 25.22 24.64 29.08 28.20 29.11
SSIM 0.896 0 0.823 9 0.811 0 0.842 9 0.913 5 0.932 0 0.931 2
时间 1 h 1 h 20 min 20 min 3.09 s 0.85 s 0.53 s
图 5 在GOPRO测试集上的去模糊结果对比
Fig. 5 Comparison of deblurring results on GOPRO test set
((a) blurred images; (b) Whyte et al.(2012); (c) Sun et al.(2015); (d) Nah et al.(2017); (e) Kupyn et al.(2018); (f) ours)

4.2.2 Kohler数据集

Kohler是一个评价盲去模糊的基础数据集,产生方式为先用相机拍摄视频,然后通过视频回放判断相机的运动轨迹,即得到模糊核。将清晰图像与模糊核卷积,从而得到模糊图像。该数据集包含4幅基础图像,每幅图像通过12种不同的模糊核处理,最后得到48幅模糊图像。在图 6中展示了由4种不同模糊核生成的模糊图像,可以看出,本文方法针对不同模糊核,都有一定的去模糊能力,比较复杂的纹理也能较好恢复,如一排排座椅。Kohler数据集的评价方法是:将复原得到的图像分别与相机采集的100幅图像进行测试,得到的100组结果中选取PSNR和SSIM的最大值作为评价指标。用此评价指标对结果进行测试,测试结果在表 3中展示。可以看出,本文方法在Kohler数据集的复原性能明显优于其他算法,这说明本文方法能较好地处理不同的模糊核,具有较好的鲁棒性。

图 6 本文算法在Kohler测试集上的结果
Fig. 6 Results of our method on the Kohler test set ((a) blurred picture made of four different blur kernels; (b)ours)

表 3 在Kohler数据集上去模糊性能的定量比较
Table 3 Quantitative comparison of deblurring performance on Kohler dataset

Xu和Jia(2010) Kim和Lee(2014) 孙士洁等人(2017) Sun等人(2015) Nah等人(2017) Kupyn等人(2018) 本文
PSNR/dB 27.41 24.68 18.90 25.22 26.48 26.10 26.51
SSIM 0.750 6 0.793 7 0.525 0 0.773 5 0.807 9 0.816 0 0.822 0
时间 40 min 40 min 14 min 14 min 2.14 s 0.59 s 0.37 s

5 结论




