发布时间: 2018-10-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180069
2018 | Volume 23 | Number 10

图像处理和编码

结合深度残差学习和感知损失的图像去噪

吴从中, 陈曦, 季栋, 詹曙

合肥工业大学计算机与信息学院, 合肥 230009

收稿日期: 2018-02-27; 修回日期: 2018-06-01

基金项目: 国家自然科学基金项目（61371156）

第一作者简介: 吴从中, 1964年生, 男, 副教授, 主要研究方向为信号与信息处理。E-mail:329161005@qq.com;
陈曦, 硕士研究生, 研究方向为机器学习与图像复原。E-mail:245699640@qq.com;
季栋, 硕士研究生, 研究方向为机器学习与图像分割。E-mail:jidong_forever@163.com.

中图法分类号: TP319

文献标识码: A

文章编号: 1006-8961(2018)10-1483-09

摘要

目的现存的去噪算法中很多在去除噪声的同时都存在边缘信息过光滑、易产生彩色伪影的问题，为了解决这些缺点，本文提出了一种基于联合感知损失的深度残差去噪网络。方法首先利用低通滤波器将噪声图片分解成高频层和低频层，然后将包含噪声和边缘信息的高频层输入设计好的残差网络中，通过常规逐像素损失方法学习端到端的残差映射预测出噪声残差图片，再由一个从输入直接通往输出的全局跳跃连接处理得到初始较模糊的去噪结果，最后级联一个预训练好的语义分割网络用来定义感知损失，指导前面的去噪模型学习更多语义特征信息来增强被模糊的边缘细节，得到更清晰真实的去噪结果。结果本文从定性和定量两个方面进行对比实验。以峰值信噪比（PSNR）作为量化指标来评价算法性能，结果表明所提出的网络在同其他对比方法一样使用逐像素损失训练时能产生最好的指标结果，在Set5、Set14和BSD100测试集25噪声级别时的结果分别为30.51 dB、30.60 dB和29.38 dB。在视觉定性分析上，本文提出的感知损失模型明显取得了更清晰的去噪结果，相比其他方法产生的模糊区域该方法保留了更多的边缘信息和纹理细节。此外还进行了盲去噪测试实验，对一张含有不同噪声级别的图片进行去噪处理，结果表明本文训练好的算法模型可以一次性处理多种未知级别的噪声并产生满意的去噪输出而且没有多余伪影。结论基于边缘增强的感知损失残差网络的图像去噪算法在去除噪声的同时可以保留更多容易被模糊的边缘细节，改善去噪结果过平滑的问题，提高图像视觉效果。

关键词

图像去噪; 残差网络; 感知损失; 分层模式

Image denoising via residual network based on perceptual loss

Wu Congzhong, Chen Xi, Ji Dong, Zhan Shu

School of Computer and Information, Hefei University of Technology, Hefei 230009, China

Supported by: National Natural Science Foundation of China (61371156)

Abstract

Objective Image denoising is a classical image reconstruction problem in low-level computer vision.It estimates the latent clean image from a noisy one.Digital images are often affected by the noise caused by imaging equipment and external environment in the process of digitization and transmission.Although several methods have achieved reasonable results in recent years, they rarely mentioned the over-smoothing effects and the loss of edge details.Thus, a novel image denoising method via residual learning based on edge enhancement is proposed. Method Recently, due to its powerful learning ability, very deep convolutional neural network has been widely used for image restoration.Inspired by ResNet, unlike other direct denoising networks, identity mappings are introduced to enable our residual network to increase the depth, and then slightly modify the architecture to adapt better to the denoising task.Pooling layers and batch normalization are removed to preserve details.Instead of these, high-frequency layer decomposition and global skip connection are used to prevent over-fitting.They change the input and output of the network to reduce the solution space.To speed up the training process, we select the rectified linear unit (ReLU) as the activation function and remove it before the convolution layer.Traditionally, image restoration work used the per-pixel loss between the ground truth and the restored image as the optimization target to obtain excellent quantitative scores.However, in recent research, minimizing pixel-wise errors only on the basis of low-level pixels has proven prone to loss of details and smoothens the results.Meanwhile, the perceptual loss function has shown that it can generate high-quality images with a better visual performance by capturing the difference between the high-level feature representations, but it sometimes fails to preserve color and local spatial information.To combine both benefits, we propose a new joint loss function that consists of a normal pixel-to-pixel loss and a perceptual loss with appropriate weights.In summary, the flow of our method is described as follows.First, the high-frequency layer of the noisy image is used as the input by removing the background information.Then, a residual mapping is trained to predict the difference between clean and noisy images as output instead of the final denoised image.The denoised result is improved further, and a joint loss function is defined as the weighted sum of the pixel-to-pixel Euclidean and perceptual losses.A well-trained convolutional neural network is connected to learn the semantic information, which we will likely measure in our perceptual loss.This setup encourages the train process to learn similar feature representations rather than match each low-level pixel, which can guide the front denoising network in reconstructing more edges and details.Unlike normal denoising models for only one specific noise level, our single model can deal with the noise of unknown levels (i.e., blind denoising).We employ CBSD400 as the training set and evaluate the quality in Set5, Set14, and CBSD100 with noise levels of 15, 25, and 50, respectively.To train the network for a specific noise level, we generate the noisy images by adding Gaussian noise with standard deviations of σ=15, 25, 50.Alternatively, we train a single blind network for the unknown noise range [1,50]. Result To verify the effectiveness of the proposed network, we show the quantitative and qualitative results of our method in comparison to those of state-of-the-art methods, including BM3D, TNRD, and DnCNN.The performance of the algorithm is evaluated by the peak signal-to-noise ratio as the quantitative indicator.Results show that the proposed network training with MSE loss can solely produce the best index results.The proposed algorithm (MSE-S) is better by 0.63 dB、0.55 dB and 0.17 dB compared with BM3D, TNRD, and DnCNN, respectively.In the qualitative visual sense, the perceptual loss model proposed in this paper clearly achieves a clearer denoising result.Compared with the fuzzy regions generated by other methods, this method preserves more edge information and texture details.We perform another experiment to show the ability of blind denoising.The input is composed of noisy parts with three levels, 10, 30, and 50.Results indicate that our blind model can generate a satisfactory restored output without artifacts even when the input is corrupted by several levels of noise in different parts. Conclusion In this paper, we describe a deep residual denoising network of 26 weight layers where perceptual loss is adopted to enhance the information detail.Residual learning and high-frequency layer decomposition are used to reduce the solution space to speed up the training process without pooling layers and batch normalization.Unlike the normal denoising model for only one specific noise level, our new model can deal with blind denoising problems with different unknown noise levels.The experiments show that the proposed network achieves superior performances both in quantitative and qualitative results, and recovers majority of the missing details from low-quality observations.In the future, we will explore how to handle other kinds of noise, especially the complex real-world noise, and consider a single comprehensive network for more image restoration tasks.In addition, we will likely focus on researching more visually perceptible indicators in addition to PSNR.

Key words

image denoising; residual learning; perceptual loss; hierarchical mode

0 引言

图像去噪是计算机视觉中的一个经典的图像重建问题，它是从包含噪声的图像中还原出潜在相对干净的图像。实际上，数字图像的处理过程经常受成像设备或外部环境噪声的影响，所以去噪是提高图像质量不可缺少的方法之一，它为图像带来更好的视觉效果，也使得处理后的图像含有更丰富的特征。除了单幅图像去噪，近年来这项技术也有被广泛应用于视频监控方面，因此去噪技术在摄像机成像、刑侦破案、医学影像处理、视频监控成像、卫星遥感图像处理等诸多方面都有着很大的贡献。

从贝叶斯的观点来看，图像先验建模在图像去噪中起到核心作用。过去几十年里，各种方法已被用于图像先验的建模，包括非局部自相似(NSS)模型，稀疏分解模型和马尔可夫随机场(MRF)模型等。其中最具代表的传统方法有非局部均值去噪算法(NLM)^[1]，基于奇异值分解去噪算法(K-SVD)^[2]和3维块匹配去噪算法(BM3D)^[3]。尽管这些方法可以达到很好的去噪效果，但是传统模型通常需要人工选择参数，而且由于复杂的优化问题，这些方法往往需要大量的时间和计算成本。

近些年来，深度学习方法快速发展并在很多低级计算机视觉任务中表现优异^[4-5]，很多学者开始设计用于图像去噪的深度学习结构。深度学习去噪算法可以分为两类：基于卷积神经网络模型(CNN)和多层感知模型(MLP)。Jain等人^[6]第一次将CNN用于去噪，证明卷积神经网络可以直接学习从低质量图像到干净图像的端到端的非线性映射，并取得很好的效果；基于MLP的图像去噪模型包括Vincent等人^[7]和Xie等人^[8]提出的的去噪自编码器。随后Chen等人^[9]提出前馈深层网络(TNRD)，被证明能取得更好的去噪效果。最近已经验证了随着层数的增加模型性能会得到很大的提升，越来越多深层的网络被应用到图像去噪。Mao等人^[10]提出非常深的卷积自动编码器用于图像恢复；Zhang等人^[11]首次将残差学习和批标准化引入图像去噪，提出去噪卷积神经网络(DnCNN)。尽管这些方法有效地改善了去除噪声的效果，但是并没有更多地考虑其中存在的图像细节过平滑，边缘信息丢失等问题。

图像边缘对于去噪等图像复原任务十分重要，人的视觉系统也对它相当敏感。虽然传统的逐像素损失函数使重建结果有较高的信噪比，但丢失了高频信息，出现过度平滑的纹理。由此，Johnson等人^[12]提出了感知损失(perceptual loss)这一概念，并将其应用于超分辨率重建，通过比较学习图像高级语义特征的差异训练网络保留更多边缘和细节信息。而对于如何提取所需的语义信息，许多用于语义分割的网络便可能很好地完成。Ledig等人^[13]提出的SegNet模型，使用一个多层编解码网络得到较好的语义分割效果，并实现目标边缘的精准预测。

因此受到以上一些网络的启发，本文提出了一种结合感知损失的深度残差网络用于图像去噪。此网络通过一系列卷积残差单元学习端到端映射直接重建去噪图像，同时还使用高频层分解和学习残差映射两个技巧压缩映射范围简化训练难度。为了改善生成结果过模糊的缺点，使用联合损失函数，包括传统的逐像素损失和预训练好语义分割网络产生的感知损失，使得网络训练时不仅遵循逐个像素比较匹配的方式学习，还通过比较图像高级语义特征的差异训练网络保留更多边缘和细节信息，生成视觉更清晰的去噪结果。在Set5、Set14和CBSD100测试集的实验表明，本文算法得到的去噪结果在保持图像边缘信息方面有很大的改善。

本文的贡献如下：

1) 为了保留更多的细节信息，该去噪网络中移除了池化层和批标准化，为此又提出分层模式和残差映射来压缩网络输入和输出的映射范围，降低训练难度，优化训练速度。

2) 与其他直接降噪网络不同，该网络引入了恒等映射作为捷径连接，形成由一系列残差单元组成的链式结构，信号可以从一个单元直接传播到其他单元。与直接模式相比，这种链式模块可以促进学习过程，避免梯度消失。

3) 引入语义分割网络作为损失网络来提取特征图定义感知损失。与单纯使用逐像素损失函数造成细节丢失不同，联合感知损失使得去噪图像可以保留更多容易被模糊的边缘信息。

1 基于联合损失的残差网络

本节主要介绍所提出的模型结构和训练损失函数。网络模型由两部分组成：前端是基于深度残差学习的去噪网络，作为去噪图像的生成器；后面连接一个参数固定的损失网络，用来定义联合损失中的感知损失函数。

1.1 去噪网络

去噪网络模型的结构已在图 1中给出，包括高频层分解，残差网络和全局跳跃连接。其中残差网络又包括预处理、残差单元、重建网络3个子网络。

图 1 深度残差网络的网络结构

Fig. 1 Flow chart of the proposed network structure

对于去噪等图像复原问题，细节信息非常重要。但是网络中使用池化层和批标准化等方法来降低维度通常会丢弃一些像素级的信息^[14]。因此该网络中移除了这种类型的方法。网络深化过程中，不断积累的大量数据会增加训练难度。因此本文提出高频层分解和学习残差映射，通过减小网络输入和输出的稀疏度来压缩映射范围，实现简化训练的目的。去噪任务是针对噪声信息，所以只需要对包含所有噪声的部分进行处理即可。噪声图像可以根据灰度变化的强度分解为低频信息${x_{{\rm{low}}}}$和高频信息${x_{{\rm{high}}}}$两部分，计算公式为

$ x = {x_{{\rm{high}}}} + {x_{{\rm{low}}}} $

(1)

式中，低频层覆盖了边缘内的背景内容，而剩下灰度变化强烈的信息如尖锐的边缘和噪声像素都被留在高频层，由此可知高频层信息可以代替完整的图像作为网络输入。类似于以上输入图片的简化，输出也可以用残差图片代替，即先预测噪声图片和原始图片的不同$n$，然后从噪声图像$x$中去除残差得到最终的去噪图像$y$，计算公式为

$ y = x-n $

(2)

由图 2可知，不同于均匀分布的噪声和去噪图像的直方图，高频层和残差图的分布更为集中，大多数像素的值都接近于零，像素值范围明显缩小。这表明改用高频层作为输入、残差作为输出能够帮助减小映射范围。因此本文将噪声图片$x$通过低通滤波器^[15]分解出含全部噪声信息的高频层${x_{{\rm{high}}}}$输入网络，训练学习残差映射$F({x_{{\rm{high}}}}) = n$，最后由全局跳跃连接得到完整的去噪图像$y$，计算公式为

$ y = x-F({x_{{\rm{high}}}}) $

(3)

图 2 高频层与残差图像的稀疏范围缩小示意图

Fig. 2 Range reduction of the residual image and high-frequency layer((a)denoised image $y$; (b)noisy image $x$; (c)high frequency of noisy image ${x_{{\rm{high}}}}$; (d)residual image $x-y$; (e) histogram of $y$; (f) histogram of $x$; (g) histogram of ${x_{{\rm{high}}}}$; (h) histogram of $x-y$)

除此之外，去噪模型的核心部分是带残差模块的全卷积神经网络，一共有26个卷积层，分为3个子网络：预处理网络、残差单元网络和重建网络。

预处理网络：特征提取是十分关键的一步，在提取特征之前需要将完整的图像分成大小为40的子块。特征提取是将输入图像从图像空间映射到特征空间，将提取的每个图像块都表示成一个高维向量，并组成一组特征图。这里使用一个3×3像素的卷积层和修正线性单元ReLU来完成特征提取的任务。

残差单元网络：与直接连接的方式不同，该网络由一系列残差单元组成链式结构，信号可以从一个单元直接传播到其他单元，防止梯度消失，简化训练难度。本文一共设置了12个单元，每个单元的组成如图 3所示，包括两个卷积层和一个捷径连接，其中捷径连接使用恒等映射。相比于传统的残差网络，这里做了两个优化改进，首先移除了批标准化，为此采用较小的训练批尺寸，然后将ReLU移到每个卷积层的前面，实验证明这种预激活模式(pre-activation)^[14]能提高训练过程中的收敛速度。每个单元的数学表达式为

$ {R^u} = F({R^{u-1}}) + {R^{u-1}} $

(4)

图 3 残差单元内部结构

Fig. 3 Visualization result of residual unit

式中，$R$表示每个残差单元，$u$=1, 2, …, $U$表示单元的个数，$F$是残差映射函数。

重建网络：重建网络的作用是将信息从特征空间映射回图像空间。最终残差网络输出的特征映射代表残差图像块特征图，需要经过重建网络融合成完整图像，并将它们由多通道变成单通道的自然图像。这里定义一个3×3像素的卷积层来完成重建任务。

1.2 损失函数

传统上，基于学习的图像复原任务都使用真实与复原图像之间的逐像素损失函数作为优化目标，以取得更高的信噪比。然而这种逐像素匹配的方法被证明容易产生模糊和缺少边缘的结果^{[12, 16]}。最近很多研究^[12]发现基于特征比较方式的感知损失更符合真实视觉感知，可以保留更多细节信息，复原出更清晰的图像，但有时也会因像素空间不均匀覆盖产生细微的视觉伪影。因此结合两者的优点提出了联合损失，即

$ {L_{{\rm{joint}}}} = {L_{{\rm{MSE}}}} + \lambda {L_{{\rm{SegNet}}}} $

(5)

式中，${L_{{\rm{MSE}}}}$和${L_{{\rm{SegNet}}}}$分别代表逐像素比较和语义特征比较的损失函数，下面详细介绍两种损失函数。

1.2.1 MSE损失函数

本文的逐像素损失函数使用传统的MSE(mean square error)方法，计算生成图像与干净图像的均方根误差，使两者逐个像素点比较匹配，公式为

$ {L_{{\rm{MSE}}}} = \frac{1}{{WH}}{\left\| {F({x_{{\rm{high}}}})-\left( {x-y} \right)} \right\|^2} $

(6)

式中，${x_{{\rm{high}}}}$是噪声图像的高频层，$y$是真实的干净图像，$F$表示残差映射函数，$W$和$H$分别代表输入图像的宽度和高度。

1.2.2 感知损失函数

为了解决现有去噪结果模糊的缺点，本文引入感知损失函数。因为真实视觉感知不是逐像素比较而是通过比较图像的特征，因此感知损失学习语义特征差异的方法相比MSE损失可以重建更多细节和边缘信息。又因为实验表明用于图像分类分割的神经网络本身就可以很好地学习图像的纹理边缘等语义特征，因此本文引入一个预训练好的分割网络SegNet^[13]用于提取所需的特征图。该网络包含一组卷积层构成的编码器和对称的解码器，训练好的编码器可以实现高维特征提取，再通过解码器恢复池化丢失的信息。确定好损失网络后，便可以将感知损失定义在语义特征层面上。将去噪网络初始生成的结果$x-F({x_{{\rm{high}}}})$和真实干净图像$y$输入SegNet，从其中一层卷积层$\phi $里分别提取两者的特征图，再计算两者特征表示的欧氏距离，公式为

$ {L_{{\rm{SegNet}}}} = \frac{1}{{{W_i}{H_i}}}{\left\| {{\phi _i}(x-F({x_{{\rm{high}}}}))-{\phi _i}\left( y \right)} \right\|^2} $

(7)

式中，${W_i}$和${H_i}$代表所选特征图的宽度和高度。$\phi $是第$i$层卷积层，用来做特征提取器，本文实验使用第22个卷积层选择图像中较复杂但又不过于抽象的边缘纹理特征和语义信息用来比较学习。

算法最终使用的联合感知损失如图 4所示，先将噪声图像与对应的真实图像输入残差去噪网络中，通过MSE损失逐像素点地比较学习两者的不同，得到与真实图像素级匹配但较模糊的去噪结果。然后将该结果和真实图再输入到损失网络SegNet中，并从其中一卷积层里分别提取两者的特征图来定义感知损失函数，通过最小化感知损失继续训练网络学习两者语义特征上的差异，使两张图像在特征感知上更相似，原本模糊的区域因此重建了更多的边缘和细节信息，最终生成较清晰的去噪结果。

图 4 联合损失函数的实现过程

Fig. 4 Proposed joint loss of cascaded network

2 实验设置与结果分析

2.1 实验细节

本文实验不只训练了一个网络，针对不同的噪音级别提供了两种方案，一是训练只针对某一固定级别噪声的单级别去噪网络；另一种是盲去噪网络，实现一个网络有效处理多个级别的噪声。对于训练函数，为了便于之后公平比较PSNR，除了联合感知损失训练网络之外，还单独地使用了MSE损失训练方式。基于此，对比实验中一共使用了3个网络，其中将使用MSE损失的单噪声去噪网络定义为MSE-S，MSE损失的盲去噪网络定义为MSE-B，联合损失的盲网络定义为Joint。以上所有网络的训练与测试都在Caffe工具^[17]上进行，硬件参数：Intel Core i7-4790K 4.0 GHz, 1X NVIDIA Tian X GPU。

对于参数设置，训练中网络的输入是大小为40×40像素的图像块，每个卷积层采用64个尺寸为3×3像素的滤波器。训练是通过使用动量参数为0.9和批大小为3的随机梯度下降法对回归目标进行优化的。初始学习率被设置为0.001，期间每经过12 000次迭代后除以5，并在60 000次迭代后终止训练。

2.2 数据集

本文中使用CBSD400中的400张自然图像及其添加了不同级别的噪声图片作为训练集。对于单级别去噪网络，通过分别添加标准差为$σ$=15, 25, 50的高斯噪声来生成噪声图像；对于盲去噪网络，训练图片是由随机添加$σ$=[1,50]范围内的高斯噪声形成的。送进网络训练的数据是从训练集中随机生成的大小为40×40像素的噪声与原始图像子块对。

测试集选取Set5、Set14、CBSD100。前两者是图像复原领域传统的测试图像；而CBSD100则是对应着变化多端的自然场景，更具有现实意义。

2.3 结果分析

为了验证网络的有效性，对比实验分别从定性和定量两个方面进行，并与当前最具代表的几个去噪方法作比较：BM3D^[3]，TNRD^[9]和DnCNN^[11]。

采用峰值信噪比(PSNR)作为客观评价标准。由于它是评价重建结果和真实图像像素级的差异，用来对比的方法都基于逐像素损失且都是针对单级别去噪，因此为了公平，这里也列出只使用MSE损失训练的模型结果。表 1给出了几种算法在3种数据集上分别使用15、25和50噪声级别时去噪图像的PSNR指标。可以看出，MSE-S和MSE-B都可以获得很好的PSNR值，尤其MSE-S得到的结果相比其他算法均有所提高，相比BM3D、TNRD和DnCNN在Set14测试集25噪声级别时的结果分别提高了约0.63 dB、0.55 dB和0.17 dB。对于盲去噪MSE-B模型，因为并不是用某一特定噪声级别的图像进行训练，所以单独比较某一级别下的PSNR指标并不客观，但依然可以看出，除了DnCNN算法，MSE-B生成的结果还是会比大多数传统方法都要好，而且部分图片在相对较大的噪声级别下会出现MSE-B的结果比DnCNN更好的情况。

表 1 各算法在3种测试集不同噪声级别下的PSNR
Table 1 Average PSNR for noise level 15, 25 and 50 on datasets Set5, Set14, and Set100

下载CSV

数据库	Noise	BM3D	TNRD	DnCNN	MSE-S	MSE-B	Joint
Set5	15	32.26	32.49	32.74	32.84	32.74	32.61
	25	29.84	30.10	30.39	30.51	30.41	30.09
	50	26.71	26.94	27.26	27.41	27.29	26.95
Set14	15	32.37	32.50	32.86	33.01	32.89	32.41
	25	29.97	30.06	30.43	30.60	30.48	30.22
	50	26.72	26.81	27.18	27.30	27.20	26.98
BSD100	15	31.08	31.42	31.73	31.89	31.70	31.28
	25	28.57	28.89	29.23	29.38	29.20	28.97
	50	25.62	26.01	26.23	26.41	26.29	26.03

由于PSNR指标评价的是图像像素级别的相似性，因此使用语义特征比较学习的Joint模型得到的PSNR值没有很高。但越来越多的研究表明峰值信噪比与人眼视觉感知的图像质量并不完全一致，指标越高不一定代表图像质量越好，因此PSNR不再是判断图像质量的唯一标准^[16]。为了更真实地反映本文算法相比于其他方法在主观视觉上的感知差异，本文分别从3个测试集中选取3张样本图片的去噪结果对比图展示在图 5中。由图 5可以看出，与其他得到很高PSNR值的方法比较，Joint模型生成的去噪图像看起来更真实，边缘较为清晰并且可以恢复出更多的细节信息。图 5分别对婴儿的嘴巴，蝴蝶的翅膀和石像的细节进行局部放大，通过比较可知BM3D虽然很好地去除了噪声，但明显产生边缘模糊的光滑部分；TNRD易于在模糊的区域产生少量伪影；DnCNN尽可能地保留了部分清晰的细节但还不够完善；相比之下，本文使用联合感知损失的残差网络算法的去噪效果最为接近原图，并且边缘较为清晰，可以恢复出更多的细节信息，尤其是婴儿的嘴唇边缘部分，蝴蝶黄黑相接的边缘和石头粗糙不平的表面细节。这说明本文基于联合感知损失的残差网络可以得到质量最好的去噪结果。

图 5 不同算法的去噪结果图比较

Fig. 5 The denoisied images using various algorithms((a) noisy images; (b) ground truths; (c)BM3D;(d)TNRD; (e)DnCNN; (f)Joint)

为了更直观地说明网络引入感知损失的有效性，还对比了只使用逐像素损失方法和联合感知损失方法的结果图。以Set14中的蝴蝶图像为例，图 6给出MSE-B和Joint的去噪结果还有两者的残差图。从图 6中可以看出，Joint比MSE-B重建了更多的细节信息，特别是蝴蝶翅膀和花朵的边缘。这说明引入感知损失方法有效改善因逐像素方法模糊高频信息的缺陷，保留细微边缘得到清晰去噪结果。

图 6 使用逐像素损失和联合感知损失结果图比较

Fig. 6 Denoisied images using different loss((a) MSE-B; (b) Joint; (c)residual)

另外还进行了一个盲去噪试验来验证所提算法的盲去噪能力，如图 7所示。送入网络处理的噪声图片由不同级别的噪声部分组成，即左边部分为级别为10的噪声，中间级别30，右边级别50。通过残差图和结果图可以看到，即使输入一张包含不同级别的噪声图片，盲去噪模型也可以一次性处理并产生满意的去噪输出而且没有产生多余伪影。

图 7 盲去噪测试实验

Fig. 7 Example to show the capacity of blind denoising ((a) noisy image with level 10(the left), 30(the middle), 50(the right); (b) residual image; (c) denoised image)

除了分析去噪结果的优劣，本文比较了时间成本。表 2列出各算法测试一幅彩色噪声影像的运行时间。以上所有的测试都是基于同样的机器配置，除了CPU的运行时间，对于TNRD、DnCNN和Joint还比较了GPU的计算时间。比较可知，本文算法在去噪效果得到显著提升的情况下，运行速度和其他算法基本持平。CPU上运行略慢主要因为使用了更深的网络结构以获取更好的去噪结果，不过时间差距十分微小。对于GPU时间，本文算法可以在0.1 s内完成盲去噪并得到清晰的去噪结果，说明该算法效率相对较高。

表 2 不同算法运行时间
Table 2 Running time of different methods

下载CSV

	BM3D (CPU)	TNRD (CPU/GPU)	DnCNN (CPU/GPU)	Joint (CPU/GPU)
时间/(s/幅)	3.01	1.86/0.035	3.85/0.060	4.69/0.081

3 结论

本文提出了一个26层的深度残差去噪网络，并通过级联语义分割网络定义感知损失提取语义信息增强边缘细节。因为网络中移除了池化层，所以残差学习和高频层分解被用来压缩映射空间，简化训练难度。与常规的单级别去噪模型不同，本文还提出了具有处理不同噪声级别能力的盲去噪模型。相对其他方法，新提出的网络可以取得最真实清晰的去噪结果，改善了去噪结果边缘被模糊的问题，这也说明后续研究应致力于定义更符合人类视觉感知的图像质量评判标准。对于未来的工作，还需要探索如何处理其他类型的噪声，特别是存在于现实生活中复杂真实的噪声种类。

参考文献

[1] Buades A, Coll B, Morel J M. A non-local algorithm for image denoising[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005: 60-65.[DOI: 10.1109/CVPR.2005.38]

[2] Elad M, Aharon M. Image denoising via sparse and redundant representations over learned dictionaries[J]. IEEE Transactions on Image Processing, 2006, 15(12): 3736–3745. [DOI:10.1109/TIP.2006.881969]

[3] Dabov K, Foi A, Katkovnik V, et al. Image denoising by sparse 3-D transform-domain collaborative filtering[J]. IEEE Transactions on Image Processing, 2007, 16(8): 2080–2095. [DOI:10.1109/TIP.2007.901238]

[4] Kim J, Lee J K, Lee K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2015: 1646-1654.[DOI: 10.1109/CVPR.2016.182]

[5] Nah S, Kim T H, Lee K M. Deep multi-scale convolutional neural network for dynamic scene deblurring[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 257-265.[DOI: 10.1109/CVPR.2017.35]

[6] Jain V, Seung H S. Natural image denoising with convolutional networks[C]//Proceedings of the 21st International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada: Curran Associates Inc., 2008: 769-776.

[7] Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceeding of the 25th International Conference on Machine Learning. Helsinki, Finland: ACM, 2008: 1096-1103.[DOI: 10.1145/1390156.1390294]

[8] Xie J Y, Xu L L, Chen E H. Image denoising and inpainting with deep neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc., 2012: 341-349.

[9] Chen Y, Pock T. Trainable Nonlinear Reaction Diffusion:A Flexible Framework for Fast and Effective Image Restoration[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1256–1272. [DOI:10.1109/TPAMI.2016.2596743]

[10] Mao X J, Shen C H, Yang Y B. Image restoration using convolutional auto-encoders with symmetric skip connections[J]. arXiv preprint arXiv: 1606.08921, 2016.

[11] Zhang K, Zuo W M, Chen Y J, et al. Beyond a Gaussian denoiser:residual learning of deep CNN for image denoising[J]. IEEE Transactions on Image Processing, 2017, 26(7): 3142–3155. [DOI:10.1109/TIP.2017.2662206]

[12] Johnson J, Alahi A, Li F F. Perceptual losses for real-time style transfer and super-resolution[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 694-711.[DOI: 10.1007/978-3-319-46475-6_43]

[13] Badrinarayanan V, Kendall A, Cipolla R. SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481–2495. [DOI:10.1109/TPAMI.2016.2644615]

[14] He K M, Zhang X Y, Ren S Q, et al. Identity mappings in deep residual networks[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 630-645.[DOI: 10.1007/978-3-319-46493-0_38]

[15] He K M, Sun J, Tang X O. Guided image filtering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(6): 1397–1409. [DOI:10.1109/TPAMI.2012.213]

[16] Ledig C, Theis L, Huszár F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2016: 105-114.[DOI: 10.1109/CVPR.2017.19]

[17] Jia Y Q, Shelhamer E, Donahue J, et al. Caffe: convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM international conference on Multimedia. Orlando, Florida, USA: ACM, 2014: 675-678.[DOI: 10.1145/2647868.2654889]