发布时间: 2019-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190145
2019 | Volume 24 | Number 12

图像处理和编码

条件生成对抗网络的低照度图像增强方法

黄鐄¹, 陶海军¹, 王海峰²

1. 中国计量大学信息工程学院, 杭州 310018;

2. 北京市新技术应用研究所, 北京 100094

收稿日期: 2019-04-18; 修回日期: 2019-06-18; 预印本日期: 2019-06-25

基金项目: 冬奥会公共安全综合风险评估技术项目（2018YFF0301000）

第一作者简介: 黄鐄, 1994年生, 男, 硕士研究生, 主要研究方向为计算机视觉、深度学习。E-mail:1330332227@cjlu.edu.cn;
陶海军, 男, 副教授, 主要研究方向为知识工程、数据挖掘。E-mail:hjtao@cjlu.edu.cn.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2019)12-2149-10

摘要

目的在日常的图像采集工作中，由于场景光照条件差或设备的补光能力不足，容易产生低照度图像。为了解决低照度图像视觉感受差、信噪比低和使用价值低（难以分辨图像内容）等问题，本文提出一种基于条件生成对抗网络的低照度图像增强方法。方法本文设计一个具备编解码功能的卷积神经网络（CNN）模型作为生成模型，同时加入具备二分类功能的CNN作为判别模型，组成生成对抗网络。在模型训练的过程中，以真实的亮图像为条件，依靠判别模型监督生成模型以及结合判别模型与生成模型间的相互博弈，使得本文网络模型具备更好的低照度图像增强能力。在本文方法使用过程中，无需人工调节参数，图像输入模型后端到端处理并输出结果。结果将本文方法与现有方法进行比较，利用本文方法增强的图像在亮度、清晰度以及颜色还原度等方面有了较大的提升。在峰值信噪比、直方图相似度和结构相似性等图像质量评价指标方面，本文方法比其他方法的最优值分别提高了0.7 dB、3.9%和8.2%。在处理时间上，本文方法处理图像的速度远远超过现有的传统方法，可达到实时增强的要求。结论通过实验比较了本文方法与现有方法对于低照度图像的处理效果，表明本文方法具有更优的处理效果，同时具有更快的处理速度。

关键词

图像处理; 低照度图像增强; 卷积神经网络; 条件生成对抗网络; 深度学习

Low-illumination image enhancement using a conditional generative adversarial network

Huang Huang¹, Tao Haijun¹, Wang Haifeng²

1. College of Information Engineering, China Jiliang University, Hangzhou 310018, China;

2. Beijing Institute of New Technology Applications, Beijing 100094, China

Supported by: Supported by:Comprehensive Risk Assessment Technology for Public Safety of Winter Olympic Games (2018YFF0301000)

Abstract

Objective Low-illumination images are easily produced when taking pictures because of weak lighting conditions or devices with poor filling flash. Low-illumination images are difficult to recognize. Thus, the quality of low-illumination images needs to be improved. In the past, low-illumination image enhancement was dominated by histogram equalization (HE) and Retinex, but these methods cannot easily generate the desired results. Their results often entail problems, such as color distortion and blurred edges. A conditional generative adversarial network (CGAN)-based method is proposed to solve this poor visual perception problem. CGAN is an extension of the generative adversarial network (GAN). At present, it is widely used in data generation, including image de-raining, image resolution enhancement, and speech denoising. Unlike traditional low-illumination image enhancement methods that work on single image adjustment, this method achieves data-driven enhancement. Method This study proposes an encode-decode convolutional neural network (CNN) model as the generative model and a CNN model with a classification function as the discriminative model. The two models constitute a GAN. The model processes input images end to end and without adjusting the parameters manually. Instead of using synthetic image datasets, real-shot low-illumination images from the multi-exposure image dataset are used for training and testing. This image dataset contains multi-exposure sequential images, including under-and over-exposure images. The exposure of images is shifted by the exposure value (EV) of cameras or phones. Moreover, this dataset offers high-quality reference light images. During training, by offering reference light images from datasets as conditions to GAN, both models optimize their parameters according to the light images. As a result, the entire model is transformed into CGAN. The coding path of the generative model samples low-illumination images and processes the images at different scales. After coding, the encoding path restores the image size and shortens the distance between the outputs and conditional light images. The low-illumination images are denoised and restored by a different convolution processing of the generative model, and enhanced images are obtained. The discriminative model distinguishes the enhanced and reference light images by comparing their differences. The enhanced images are regarded as false, and the reference light images are regarded as true. Then, the discriminative model provides the result to the generative model. According to the feedback, the generative model optimizes the parameters to obtain an improved enhancement capability, and the discriminative model obtains an improved distinguishing capability by optimizing its own parameters. After training thousands of pairs of images, the parameters of both models are optimized. By using the discriminative model to supervise the generative model and by combining the interrelation between the two models, an improved image enhancement effect is achieved. When the proposed model is used to enhance low-illumination images, the discriminative model is no longer involved in the work, and the result is obtained directly from the generative model. Furthermore, skip connection and batch normalization are integrated into the proposed model. Skip connection transmits the gradient from shallow to deep layers. It has a transitional effect on the shallow and deep features. Batch normalization can effectively avoid gradient vanishing and explosion. Both approaches enhance the processing capability of the model. Result In this study, the entire network model and the single generative model are compared; the two sets of models represent CGAN and CNN methods, respectively. Results show that the entire network model has a better processing effect than the single generative model. This finding proves that the discriminative model improves the effect of the generative model during training. Afterward, eight existing methods are applied for comparison with the proposed method. By subjectively comparing the results of these methods, we find that our method achieves a better effect in terms of brightness, clarity, and color restoration. By using the peak signal-to-noise ratio (PSNR), histogram similarity (HS), and structural similarity (SSIM) as the objectives of comparison, our method exhibits improvements of 0.7 dB, 3.9%, and 8.2%, respectively. Meanwhile, the processing time of each method is compared. By using a graphics processing unit (GPU) for acceleration, the proposed method becomes much faster than the other methods, especially traditional central processing unit (CPU)-based methods. The proposed method can meet the requirement of real-time applications. Furthermore, for several low-illumination images with bright parts, our method does not enhance these parts, whereas other existing methods always over-enhance the bright parts. Conclusion A conditional generative adversarial network-based method for low-illumination image enhancement is proposed. Experimental results show that the method proposed is more effective than existing methods not only in perception but also in speed.

Key words

image processing; low-illumination image enhancement; convolutional neural network (CNN); conditional generative adversarial network (CGAN); deep learning

0 引言

随着照相和摄像设备的普及，人们可以方便地获得大量图像，然而由于拍摄场景的光照条件较差或图像采集设备功能缺乏等因素影响，非常容易产生低照度图像。这些低照度图像整体成像偏灰暗甚至全暗、信噪比低、使用价值极低。为将其内容还原清晰，需要采取一些方法进行处理。

过去的几十年里，对低照度图像增强方法的研究一直在持续。早期的低照度图像增强方法主要由直方图均衡化(HE)和Retinex主导。随后的一些方法大多是基于这两种方法的改进。动态直方图均衡化(Abdullah等，2007)是基于HE改进的方法。李权合等人(2010)在Retinex方法的基础上引入了视觉适应性，Jobson等人(1997)提出了带色彩恢复的多尺度Retinex(MSRCR)，Ren等人(2018)结合了图像去噪方法。此外还有一些其他的传统方法，Guo等人(2017)提出的基于照度区域估计的方法，Ying等人(2017)提出的基于融合的方法等。传统方法对于低照度图像的处理有一定的效果，但是增强后的图像容易出现颜色失真和边缘模糊等问题，同时对于极低照度的图像增强效果比较差，对大尺寸图像处理速度慢。为了弥补传统方法的缺陷，近年来，一些研究开始尝试使用基于深度学习的方法处理低照度图像。

不同于传统的单图像对比度增强的方法，深度学习方法利用数据驱动的方法，将大量不同的低照度图像输入模型进行训练，使得深度学习模型具备增强低照度图像的能力。这类方法使用的模型往往以自动编码器以及卷积神经网络(CNN)两种为主。Lore等人(2017)提出一种深度自动编码器用于处理低照度图像，其模型由用于图像降噪的深度编码器模型改进而成，受限于深度自动编码器的处理能力，该模型只能用于处理小尺寸的图像。Tao等人(2017)在Lore研究的基础上进行了改进，改用CNN方法并加入了残差学习等获得了更好的处理效果。Li等人(2018)和程宇等人(2019)提出两种截然不同的CNN模型用于增强低照度图像。前者是直接连接的4层卷积，后者是带有编码和解码特色的CNN模型。Cai等人(2018)和马红强等人(2019)也使用CNN处理低照度图像，不同的是前者在处理过程中对图像进行了高频与低频的分解，后者对图像的色彩空间进行了RGB与HIS(hue, intensity, saturation)的转换。现有的CNN方法弥补了传统方法的不足，但是也有很大的提升空间。CNN方法采用单个模型独立训练，仅通过损失值判断模型的训练情况，并不能保证模型参数调整到最佳而获得更好的处理效果。

受高分辨率图像处理(Ledig等，2017)、图像转换(Isola等，2017)、图像除雨迹问题(Zhang等，2017)以及语音增强(王怡斐等，2019)等非图像问题研究的启发，本文采用Goodfellow等人(2014)提出的生成对抗网络(GAN)方法，提升CNN方法处理低照度图像的效果。GAN方法由GAN模型主导，其模型由生成模型和判别模型两个子模型组成。在模型训练过程中，借助于判别模型的监督作用以及模型间相互对抗关系，使得模型参数可以调整到更优的情况，从而获得更优的处理效果。上述工作正是借助了GAN方法这一特性，在生成图像和语音方面取得了很好的结果。而本文要处理的低照度图像增强问题与上述问题非常类似。低照度图像具有较大噪声，对低照度图像进行增强也是对图像进行去噪和还原，因此可以将GAN方法应用于本文问题，对现有方法进行优化。

1 GAN以及CGAN理论

GAN是一种特殊的深度学习网络模型，由生成模型和判别模型组成。噪声数据输入生成模型后产生数据样本。数据样本可以是图像、文本和语音信号等，判别模型区分真实数据样本和生成的数据样本。生成模型不断更新网络使得判别模型无法分辨出生成的数据样本，而判别模型也在不断更新网络以获得更准确的判断能力，模型间的相互博弈使得两个模型达到一个动态均衡，从而使整个模型获得好的输出。如果用$G$表示生成模型，$D$表示判别模型，$z$表示输入的噪声数据，服从分布${P_z}$，$x$表示真实的数据，服从分布${P_{{\rm{data}}}}$，那么GAN的数学模型可以表示为

$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_G \;\mathop {\max }\limits_D \;V(D,G) = }\\ {{{\rm{E}}_{x \sim {P_{{\rm{data }}}}}}[\log D(x)] + {{\rm{E}}_{z \sim {P_z}}}[\log (1 - D(G(z)))]} \end{array} $

(1)

式中，$V$表示整体网络最终的优化目标。$G(z)$表示噪声$z$通过生成模型生成的数据样本，$D(x)$与$D(G(z))$表示判别模型分别对真实的数据样本与生成的数据样本进行判别。在模型训练过程中，调整生成模型的参数使$D(G(z))$的值增大，同时调整判别模型的参数使$D(x)$的值增大，使$D(G(z))$的值减小，最终两个模型达到动态平衡，完成训练。

然而，直接使用原始的GAN并不能解决本文的问题。原始的GAN在训练过程中没有额外的条件进行约束，所以生成的数据样本非常自由，凡是接近或符合真实数据分布的数据样本都会被生成。本文模型在训练时如果不向GAN提供约束条件，产生的结果可能是处理后的图像亮度增加了，但内容发生了改变。条件生成对抗网络(CGAN)解决了这一问题(Mirza等，2014)。CGAN是GAN的扩展，通过向GAN的生成模型和判别模型中添加额外的约束条件，从而起到了监督GAN的作用，有效控制了数据样本的输出。如果用$y$表示给予网络的约束条件，那么CGAN的数学模型可以表示为

$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_G \;\mathop {\max }\limits_D \;V(D, G) = }\\ {{{\rm{E}}_{{x \sim }{P_{{\mathop{\rm data}\nolimits} }}}}[\log D(x|y)] + }\\ {{{\rm{E}}_{{z \sim }{P_z}}}[\log (1 - D(G(z|y)))]} \end{array} $

(2)

与式(1)相比，式(2)只在生成模型和判别模型输入时额外增加了条件$y$，其他完全相同。针对本文的问题，条件$y$是低照度图像对应的高质量亮图像。由于提供了对应的高质量亮图像，使得生成模型在训练过程受到约束，生成模型在训练过程中除了需要尽量骗过判别模型外，还需要使处理后的图像接近提供的高质量亮图像。因此额外的条件控制了增强后的图像在内容上不会改变。

2 基于CGAN的低照度图像增强方法

本节将从网络模型的训练以及使用、网络模型设计、损失函数设计3个方面重点介绍本文方法的主要内容。

2.1 模型训练和使用流程

本文基于CGAN的低照度图像增强方法是通过训练大量的图像使模型获得处理低照度图像的能力。本文的网络模型分为生成模型和判别模型两部分，生成模型用于对低照度图像进行处理，判别模型用于对处理后的图像进行真假判别。本文使用两种不同结构的CNN模型作为生成模型和判别模型。

整个训练过程如图 1所示，图中将生成模型和判别模型的优化过程整合。训练过程为：首先选取一组图像，包括一幅低照度图像和对应的高质量的亮图像。训练时将低照度图像输入生成模型，图像在模型中进行一系列增强变换操作后输出，根据损失函数计算输出图像与给出的对应亮图像的差距，优化器会对生成模型的参数进行调整。与此同时，输出的增强后图像与该幅亮图像输入判别模型进行判别。判别模型提取图像特征，通过真实的亮图像与增强后图像间的特征差异判断出真伪，反馈给生成模型，从而使得生成模型进一步改善。改善后的生成模型所增强的低照度图像相比前一次处理得更加逼真，从而使得判别模型进一步调整判别能力。反复这一过程，生成模型与判别模型相互对抗，最终模型之间达到平衡，完成训练。

图 1 模型训练流程图

Fig. 1 Training process of model

在使用模型增强图像的过程中，判别模型不参与处理，仅将低照度图像输入生成模型，不提供相对应的高质量亮图像，生成模型端到端处理并输出增强后的图像。由于在训练过程中判别模型的监督以及两组模型间的对抗关系，使得CGAN方法比仅使用一组CNN模型训练处理的方法更容易使模型的参数调整到最佳，从而获得更好的处理效果。

2.2 网络模型结构设计

本文提出的网络模型结构包括生成模型和判别模型两部分，如图 2所示。

图 2 网络模型结构

Fig. 2 Structure of network model

生成模型采用CNN模型，结构类似Ronneberger等人(2015)提出的Unet模型，由一条具有编码功能的缩小路径与一条对称的具有解码功能的放大路径组成。两条路径相连构成一个深度为4层的U型结构模型。缩小路径中包括了卷积层与池化操作。其中，池化方法为最大池化，池化窗口大小为2×2，步长为2。每经过一次池化操作，图像缩小为原来的1/4。虽然图像的尺寸大幅度减小，但池化后的图像仍然保留了原图像的最大信息，同时由于每一层的卷积层处理的图像尺寸减小，使得网络的训练速度以及模型的处理速度加快。对应放大路径，反卷积操作完成了对图像尺寸的复原，同时也有卷积层对尺寸复原后的图像进一步的处理，并且最后一层卷积层作为输出层输出了最终增强后的图像。另外，每一层放大路径上的卷积层与位于同一层的缩小路径上的卷积层进行跳跃连接。跳跃连接在一些较深的神经网络模型广泛使用(Zhang等，2017；程宇等，2019)，其主要是将模型中浅层与深层的网络相连接，用于解决梯度在反向传播过程中难以流动到浅层网络而造成梯度消失的问题。本文设计的生成模型由15层卷积层连接，属于深度CNN模型，在模型中加入跳跃连接使梯度传导更加容易。此外，跳跃连接可以有效地将缩小路径上的浅一层卷积提取的特征与放大路径上的深一层卷积提取的特征相融合，使模型获得更好的特征提取能力，同时也可以减少放大路径在解码时产生的损失。

本文模型中的判别模型是一个简单的判别真伪的二分类CNN模型，由卷积层、池化层和全连接层组成。图像输入判别模型后，先连续进行特征提取和下采样操作，再经过两个神经元数量分别为256和1的全连接层将卷积层提取的特征汇总输出。通过最终的输出值的大小，判别模型判别输入图像的真伪。此外，为了改善GAN难以训练的问题，本文参考了Radford等人(2015)对GAN的改进，在生成模型和判别模型中加入了批标准化(BN)层，有效避免了模型在训练时容易造成的梯度消失和爆炸。为了增加模型的非线性性，本文在每个批标准化层后加入了激活层，使用LeakyReLU(图 2中简写为LRelu)作为激活函数，其中函数的负值斜率设为0.2。本文模型的具体参数包括各卷积层中卷积核数量、尺寸等如表 1所示，其中各卷积层的填充方式都为“SAME”。

表 1 网络模型参数细节
Table 1 The parameters details of network model

下载CSV

模型	卷积层编号	卷积核数量	卷积核尺寸	步长
生成模型	1, 2, 13, 14	32	3×3	2
	3, 4, 11, 12	64	3×3	2
	5, 6, 9, 10	128	3×3	2
	7, 8	256	3×3	2
	15	3	1×1	1
判别模型	1	32	3×3	2
	2	64	3×3	2
	3	32	3×3	2
	4	16	3×3	2
	5	3	3×3	2

2.3 损失函数设计

本文网络模型的损失函数由GAN损失函数和用于计算图像间距离的$L$1损失函数组成。GAN损失函数为交叉熵损失函数，分为两部分。第1部分用于判别模型，由于判别模型是一个二分类器，需要通过交叉熵函数对输入的图像进行分类。第2部分用于生成模型，生成模型需要使得判别模型将生成的图像判别为真，所以第2部分GAN损失用于实现该目的。$L$1损失函数用于生成模型，目的为了减小处理后的低照度图像与参考图像的距离，有拟合图像的作用。

假设生成模型为$G(x, {\omega _{\rm{g}}})$，判别模型为$D(x, {\omega _{\rm{d}}})$，其中，$x$为输入模型的图像，$\omega $为模型的参数。同时用$\mathit{\boldsymbol{I}}_{\rm{d}}^i$表示待处理的低照度图像，对应于该图像的高质量亮图像为$\mathit{\boldsymbol{I}}_{\rm{l}}^i$，其中$i$表示图像中的像素点，总和为$N$，则生成模型的损失函数${G_{\rm{l}}}$和判别模型的损失函数${D_{\rm{l}}}$分别为

$ \begin{array}{l} {G_1} = \frac{1}{N} \times \sum\limits_{i = 1}^N {\left\{ {\left\| {G\left({\mathit{\boldsymbol{I}}_{\rm{d}}^i, {\omega _{\rm{g}}}} \right) - \mathit{\boldsymbol{I}}_1^i} \right\| + } \right.} \\ \left. {CE\left({D\left({G\left({\mathit{\boldsymbol{I}}_{\rm{d}}^i, {\omega _{\rm{g}}}} \right), {\omega _{\rm{d}}}} \right), 1} \right)} \right\} \end{array} $

(3)

$ \begin{array}{l} {D_1} = \frac{1}{N} \times \sum\limits_{i = 1}^N {\left\{ {CE\left({D\left({\mathit{\boldsymbol{I}}_1^i, {\omega _{\rm{d}}}} \right), 1} \right) + } \right.} \\ \left. {CE\left({D\left({G\left({\mathit{\boldsymbol{I}}_{\rm{d}}^i, {\omega _{\rm{g}}}} \right), {\omega _{\rm{d}}}} \right), 0} \right)} \right\} \end{array} $

(4)

式中，${CE}$表示经过sigmoid函数激活之后的交叉熵函数，具体为

$ CE(x, z) = \max (x, 0) - x \times z + \ln \left({1 + {{\rm{e}}^{ - \left\| x \right\|}}} \right) $

(5)

式中，$x$表示输入的数据，$z$表示该数据的标签。本文设计增强后图像的标签为0，高质量亮图像的标签为1。

3 实验结果及分析

3.1 数据集介绍

本文实验使用的图像数据是Cai等人(2018)提供的多曝光度图像数据集，数据集中的图像拍摄于室内和室外，通过调节相机的EV (exposure values)值设置改变曝光度，从而获得同一幅图像一系列不同低照度的成像。同时该数据集还提供了与每组低照度图像对应的高质量亮图像作为参考。本文从中选取180幅作为训练集，60幅作为测试集。但是由于多曝光度图像数据集中的图像尺寸较大，不方便直接输入模型进行训练，所以在训练图像之前，首先在每幅训练图像中随机裁剪了100个256×256像素的图像块，同时随机对部分图像块进行左右或上下翻转来增加训练图像的多样性。而用于测试的图像尺寸均调整为900×600像素。

3.2 实验条件以及参数设置

实验所用计算机GPU配置为NVidia Tesla P100，CPU配置为Intel Core i5-4200H。训练所用的深度学习框架为Tensorflow，批大小为30，epoch为500次。生成模型和判别模型均使用ADAM优化器进行优化，该优化器的一阶矩估计的指数衰减率设为0.5，二阶矩估计的指数衰减率设为0.999，生成模型的学习率为0.002，判别模型的学习率为0.000 4，生成模型和判别模型交替优化。

3.3 实验结果

3.3.1 比较仅生成模型与全网络模型的处理结果

为了验证CGAN方法使得模型具备更好的处理效果，设计全网络模型和仅生成模型两组模型进行比较。其中全网络模型即为本文的CGAN方法，仅生成模型可视为一种CNN方法。实验选取一半的训练图像，在其他训练条件不变的情况下，分别对两组模型训练100个epoch。图 3记录了处理图像的峰值信噪比(PSNR)和结构相似性(SSIM)经过100个epoch的变化曲线。可以看出，随着epoch次数逐渐增加，包含判别模型的整体网络模型处理图像的两项评价指标均高于单独的生成模型。表明在训练过程中，判别模型对生成模型起到了监督的作用，进一步优化了生成模型的参数调整，使得生成模型具备更好的增强效果。

图 3 全网络模型与仅生成模型处理结果的客观对比

Fig. 3 Objective comparison between the whole network model and the generative model ((a) SSIM; (b) PSNR)

处理后的图像如图 4所示。从图 4可以看出，全网络模型处理的图像(图 4(d))更接近于的参考图像(图 4(b))，优于仅生成模型处理的图像(图 4(c))。即与CNN相比，CGAN方法效果更优。

图 4 全网络模型与仅生成模型处理结果的主观对比

Fig. 4 Subjective comparison between the whole network model and the generative model ((a) low-illumination images; (b) references; (c) results of generative model; (d) results of whole network model)

3.3.2 本文方法与其他方法的比较

为了验证本文方法的有效性，将本文方法与HE、动态直方图均衡化(DHE)(Abdullah等，2007)、MSRCR(Jobson等，1997)、JED(joint enhancement and denoising method via sequential decomposition)(Ren等，2018)、LIME(low-light image enhancement via illumination map estimation)(Guo等，2017)、Ying(Ying等，2017)、增亮网络(LightenNet)(Li等，2018)以及MDIIN(multiple derived images inputs network)(程宇等，2019)等现有的方法进行比较。各种方法的处理结果及放大的图像细节如图 5所示。

图 5 不同方法处理结果的主观比较

Fig. 5 Subjective comparison of different methods ((a) low-illumination image; (b) reference image; (c) MSRCR; (d) HE; (e) DHE; (f) JED; (g) Ying; (h) LIME; (i) LightenNet; (j) MDIIN; (k) ours)

从图 5可以看出，颜色失真是最常见的问题，处理后的图像会有一些不规则的杂色斑块，如HE，DHE、LIME、MSRCR或多或少都出现了这一状况。JED和Ying方法处理后的图像虽然在还原颜色方面要优于前面的几种方法，但是在图像中暗的区域上没有很好的增强。LightenNet和MDIIN是两种基于CNN的方法，LightenNet的模型过于简单，模型的增强能力有限，而MDIIN虽然模型比前者要复杂许多，但是处理后的图像也非常模糊。本文方法处理的图像虽然也有瑕疵，但是整体的处理效果要优于其他方法，特别是在颜色还原上以及细节的处理。

除了直观展示和分析增强的效果外，本文还计算了各种方法处理图像的直方图相似度(HS)，PSNR、SSIM和处理时间，如表 2所示。从前3项指标可以看出，本文方法优于其他方法，比第2高的结果分别提高了3.9%、0.7 dB和8.2%。关于处理时间，本文方法以及MDIIN、LightenNet使用PYTHON语言，于GPU计算。HE、DHE和Ying方法使用PYTHON语言，于CPU计算。MSRCR、LIME和JED使用MATLAB语言，于CPU计算。由于借助了GPU的加速计算，所以基于GPU处理的方法所用时间明显小于基于CPU运算的方法，由于LightenNet的模型结构较为简单，所以处理速度比本文方法要略快。

表 2 不同方法处理结果的客观比较
Table 2 Objective comparison of different methods

下载CSV

方法	HS	PSNR/dB	SSIM	时间/s
HE	0.537	16.45	0.677	0.081
DHE	0.581	17.57	0.688	34.632
MSRCR	0.543	17.29	0.670	0.686
LIME	0.582	16.10	0.658	0.454
JED	0.484	15.35	0.615	13.346
Ying	0.465	15.16	0.658	7.910
LightenNet	0.431	16.12	0.667	0.022
MDIIN	0.449	17.04	0.677	0.079
本文	0.621	18.27	0.770	0.03
注：加粗字体表示最优结果。

此外，本文方法对于一些特殊的低照度图像的增强效果要优于其他方法。在拍摄照片时经常会出现这样一种情况，拍摄的照片中存在既有暗又有亮的区域。图 6(a)为在建筑物内拍摄的图像，然而场景中有部分建筑外的内容，属于亮的区域。对此类情况，最好的处理结果是只针对暗的区域进行增强，减少亮的区域被2次增强从而导致过亮的情况出现。然而现有方法对此类低照度图像的处理效果不佳，在增强暗区域的同时过度增强了亮的区域。各方法的处理结果如图 6(c)—(k)所示。通过对比可以看出，本文方法对图像中已经亮的区域没有进一步过多增强，而HE、LIME和MSRCR方法对亮区域过度增强，影响了图像的视觉效果。其他方法虽然控制了亮区域没有过多增强，但是对暗区域的处理也明显不足。本文方法对该情况的低照度图像处理较好有两点原因：1)在用于训练模型的图像中，本文参杂了一些亮度适中的图像，通过这样的处理对过度增强亮区域的情况进行了限制，增加了模型的鲁棒性；2)判别模型在训练过程中会将亮区域过度增强的图像也判定为假，从而抑制了生成模型对图像中亮区域的过度处理。

图 6 不同方法处理特殊低照度图像的结果

Fig. 6 Results of special low-illumination images by different methods ((a) low-illumination image; (b) reference image; (c) MSRCR; (d) HE; (e) DHE; (f) JED; (g) Ying; (h) LIME; (i) LightenNet; (j) MDIIN; (k) ours)

4 结论

为了解决低照度图像视觉感受差的问题，本文提出一种基于CGAN的低照度图像增强方法处理低照度图像。本文改进了传统的Unet作为生成模型，同时设计一个二分类CNN作为判别模型。依靠两个模型在训练过程中的相互博弈，使模型获得更佳的处理低照度图像的能力。最后通过实验，主观和客观的比较了本文方法与现有方法对低照度图像的处理效果。结果表明本文方法改进了现有方法，具有更好的低照度图像增强效果。

本文方法在模型方面仍具有较大的改进空间。近年来，涌现了许多围绕原始的GAN结构扩展的各类GAN模型，这些新提出的GAN模型或具备更强的生成能力，或可以提供更多额外的功能。下一步工作的重点是准备在本文方法的基础上对这些新的模型加以应用，相信这些改进工作可以改善本文方法的瑕疵，达到更好的低照度图像增强效果。

参考文献

Abdullah-Al-Wadud M, Kabir M H, Dewan M A A, Chae O. 2007. A dynamic histogram equalization for image contrast enhancement. IEEE Transactions on Consumer Electronics, 53(2): 593-600 [DOI:10.1109/TCE.2007.381734]

Cai J R, Gu S H, Zhang L. 2018. Learning a deep single image contrast enhancer from multi-exposure images. IEEE Transactions on Image Processing, 27(4): 2049-2062 [DOI:10.1109/TIP.2018.2794218]

Cheng Y, Deng D X, Yan J, Fan C E. 2019. Weakly illuminated image enhancement algorithm based on convolutional neural network. Journal of Computer Applications, 38(4): 1162-1169 (程宇, 邓德祥, 颜佳, 范赐恩. 2019. 基于卷积神经网络的弱光照图像增强算法. 计算机应用, 38(4): 1162-1169) [DOI:10.11772/j.issn.1001-9081.2018091979]

Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A and Bengio Y. 2014. Generative adversarial nets//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: ACM, 2672-2680

Guo X J, Li Y, Ling H B. 2017. LIME:low-light image enhancement via illumination map estimation. IEEE Transactions on Image Processing, 26(2): 982-993 [DOI:10.1109/TIP.2016.2639450]

Isola P, Zhu J Y, Zhou T H and Efros A A. 2017. Image-to-image translation with conditional adversarial networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 5967-5976[DOI:10.1109/CVPR.2017.632]

Jobson D J, Rahman Z U, Woodell G A. 1997. A mulfiscale refinex for bridging the gop between color images and the human obseruation of scenes. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 6(7): 965-976 [DOI:10.1109/83.597272]

Ledig C, Theis L, Huszár F, Caballero J, Cunningham A, Acosta A, Aitken A, Tejani A, Totz J, Wang Z H and Shi W Z. 2017. Photo-realistic single image super-resolution using a generative adversarial network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 105-114[DOI:10.1109/CVPR.2017.19]

Li C Y, Guo J C, Porikli F, Pang Y W. 2018. LightenNet:a convolutional neural network for weakly illuminated image enhancement. Pattern Recognition Letters, 104: 15-22 [DOI:10.1016/j.patrec.2018.01.010]

Lore K G, Akintayo A, Sarkar S. 2017. LLNet:a deep auto encoder approach to natural low-light image enhancement. Pattern Recognition, 61: 650-662 [DOI:10.1016/j.patcog.2016.06.008]

Li Q H, Bi D Y, Ma S P, He Y B. 2010. Image enhancement based on Retinex and vision adaptability. Journal of Image and Graphics, 15(12): 1728-1732 (李权合, 毕笃彦, 马时平, 何宜宝. 2010. 基于Retinex和视觉适应性的图像增强. 中国图象图形学报, 15(12): 1728-1732) [DOI:10.11834/jig.20101221]

Ma H Q, Ma S P, Xu Y L, Zhu M M. 2019. Low-light image enhancement based on deep convolutional neural network. Acta Optica Sinica, 39(2): 0210004 (马红强, 马时平, 许悦雷, 朱明明. 2019. 基于深度卷积神经网络的低照度图像增强. 光学学报, 39(2): 0210004)

Mirza M and Osindero S. 2014. Conditional generative adversarial nets[EB/OL].[2014-11-06]. https://arxiv.org/pdf/1411.1784.pdf

Radford A, Metz L and Chintala S. 2015. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL] [2019-04-03]. https://arxiv.org/pdf/1511.06434v1.pdf

Ren X T, Li M D, Cheng W H and Liu J Y. 2018. Joint enhancement and denoising method via sequential decomposition//Proceedings of 2018 IEEE International Symposium on Circuits and Systems. Florence, Italy: IEEE, 1-5[DOI:10.1109/ISCAS.2018.8351427]

Ronneberger O, Fischer P and Brox T. 2015. U-net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer, 234-241[DOI:10.1007/978-3-319-24574-4_28]

Tao L, Zhu C, Xiang G Q, Li Y, Jia H Z and Xie X D. 2017. LLCNN: a convolutional neural network for low-light image enhancement//Proceedings of 2017 IEEE Visual Communications and Image Processing. St. Petersburg, FL, USA: IEEE, 1-4[DOI:10.1109/VCIP.2017.8305143]

Wang Y F, Han J G, Fan L H. 2019. Algorithm research of speech enhancement based on WGAN. Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition, 31(1): 136-142 (王怡斐, 韩俊刚, 樊良辉. 2019. 基于WGAN的语音增强算法研究. 重庆邮电大学学报:自然科学版, 31(1): 136-142) [DOI:10.3979/j.issn.1673-825X.2019.01.018]

Ying Z Q, Li G, Ren Y R, Wang R G and Wang W M. 2017. A new image contrast enhancement algorithm using exposure fusion framework//Proceedings of the 17th International Conference on Computer Analysis of Images and Patterns. Ystad, Sweden: Springer, 36-46[DOI:10.1007/978-3-319-64698-5_4]

Zhang H, Sindagi V and Patel V M. 2017. Image de-raining using a conditional generative adversarial network[EB/OL].[2017-02-04]. https://arxiv.org/pdf/1701.05957.pdf