发布时间: 2019-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190088
2019 | Volume 24 | Number 12

图像处理和编码

深度残差学习下的光源颜色估计

崔帅, 张骏, 高隽

合肥工业大学计算机与信息学院, 合肥 230601

收稿日期: 2019-03-18; 修回日期: 2019-06-21; 预印本日期: 2019-06-28

基金项目: 国家自然科学基金项目（61876057，61403116）

第一作者简介: 崔帅, 1986年生, 男, 博士研究生, 主要研究方向为人工智能与机器人技术。E-mail:baalme@163.com;
高隽, 男, 教授, 博士生导师, 主要研究方向为图像处理、模式识别、神经网络理论及应用、光电信息处理、智能信息处理。E-mail:gaojun@hfut.edu.cn.

中图法分类号: TP391.41

文献标识码: A

文章编号: 1006-8961(2019)12-2111-15

摘要

目的颜色恒常性通常指人类在任意光源条件下正确感知物体颜色的自适应能力，是实现识别、分割、3维视觉等高层任务的重要前提。对图像进行光源颜色估计是实现颜色恒常性计算的主要途径之一，现有光源颜色估计方法往往因局部场景的歧义颜色导致估计误差较大。为此，提出一种基于深度残差学习的光源颜色估计方法。方法将输入图像均匀分块，根据局部图像块的光源颜色估计整幅图像的全局光源颜色。算法包括光源颜色估计和图像块选择两个残差网络：光源颜色估计网络通过较深的网络层次和残差结构提高光源颜色估计的准确性；图像块选择网络按照光源颜色估计误差对图像块进行分类，根据分类结果去除图像中误差较大的图像块，进一步提高全局光源颜色估计精度。此外，对输入图像进行对数色度预处理，可以降低图像亮度对光源颜色估计的影响，提高计算效率。结果在NUS-8和重处理的ColorChecker数据集上的实验结果表明，本文方法的估计精度和稳健性较好；此外，在相同条件下，对数色度图像比原始图像的估计误差低10% 15%，图像块选择网络能够进一步使光源颜色估计网络的误差降低约5%。结论在两组单光源数据集上的实验表明，本文方法的总体设计合理有效，算法精度和稳健性好，可应用于需要进行色彩校正的图像处理和计算机视觉等领域。

关键词

视觉光学; 颜色恒常性; 光源颜色估计; 深度残差学习; 对数色度

Illuminant estimation via deep residual learning

Cui Shuai, Zhang Jun, Gao Jun

School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230601, China

Supported by: National Natural Science Foundation of China (61876057, 61403116)

Abstract

Objective Color constancy refers to the human ability that allows the brain to recognize an object as having a consistent color under varying illuminants. Color constancy has become an important prerequisite of high-level tasks, such as recognition, segmentation, and 3D vision. In the computer vision community, the goal of computational color constancy is to remove illuminant color casts and obtain accurate color representations for images. Therefore, illuminant estimation is an important means to achieve computational color constancy, which is a difficult and underdetermined problem because the observed image color is influenced by unknown factors, such as scene illuminants and object reflections. Illuminant estimation methods can be categorized into two classes:statistics-based (or static) and learning-based methods. Statistics-based methods estimate the illuminant based on the statistical properties (e.g., reflectance distributions) of the image. Learning-based methods learn a model from training images then estimate the illuminant using the model. Convolutional neural networks (CNNs) are very powerful methods of estimating illuminants, and many competitive results have been obtained with CNN-based methods. We propose a CNN-based illuminant estimation algorithm in this study. We use deep residual learning to improve network accuracy and a patch-selecting network to overcome the color ambiguity issue of local patches. Method We uniformly sample local patches from the image, estimate the local illuminant of each patch individually, and generate a global illuminant estimation of the entire image by combining the local illuminants. We use a 64×64 patch size in the patch sampling to guarantee the estimation accuracy of the local illuminant and provide sufficient training inputs without data augmentation. The proposed approach includes two residual networks, namely, illuminant estimation net (IEN) and patch selection net (PSN). IEN estimates the local illuminant of image patches. To improve the estimation accuracy of IEN, we increase the feature extraction hierarchy by adding network depth and use the residual structure to ensure gradient propagation and facilitate the training of the deep network. IEN is based on the residual structure, which consists of many stacked 3×3 and 1×1 convolutional layers, batch normalization layers, and rectified linear unit layers. The remaining part is composed of one global average pooling layer and one full connection layer. We use Euclidean loss and stochastic gradient descent (SGD) to optimize IEN. PSN shares a similar architecture with IEN, except that PSN has an additional Softmax layer that serves as the classifier at the end of the network. PSN is proposed to classify image patches according to their illuminant estimation errors. We use cross entropy loss and SGD to optimize PSN. According to the results of PSN, patches with a large estimation error are removed from the entire image, thus improving the performance of global illuminant estimation. Additionally, we preprocess the input image by using the log-chrominance algorithm, which converts a three-channel RGB image into a two-channel log-chrominance image; this reduces the influence of image luminance and improves the computational efficiency by decreasing the amount of data by 1/3. Result We implement the proposed IEN and PSN on the Caffe library. To evaluate the performance of our approach, we use two standard single-illuminant datasets, namely, the NUS-8 dataset and the reprocessed ColorChecker dataset. Both datasets include indoor and outdoor images, and a Macbeth ColorChecker is placed in each image to calculate the ground truth illuminant. The NUS-8 dataset contains 1 736 images captured from 8 different cameras, and the reprocessed ColorChecker dataset consists of 568 images from 2 cameras. Following the configurations of previous studies, we report the following metrics:the mean, the median, the tri-mean, and the mean of the lowest 25% and the highest 25% of angular errors. We also report the additional metric of the 95th percentile for the reprocessed ColorChecker dataset. We divide the NUS-8 dataset into eight subsets, apply three-fold cross-validation on the eight subsets individually, and report the geometric mean of the proposed metrics for all eight subsets. We directly apply three-fold cross-validation on the reprocessed ColorChecker dataset. Experimental results show that the proposed approach is competitive with state-of-the-art methods. For the NUS-8 dataset, the proposed IEN achieves the best results among all compared methods, and the proposed PSN can further increase the precision of the IEN results. For the reprocessed ColorChecker dataset, our results are comparable with those of other advanced methods. In addition, we conduct ablation studies to evaluate the model components of the proposed approach. We compare the proposed IEN with several shallower CNNs. Experimental results show that deep residual learning is effective in improving illuminant estimation accuracy. Moreover, compared with the estimated illuminant on the original image, log-chrominance preprocessing can reduce the illuminant estimation error by 10% to 15%. The proposed PSN can further decrease the global illuminant estimation error by 5% compared with the method that uses IEN alone. Finally, we evaluate the time cost of our method on a PC with an Intel i5 2.7 GHz CPU, 16GB of memory, and an NVIDIA GeForce GTX 1080Ti GPU. Our code takes less than 1.4 s to estimate a 2 K image, which has a typical resolution of 2 048×1 080 pixels. Conclusion Experiments on the two single-illuminant datasets show that the proposed approach, which includes log-chrominance preprocessing, deep residual learning-based network structure, and patch selection for global illuminant estimation, is reasonable and effective. The proposed approach has high precision and robustness and can be widely used in image processing and computer vision systems that require color calibrations.

Key words

visual optics; color constancy; illuminant estimation; deep residual learning; log-chrominance

0 引言

在计算机视觉领域，颜色恒常性计算的目的是移除场景中光源颜色的影响，获取准确的物体颜色表达。颜色恒常性的计算方法通常是首先进行场景光源颜色估计，然后经过色适应计算将目标颜色校准到标准光源下(Qian等，2016)。光源颜色估计是颜色恒常性计算的关键。目前，颜色恒常性计算和光源颜色估计已被广泛应用于图像增强(黄冬梅等，2018)、图像分割(段志刚等，2016)、目标跟踪(毕笃彦等，2016)和目标识别(Cheng等，2017)等领域。

光源颜色估计方法主要可以分为基于统计的方法和基于学习的方法。基于统计的方法包括基于图像灰度的Grey-World(Buchsbaum等，1980)、White-Patch(Land等，1977)、Shades-of-Grey(Finlayson等，2004)、Grey-Edge(Van de Weijer等，2007)和Grey-Pixels(Yang等，2015)等方法，以及基于生物视觉机理的Retinal-Mechanism(Zhang等，2016)、DOCC(double-opponency color constancy)(Gao等，2013；Gao等，2015)和achroEI(Gao等，2014)等方法。这类方法通过场景反射率或生物视觉系统的统计不变性假设估计光源，特点是无需训练，通过预先确定的参数配置对光源进行估计，计算速度快。其中模拟生物视觉机理的方法，理论依据更充分，实际精度和适用范围也更佳。

基于学习的方法包括Gamut-Mapping(Gijsenij等，2010)、Bayesian(Gehler等，2008)、SVR(support vector regression)(Xiong等，2006)、Exemplar-Based(Joze等，2014)、Exemplar-SVMs(exemplar support vector machines)(Wu等，2016)等方法，主要通过一些机器学习方法对图像的颜色数量、亮度和色度分布、以及纹理等关键特征建立模型，实现光源颜色估计。此外，基于学习的方法还包括融合图像低中高不同层次特征进行光源估计的Bilayer-Sparse-Coding(Li等，2013)、Multi-cue(Li等，2016)等方法。相较于基于统计的方法，这些方法增强了对复杂场景的处理能力，在多数情况下提高了适用性和精度。然而，上述方法需要手动设计表征光源颜色一致性的复杂特征，在实际应用中模型泛化性较差，这限制了上述方法的实用性。

随着深度学习的发展，相应研究也应用于光源颜色估计。Lou等人(2015)基于AlexNet(Krizhevsky等，2012)的方法，以及CNN(convolutional neural networks)(Bianco等，2015；Bianco等，2017)、DS-Net(deep specialized network)(Shi等，2016)和FC⁴(fully convolutional color constancy with confidence-weighted pooling)(Hu等，2017)等方法，通过引入卷积神经网络，在训练中自动提取图像特征并整合低中高等不同层次的特征，获得了更高的估计精度和更广泛的适用性。然而上述深度学习方法仅采用较浅的卷积神经网络，导致提取的特征层次较少，不利于算法精度和稳健性的进一步提高。

近几年的研究(Simonyan等，2015；Szegedy等，2015)表明，采用更深的网络层次能够提高卷积神经网络性能，但简单加深网络层次将导致梯度消失和网络退化等问题。针对这一问题，He等人(2016)提出深度残差学习方法，并给出层次更深、估计精度更高且更容易优化的残差网络(ResNet)结构。在此基础上，同时针对局部场景的颜色歧义问题，本文提出一种基于深度残差学习的光源颜色估计方法，包含光源颜色估计网络(IEN)和图像块选择网络(PSN)两个残差子网络。首先将输入图像均匀分块并转换至对数色度域，然后通过PSN和IEN得到误差相对较小的图像块集合及其光源颜色估计，最后融合得到整幅图像的全局光源颜色估计。本文方法的特点是：1)基于残差结构设计IEN，以较深的网络层数自动提取多层次的图像特征并融合，提高光源颜色估计的准确性；2)根据Lambertian反射理论，由于场景信息限制产生颜色歧义，IEN难以准确估计所有的图像块光源颜色，因此基于残差结构设计PSN，去除光源颜色误差估计较大的图像块，进一步提高算法的精度和稳健性；3)对图像进行对数色度预处理，降低图像亮度对光源颜色估计的影响，同时减少1/3的输入数据量，提高计算速度；4)在两组单光源数据集上的实验表明，本文方法能够较为准确地估计复杂场景的光源颜色，与其他方法相比，本文方法的精度和稳健性均较优；特别地，在相同配置下，与基于原始图像直接进行光源颜色估计相比，对数色度处理能够降低误差10%~15%，PSN能够进一步使误差降低约5%，验证了本文方法设计的合理性和有效性。

1 相关工作

1.1 基于深度学习的光源颜色估计

近年来深度学习在许多领域获得到了广泛应用，取得了优于传统机器学习方法的结果，同样也被应用于光源颜色估计领域。Lou等人(2015)首先在ImageNet数据集(Deng等，2009)上训练AlexNet卷积网络(Krizhevsky等，2012)，然后在单光源数据集上对网络进行微调(fine-tune)，获得光源颜色估计模型。CNN方法(Bianco等，2015)首先构建一个小型的卷积神经网络，通过分析卷积层和全连接层等网络结构以及卷积核大小数量与光源颜色估计误差之间的关系，获得最优参数选择，然后基于支持向量回归等方法设计后端处理算法，进一步提高了光源颜色估计精度。Oh等人(2017)将光源颜色估计这一回归问题转换为分类问题，并通过AlexNet分类加后端处理的方法实现问题求解。DS-Net方法(Shi等，2016)通过具有2个分支的回归网络HypNet为每个图像块建立2种不同的光源颜色估计，然后基于分类网络SelNet的结果选择其中一个分支，获得最终的估计。FC⁴方法(Hu等，2017)基于卷积神经网络同时估计图像的光源颜色和光源颜色置信权重，综合二者求得最终的光源颜色。相比较传统机器学习方法，深度学习方法无需人工设计模型提取光源颜色特征，而是通过卷积神经网络完成特征的自动提取；同时相较于传统机器学习方法多关注图像的中低层特征，深度学习可以通过不同的网络层提取多种不同层次的特征并整合，极大提高了光源颜色估计的适用范围和精度。

1.2 深度残差学习

针对卷积神经网络深度增加导致的梯度消失和网络退化等问题，He等人(2016)提出了深度残差学习方法，通过令网络的每一层学习残差映射，获得了更深且更容易优化的网络，即残差网络，在许多应用中大幅提高了精度。

对于任意一层神经网络，假设$x$为输入，$H$($x$)为输出的最优解映射，记残差映射为$F$($x$)=$H$($x$)－$x$。通常神经网络直接尝试拟合$H$($x$)，而残差网络则尝试拟合$F$($x$)，然后计算$H$($x$)=$F$($x$)+$x$。相应的网络结构设计中，残差计算可以通过在网络中添加一个快捷连接(shortcut connection)来实现，从而构成残差网络的基本结构块，如图 1所示。快捷连接跳过一个或多个层，仅仅执行自身映射，其输出被添加到叠加层的输出中。残差映射保证了梯度的反向传播和网络训练，一般情况下，残差映射与原映射相比更容易被优化(He等，2016)。

图 1 残差网络的基本结构块

Fig. 1 The building block of ResNet

在整体网络结构上，AlexNet等经典卷积神经网络由精心设计的多层卷积层构成，其主体结构基本固定，难以通过简单地修改来适应不同规模的应用。与之相比，残差网络较为简单，主要由2种结构堆叠而成，这些结构均由1×1和3×3卷积核的卷积层构成。这一结构优势使得残差网络极易扩展，通过改变堆叠层数就能适应不同规模的应用，并且较小的卷积核保证了较快的计算速度和较强的硬件适应性。同时由于残差映射更容易被优化，残差网络通常能够取得更高的估计精度(He等，2016)。

2 本文方法

本文光源颜色估计总体流程如图 2所示。首先将图像均匀分割为若干相同大小的图像块，对各图像块进行对数色度处理，将其从RGB色度空间(${\mathit{\pmb{I}}_{\rm{r}}}$，${\mathit{\pmb{I}}_{\rm{g}}}$，${\mathit{\pmb{I}}_{\rm{b}}}$)转换为对数色度空间(${\mathit{\pmb{I}}_{\rm{u}}}$，${\mathit{\pmb{I}}_{\rm{v}}}$)；将每个图像块分别输入IEN和PSN，得到图像块的光源颜色估计值和光源颜色误差等级估计；然后去除光源颜色误差估计较大的图像块，对剩余图像块的光源颜色估计值进行中值池化(median pooling)，得到整幅图像的光源颜色估计；最后基于对角模型(Finlayson等，1994)计算校准后的图像。

图 2 本文光源颜色估计流程

Fig. 2 The pipeline of our illuminant estimation approach

2.1 基于对数色度域的图像块提取

本文通过均匀分割原始图像的方式提取图像块，其中图像块的大小选择需要考虑多种因素。过小的图像块无法包含足够的信息，用于光源颜色估计时误差难以控制，同时过多的图像块数量也影响算法效率；过大的图像块会导致较大的裁剪边缘，同时较少的数量也难以实现后续的全局处理。考虑到常用数据集图像多为2K及以上分辨率，本文采用64×64像素的图像块，一方面4 096个像素能够保证多数图像块包含足够的光源颜色信息；另一方面每幅2K分辨率级别的图像将包含超过500个子图像块，能够保证足够的图像块数量训练残差网络，以及完成后续的图像块筛选和全局光源颜色融合。

由Von Kries系数定律可知，光源颜色估计可以针对各颜色通道独立进行。因此，对单光源图像进行光源颜色估计时，图像$\mathit{\pmb{I}}$(${\mathit{\pmb{I}}_{\rm{r}}}$，${\mathit{\pmb{I}}_{\rm{g}}}$，${\mathit{\pmb{I}}_{\rm{b}}}$)可以表示为

$ {\mathit{\pmb{I}}_c} = {\mathit{\pmb{L}}_c}{\mathit{\pmb{W}}_c} $

(1)

式中，$\mathit{\pmb{I}}$为输入图像，$\mathit{\pmb{W}}$为标准光源(一般为白光)下的图像，$\mathit{\pmb{L}}$为场景光源颜色，$c$表示3个颜色通道${\rm{r}}$、${\rm{g}}$、${\rm{b}}$。

定义图像$\mathit{\pmb{I}}$的对数色度映射(${\mathit{\pmb{I}}_{\rm{u}}}$，${\mathit{\pmb{I}}_{\rm{v}}}$)为(Barron等，2015)

$ \left\{\begin{array}{l}{\boldsymbol{I}_{\mathrm{u}}(x, y)=\ln \left(\boldsymbol{I}_{\mathrm{g}}(x, y) / \boldsymbol{I}_{\mathrm{r}}(x, y)\right)} \\ {\boldsymbol{I}_{\mathrm{v}}(x, y)=\ln \left(\boldsymbol{I}_{\mathrm{g}}(x, y) / \boldsymbol{I}_{\mathrm{b}}(x, y)\right)}\end{array}\right. $

(2)

式中，($x$, $y$)为图像像素坐标。同样定义${\mathit{\pmb{W}}_{\rm{u}}}$、${\mathit{\pmb{W}}_{\rm{v}}}$、${\mathit{\pmb{L}}_{\rm{u}}}$、${\mathit{\pmb{L}}_{\rm{v}}}$为

$ \left\{\begin{array}{l}{\boldsymbol{W}_{\mathrm{u}}(x, y)=\ln \left(\boldsymbol{W}_{\mathrm{g}}(x, y) / \boldsymbol{W}_{\mathrm{r}}(x, y)\right)} \\ {\boldsymbol{W}_{\mathrm{v}}(x, y)=\ln \left(\boldsymbol{W}_{\mathrm{g}}(x, y) / \boldsymbol{W}_{\mathrm{b}}(x, y)\right)}\end{array}\right. $

(3)

$ \left\{\begin{array}{l}{\boldsymbol{L}_{\mathrm{u}}=\ln \left(\boldsymbol{L}_{\mathrm{g}} / \boldsymbol{L}_{\mathrm{r}}\right)} \\ {\boldsymbol{L}_{\mathrm{v}}=\ln \left(\boldsymbol{L}_{\mathrm{g}} / \boldsymbol{L}_{\mathrm{b}}\right)}\end{array}\right. $

(4)

显然

$ \boldsymbol{W}_{\mathrm{u}}=\boldsymbol{I}_{\mathrm{u}}-\boldsymbol{L}_{\mathrm{u}} \boldsymbol{E}, \boldsymbol{W}_{\mathrm{v}}=\boldsymbol{I}_{\mathrm{v}}-\boldsymbol{L}_{\mathrm{v}} \boldsymbol{E} $

(5)

式中，$\mathit{\pmb{E}}$表示所有元素均为1的矩阵。经过上述对数计算，可以降低图像亮度对光源颜色估计的影响(崔帅等，2018)，并替代了常规的图像归一化、gamma校正等预处理操作。同时，将图像$\mathit{\pmb{I}}$由(${\mathit{\pmb{I}}_{\rm{r}}}$，${\mathit{\pmb{I}}_{\rm{g}}}$，${\mathit{\pmb{I}}_{\rm{b}}}$)映射为(${\mathit{\pmb{I}}_{\rm{u}}}$，${\mathit{\pmb{I}}_{\rm{v}}}$)还可以减少1/3的网络输入数据量，提高后续的深度学习计算效率。

2.2 光源颜色估计网络IEN

IEN用于估计对数色度图像块的光源颜色，本文基于残差网络框架(He等，2016)设计，如图 3(a)所示。其输入为64×64×2的对数色度图像块(${\mathit{\pmb{I}}_{\rm{u}}}$，${\mathit{\pmb{I}}_{\rm{v}}}$)，输出为图像块光源颜色估计值(${\mathit{\pmb{L}}_{\rm{u}}}$，${\mathit{\pmb{L}}_{\rm{v}}}$)。网络的主体结构由3组残差网络结构ResLayer 1、ResLayer 2、ResLayer 3依次组合而成。其中每一组网络结构均由若干相似的残差结构块Block $A$(如图 3(b)所示)堆叠构成，这些结构块的输入输出保持相同的高、宽和通道数，可以根据任务规模增减堆叠层数(本文采用8层)，用于逐层提取图像特征；此外，除第一组结构ResLayer 1外，每组网络结构的首层加入残差结构块Block $B$(如图 3(c)所示)，通过步长为2的卷积结构，将输出的特征图高宽减为输入的一半并将通道数加倍，用于压缩特征大小并增加特征数量。经过上述3组残差网络结构，可以提取出合适的图像特征规模和层次，然后通过全局均值池化层和全连接层，最终得到光源颜色估计。

图 3 光源颜色估计网络

Fig. 3 Illuminant estimation net((a) structure of illuminant estimation net; (b) Block $A$; (c) Block $B$)

将光源颜色的对数色度值(${\mathit{\pmb{L}}_{\rm{u}}}$，${\mathit{\pmb{L}}_{\rm{v}}}$)转换为RGB色度值(${\mathit{\pmb{L}}_{\rm{r}}}$，${\mathit{\pmb{L}}_{\rm{g}}}$，${\mathit{\pmb{L}}_{\rm{b}}}$，3者满足L2范数归一化)的计算为

$ \left\{\begin{array}{l}{\boldsymbol{L}_{\mathrm{r}}=\frac{\exp \left(-\boldsymbol{L}_{\mathrm{u}}\right)}{\sqrt{\left[\exp \left(-\boldsymbol{L}_{\mathrm{u}}\right)\right]^{2}+\left[\exp \left(-\boldsymbol{L}_{\mathrm{v}}\right)\right]^{2}+1}}} \\ {\boldsymbol{L}_{\mathrm{g}}=\frac{1}{\sqrt{\left[\exp \left(-\boldsymbol{L}_{\mathrm{u}}\right)\right]^{2}+\left[\exp \left(-\boldsymbol{L}_{\mathrm{v}}\right)\right]^{2}+1}}} \\ {\boldsymbol{L}_{\mathrm{b}}=\frac{\exp \left(-\boldsymbol{L}_{\mathrm{v}}\right)}{\sqrt{\left[\exp \left(-\boldsymbol{L}_{\mathrm{u}}\right)\right]^{2}+\left[\exp \left(-\boldsymbol{L}_{\mathrm{v}}\right)\right]^{2}+1}}}\end{array}\right. $

(6)

2.3 图像块选择网络PSN

根据Lambertian反射模型，图像中每个像素的颜色均可对应无数种光源颜色和物体表面反射的组合，部分场景由于所含信息不充分而产生颜色歧义，因而无法准确估计光源颜色。因此，本文设计PSN用于去除估计误差较大的图像块，进一步提高整幅图像的光源颜色估计精度。

PSN采用与IEN相同的残差网络结构，如图 3(a)所示。PSN的输入同样为64×64×2的对数色度图像块(${\mathit{\pmb{I}}_{\rm{u}}}$，${\mathit{\pmb{I}}_{\rm{v}}}$)。此外，PSN需要将输入图像块按照其光源颜色估计误差大小分类，本文在网络的最后一层设置Softmax层作为分类器，完成归一化的分类结果输出，将卷积网络的线性预测结果转化为类别概率结果。对于输入$\mathit{\pmb{Z}}$($z$₁, $z$₂, …, ${z_m}$)，softmax函数$\sigma $($\mathit{\pmb{Z}}$)=[$\sigma $₁($\mathit{\pmb{Z}}$), $\sigma $₂($\mathit{\pmb{Z}}$), …, ${\sigma _m}$($\mathit{\pmb{Z}}$)]定义为

$ {\sigma _i}(\mathit{\pmb{Z}}) = \frac{{\exp \left({{z_i}} \right)}}{{\sum\limits_{j = 1}^m {\exp } \left({{z_j}} \right)}}, i = 1, \cdots, m $

(7)

式中，${\sigma _i}$($\mathit{\pmb{Z}}$)即为分类为$i$的概率。

由于图像的光源颜色估计值${\mathit{\pmb{L}}_{\rm{e}}}$与真实值${\mathit{\pmb{L}}_{\rm{t}}}$均为3维向量，通常采用角度误差作为误差度量方式，其计算方式为

$ \varepsilon\left(\boldsymbol{L}_{\mathrm{t}}, \boldsymbol{L}_{\mathrm{e}}\right)=\arccos \left(\frac{\boldsymbol{L}_{\mathrm{t}} \cdot \boldsymbol{L}_{\mathrm{e}}}{\left\|\boldsymbol{L}_{\mathrm{t}}\right\| \cdot\left\|\boldsymbol{L}_{\mathrm{e}}\right\|}\right) $

(8)

PSN的训练在IEN训练完成后进行。首先根据训练完成的IEN，将训练集图像块输入得到光源颜色估计值；然后结合训练集图像的真实光源颜色计算估计误差，并按误差值大小分类(本文均分为10类，其中类别1表明误差值最小，类别10表明误差值最大)；最后根据训练集图像块及其误差类别训练残差网络作为PSN，如图 4所示。需要特别指出的是，分类过程对每幅训练图像是独立进行的，在分类时每次仅针对一幅训练图像进行，将这一训练图像分割得到的所有图像块按照误差值大小分类。由此确保分类结果是衡量图像块在其所处图像中的误差水平，而不是在整个训练集所有图像块中的误差水平。因此，图像块在划分类别时仅与其所在图像包含的其他图像块相比较，与训练集中的其他图像无关。

图 4 图像块选择网络训练流程

Fig. 4 Training process of patch selection net

2.4 图像的全局光源颜色估计

根据PSN的分类结果，选择输入图像中误差估计较小的图像块用于估计全局光源颜色，具体方法是：首先根据PSN计算图像块10个分类的概率值，将最大概率值对应的类别作为图像块的分类；然后对于每幅图像，从估计误差最小的类别1开始，逐个类别选取图像块并计数，直至选取了图像块总数的40%或者到达类别7结束；最后在3个颜色通道r、g、b上分别统计选中图像块的光源颜色估计值，计算中位数作为全局图像对应通道的光源颜色估计。记选中的图像块为$P$₁，$P$₂，…，${P_n}$，则整幅图像$G$的全局光源颜色估计$\mathit{\pmb{L}}$($G$)为

$ \boldsymbol{L}_{c}(G)=\operatorname{median}\left(\bigcup\limits_{k=1}^{n} \boldsymbol{L}_{c}\left(P_{k}\right)\right) $

(9)

式中，$c$表示3个颜色通道${\rm{r}}$、${\rm{g}}$、${\rm{b}}$，${\mathit{\pmb{L}}_c}$($P_k$)为图像块$P_k$的$c$通道光源颜色估计，$n$为保留的图像块数量。

3 实验结果及分析

实验在两组单光源数据集上进行，首先给出本文方法与主流光源颜色估计算法的误差对比，并重点分析其中较优的几种方法，然后逐个算法模块分析本文方法的有效性。

实验环境为2.7 GHz的英特尔i5 CPU，16 GB内存，GPU为Nvidia GeForce GTX 1080Ti，11 GB显存，操作系统为64位Ubuntu 16.04，本文IEN和PSN均基于Caffe(Jia等，2014)平台实现。

3.1 数据集

1) NUS-8(Cheng等，2014)数据集。该数据集包含1 736幅图像，由不同相机拍摄的8个子集构成，每个子集约200幅图像，分辨率基本均为2K以上。数据集包含室内和室外场景，数据集的光源颜色真实值由场景中放置的Macbeth ColorChecker计算得到，使用时该部分图像被遮住。

2) 重处理的ColorChecker(Shi等，2014)数据集。该数据集包含568幅图像，由Canon 1D和Canon 5D拍摄，但使用时并未分为2个子集，而是作为一个整体。数据集图像分辨率全部为2K以上，含室内和室外场景。本文选用重处理的ColorChecker数据集，为Shi等人(2014)在原始ColorChecker数据集(Gehler等，2008)RAW图像的基础上进行线性化处理得到。该数据集的光源颜色真实值同样根据场景中放置的Macbeth ColorChecker计算得到。

3.2 网络训练

IEN为回归网络，训练时采用欧氏距离损失函数，并基于随机梯度下降方法(Sutskever等，2013)训练。其批大小(batch size)为128，初始学习率为0.001，同时每20个完整训练周期(epoch)学习率降低10%。此外，权重衰减(weight decay)和动量(momentum)取值为0.000 2和0.9。训练前IEN需对卷积层和全连接层进行参数初始化。本文统一采用高斯分布随机初始化方式，标准差取值0.01。

PSN采用与IEN相同的设置进行训练，但作为分类网络，其训练时采用Softmax损失函数，且初始学习率取值为0.01。

3.3 评价指标

本文采用式(8)角度误差作为光源颜色估计误差度量方式，主要对比光源颜色估计误差的均值、中位数、三均值(trimean)、最优25%均值、最差25%均值和95th百分位数，其中均值用于估计算法的总体性能，中位数和三均值旨在消除离散值的影响，最差25%均值和95th百分位数衡量算法在较差情况下的误差，其值越小说明算法稳健性越好。

3.4 与其他方法对比及分析

本文对比的算法包括基于统计、基于机器学习和基于深度学习的方法。其中，基于统计的方法包括：Grey-World(Buchsbaum等，1980)、White-Patch(Land等，1977)、Shades-of-Grey(Finlayson等，2004)、Grey-Edge(Van de Weijer等，2007)、Grey-Pixels(Yang等，2015)、Retinal-Mechanism(Zhang等，2016)、DOCC(Gao等，2013；Gao等，2015)、achroEI(Gao等，2014)、Bright-Pixels(Joze等，2012)和Cheng等人(2014)的方法。基于机器学习的方法包括：Gamut-Mapping(Gijsenij等，2010)、Bayesian(Gehler等，2008)、Spatio-Spectral(Chakrabarti等，2012)、Natural-Image-Statistics(Gijsenij等，2011)、Regression-Tree(Cheng等，2015)、Bilayer-Sparse-Coding(Li等，2013)、Multi-cue(Li等，2016)、Exemplar-Based(Joze等，2014)和Convolutional-CC(convolutional color constancy)(Barron等，2015)。基于深度学习的方法包括：Lou等人(2015)的方法、CNN(Bianco等，2015)、DS-Net(Shi等，2016)和FC⁴(Hu等，2017)。

在训练集和测试集的设置上，本文方法与其他基于学习的方法保持一致：在NUS-8(Cheng等，2014)数据集上分别对每个相机的图像子集采用3-fold交叉检验，得到各子集光源颜色估计误差的中值、均值等统计结果，然后将所有子集误差统计结果的几何平均作为最终的误差结果，如表 1所示。在重处理的ColorChecker(Shi等，2014)数据集上，采用数据集提供的3-fold交叉检验计算误差，结果如表 2所示。除了本文完整方法(IEN + PSN)的估计结果外，还给出了IEN的单独估计结果，即：通过IEN估计图像块光源，然后取图像中所有的图像块估计值的中位数作为全局光源颜色估计值。

表 1 不同光源颜色估计方法在NUS-8数据集上的角度误差对比
Table 1 Angular errors for the NUS-8 dataset for different illuminant estimation algorithms

下载CSV

/°
方法	均值	中位数	三均值	最优25%均值	最差25%均值
White-Patch (Land等，1977)	10.62	10.58	10.49	1.86	19.45
Gamut-Mapping (Intersection) (Gijsenij等，2010)	7.20	5.96	6.28	2.20	13.61
Grey-World (Buchsbaum等，1980)	4.14	3.20	3.39	0.90	9.00
Bayesian (Gehler等，2008)	3.67	2.73	2.91	0.82	8.21
Natural-Image-Statistics (Gijsenij等，2011)	3.71	2.60	2.84	0.79	8.47
Shades-of-Grey (Finlayson等，2004)	3.40	2.57	2.73	0.77	7.41
Grey-Edge (2nd-order) (Van de Weijer等，2007)	3.20	2.26	2.44	0.75	7.27
Bright-Pixels (Joze等，2012)	3.17	2.41	2.55	0.69	7.02
Spatio-Spectral (GenPrior) (Chakrabarti等，2012)	2.96	2.33	2.47	0.80	6.18
Cheng et al. (Cheng等，2014)	2.92	2.04	2.24	0.62	6.61
Convolutional-CC (dist+ext) (Barron等，2015)	2.38	1.48	1.69	0.45	5.85
Regression-Tree (Cheng等，2015)	2.36	1.59	1.74	0.49	5.54
DS-Net (Shi等，2016)	2.24	1.46	1.68	0.48	5.28
FC⁴ (SqueezeNet) (Hu等，2017)	2.23	1.57	1.72	0.47	5.15
FC⁴ (AlexNet) (Hu等，2017)	2.12	1.53	1.67	0.48	4.78
本文方法(IEN)	2.18	1.46	1.58	0.47	5.09
本文方法(IEN+PSN)	2.10	1.35	1.51	0.45	5.01
注：加粗字体表示最优结果，下划线表示次优结果。

表 2 不同光源颜色估计方法在重处理的ColorChecker数据集上的角度误差对比
Table 2 Angular errors for the reprocessed ColorChecker dataset for different illuminant estimation algorithms

下载CSV

/°
方法	均值	中位数	三均值	最优25%均值	最差25%均值	95^th百分位数
White-Patch (Land等，1977)	7.55	5.68	6.35	1.45	16.12	-
Grey-World (Buchsbaum等，1980)	6.36	6.28	6.28	2.33	10.58	11.30
Grey-Edge (2nd-order) (Van de Weijer等，2007)	5.13	4.44	4.62	2.11	9.26	-
Shades-of-Grey (Finlayson等，2004)	4.93	4.01	4.23	1.14	10.20	11.90
Bayesian (Gehler等，2008)	4.82	3.46	3.88	1.26	10.49	-
Retinal-Mechanism (Zhang等，2016)	4.80	2.70	-	-	-	-
Grey-Pixels (edge) (Yang等，2015)	4.60	3.10	-	-	-	-
Gamut-Mapping (intersection) (Gijsenij等，2010)	4.20	2.39	2.93	0.51	10.70	-
Natural-Image-Statistics (Gijsenij等，2011)	4.19	3.13	3.45	1.00	9.22	11.70
DOCC-RGB (max) (Gao等，2013)	4.03	2.60	-	-	9.35	-
Bilayer-Sparse-Coding (Li等，2013)	4.00	2.50	2.80	0.60	9.60	-
Bright-Pixels (Joze等，2012)	3.98	2.61	-	-	-	-
DOCC-LMS (max-cro) (Gao等，2015)	3.98	2.43	-	-	9.08	-
Spatio-Spectral (GenPrior) (Chakrabarti等，2012)	3.59	2.96	3.10	0.95	7.61	-
Cheng et al. (Cheng等，2014)	3.52	2.14	2.47	0.50	8.74	-
achroEI (Gao等，2014)	3.40	2.60	2.90	0.80	7.20	-
Multi-cue (Li等，2016)	3.25	2.20	2.55	0.30	8.13	-
Lou et al. (Lou等，2015)	3.10	2.30	-	-	-	-
Exemplar-Based (Joze等，2014)	2.89	2.27	2.42	0.82	5.97	6.95
Regression-Tree (Cheng等，2015)	2.42	1.65	1.75	0.38	5.87	-
CNN (Bianco等，2015)	2.63	1.98	2.13	0.74	5.63	7.11
Convolutional-CC (dist+ext) (Barron等，2015)	1.95	1.22	1.38	0.35	4.76	5.85
DS-Net (Shi等，2016)	1.90	1.12	1.33	0.31	4.84	5.99
FC⁴ (AlexNet) (Hu等，2017)	1.77	1.11	1.29	0.34	4.29	5.44
FC⁴ (SqueezeNet) (Hu等，2017)	1.65	1.18	1.27	0.38	3.78	4.73
本文方法(IEN)	2.35	1.67	1.81	0.61	5.21	6.35
本文方法(IEN+PSN)	2.25	1.59	1.73	0.59	5.03	6.08
注：加粗字体表示最优结果，下划线表示次优结果。

表 1的实验结果表明，本文方法在所有方法中精度最高，稳健性也较好。其中，基于统计的方法采用唯一确定的场景光源假设，精度相对较差。基于机器学习的方法通过对已知场景的特征建立模型来估计未知场景，能够处理一些复杂场景问题，多数精度优于基于统计的方法。基于深度学习的方法能够提取图像不同层次的特征并融合，获得了最高的精度，尤其是本文方法，相比浅层卷积神经网络提取的特征层次更多，保证了最好的估计效果。

表 2的实验结果表明，包括本文方法在内的深度学习方法最优。此外，基于图像灰度的统计方法精度最差，但基于生物视觉机理的方法明显优于其他基于统计的方法，其中DOCC(Gao等，2015)和achroEI(Gao等，2014)方法甚至优于部分常规机器学习方法，取得了计算效率和精度的平衡。由于重处理的ColorChecker数据集(Shi等，2014)中存在少量多光源图像(Hu等，2018)(即在一幅图像中分布有多个不同的光源，但表 2列出的方法均视其为单光源数据集)，这对基于局部图像块进行光源颜色估计并进行全局融合的本文方法有一定影响，但对于直接基于全局图像进行光源颜色估计的Convolutional-CC(Barron等，2015)和FC⁴(Hu等，2017)方法，以及采用分支选择的DS-Net(Shi等，2016)影响稍小，因而在这一数据集上本文方法的结果比这3种方法差，但仍优于其他方法。

表 1和表 2结果显示，DS-Net(Shi等，2016)、FC⁴(Hu等，2017)与本文方法最优。其中DS-Net方法(Shi等，2016)与本文方法相同，采用分别估计局部图像块光源，然后全局中值池化的估计方式。理论上，通过卷积核不同通道的权重取值，卷积层同样可以自动实现对输入特征图通道进行选择，并进一步提取特征的功能。因此，合理优化的、具有更大规模和深度的单一卷积网络能够获得与DS-Net方法(Shi等，2016)双网络类似的结果。表 1给出了本文IEN的单独估计结果，即通过IEN估计图像块光源，然后取图像中所有的图像块估计值的中位数作为全局光源颜色估计值(与DS-Net方法(Shi等，2016)一致)。结果表明，单一深度残差网络IEN同样可以获得与DS-Net方法(Shi等，2016)相同的精度和稳健性。而在表 2中，DS-Net方法(Shi等，2016)的结果表明其在光源数据存在误差的数据集上(ColorChecker包含少量明显的多光照图像)具有一定优势。此外，本文的PSN在训练时结合全局误差信息，用于估计图像块在整幅图像中的误差等级，由此筛选出低误差的图像块用于全局估计，达到降低误差的目的。表 1中的实验结果表明，相比DS-Net方法(Shi等，2016)单纯计算所有图像块估计值的中位数，本文方法更有效。

FC⁴方法(Hu等，2017)直接构建一个卷积网络，估计图像各区域的光源颜色和光源颜色置信权重，同时其连续的置信权重取值能更好地度量各区域光源颜色的准确性。然而，通过实验发现，该方法的局限性在于必须采用较大的图像作为输入，其实际采用512×512像素或更大的输入图像。较小的图像无法同时满足下列要求：1)存在足够多的子区域可供网络学习并筛选误差较小子区域；2)子区域足够大，可以较为准确估计光照。为此，FC⁴方法(Hu等，2017)采用了以下输入策略：1)将数据集图像缩放为相同大小，这可能导致数据变形和误差；同时，较小的训练集无法保证网络训练，但数据扩充可能会引入额外的误差。2)在数据集图像上裁剪，但较大的裁剪块无法实现对原图像完全且不重复的覆盖，这将导致重复覆盖或者缺失覆盖问题，无法同时保证计算精度和效率。3)采用原始数据集图像并使用全卷积网络处理不同大小的输入，这需要取消批处理(即将批大小设置为1)，可能会影响网络的训练性能；同时，这也需要考虑数据扩充引入的误差问题。

与FC⁴方法(Hu等，2017)相比，本文采用均匀且无重复覆盖的分割方法获得小型图像块，并使用IEN和PSN分开训练的方式，虽然计算量较大，但优势在于：1)将原始图像分割为相同大小的图像块作为输入，可以处理大小和长宽比差异巨大的图像，并且不会引入额外的误差，通用性更好；2)将训练集分割为图像块，图像块的数量足以保证本文残差网络的训练，同时避免数据扩充引入额外的误差。

3.5 本文算法分析

在重处理的ColorChecker数据集(Shi等，2014)上分别测试本文对数色度预处理、IEN和PSN的有效性，结果如表 3所示，分别对应不同配置下的本文方法误差结果。其中rgb表示输入为原始RGB图像(${\mathit{\pmb{I}}_{\rm{r}}}$，${\mathit{\pmb{I}}_{\rm{g}}}$，${\mathit{\pmb{I}}_{\rm{b}}}$)，uv表示输入为对数色度图像(${\mathit{\pmb{I}}_{\rm{u}}}$，${\mathit{\pmb{I}}_{\rm{v}}}$)；标注IEN的是仅基于IEN进行光源颜色估计的误差结果，标注IEN+PSN的是同时包含IEN和PSN的完整方法对应的误差结果。

表 3 不同配置本文方法在重处理的ColorChecker数据集上的角度误差对比
Table 3 Angular errors for the reprocessed ColorChecker dataset for the proposed approach with different configurations

下载CSV

/°
方法	均值	中位数	三均值	最优25%均值	最差25%均值	95^th百分位数
rgb (IEN)	2.61	1.96	2.10	0.72	5.65	6.53
rgb (IEN+PSN)	2.52	1.86	1.98	0.69	5.47	6.69
uv (IEN)	2.35	1.67	1.81	0.61	5.21	6.35
uv (IEN+PSN)	2.25	1.59	1.73	0.59	5.03	6.08
注：加粗字体表示最优结果，下划线表示次优结果。

从表 3可以看出，采用卷积网络直接估计光源颜色时，相较于采用网络深度较浅的卷积神经网络的Lou等人(2015)方法和CNN方法(Bianco等，2015；Bianco等，2017)(如表 2所示)，基于更深残差网络的IEN能够全面提高光源颜色估计精度和稳健性；此外，在相同的IEN结构下，对数色度图像作为输入要优于原始RGB图像，其估计误差降低了约10%~15%；与此同时，对于光源颜色估计误差较大的图像，本文通过引入PSN去除误差值较大的图像块，能够进一步将误差降低约5%，提高最终的光源颜色估计精度和算法稳健性，并且这一结论对于RGB图像和对数色度图像均成立。

本文方法的输出结果如图 5所示。图 5(b)(c)(d)分别为PSN选择的图像块、IEN估计的图像块光源颜色、PSN选择图像块的光源颜色。图 5(e)和图 5(f)的左半幅图为估计值，右半幅图为真实值，同时在图 5(e)中标注了估计误差。可以看出，一般室内场景中包含语义信息的图像块，如纹理信息丰富的人像、书籍等，IEN的估计误差通常较小，而PSN也会优先选择这些区域，可以有效提高全局光源估计精度。而相比物体和光照复杂的室内场景，室外场景的光照均匀，IEN的估计误差普遍较小，PSN则优先选择天空、草地、特定纹理的建筑和道路等，能够小幅提高全局估计精度。

图 5 本文方法的输出结果示例

Fig. 5 Example outputs of the proposed approach ((a) input image; (b) selected patches; (c) patch illuminants; (d) selected illuminants; (e) global illuminants; (f) restored images)

图 6为光源估计误差较大的4个典型例子，以此分析本文方法的误差来源和局限性。图 6(b)(c)(d)分别为PSN选择的图像块、IEN估计的图像块光源颜色、PSN选择图像块的光源颜色。图 6(e)和图 6(f)的左半幅图为估计值，右半幅图为真实值，并且在图 6(e)中标注了估计误差。在图 6第1行场景中，整个场景纹理内容较为单一，信息不足，导致IEN和PSN均难以获得准确的结果。图 6第2行场景中，PSN正确排除了语义和纹理信息不足的图像区域，因此全局误差主要源于IEN的估计误差。可以看出，ColorChecker放置在窗边且距场景主体较远，根据ColorChecker计算的场景真实光源可能受到了室外光源的影响，这可能是IEN产生误差的重要原因。图 6第3行场景中，IEN相对准确地估计了近景人物的光源，PSN却未能选择语义信息明确的人物图像。这是由于场景远处多个光源导致远处墙面产生了复杂的阴影和颜色变化，因此PSN优先选取这些纹理相似但颜色不同的区域用于全局光照估计。此外，该场景的光源颜色真实值是在近景处计算得到的，因此该场景的光源颜色估计误差较大。图 6第4行是多光源场景，算法将其作为单光源场景处理，因此产生了较大的误差。

图 6 本文方法误差较大的输出结果示例

Fig. 6 Example outputs of the proposed approach with large error ((a) input image; (b) selected patches; (c) patch illuminants; (d) selected illuminants; (e) global illuminants; (f) restored images)

本文及各深度学习方法的网络连接和参数数量如表 4所示，将其用于衡量各方法理论上的训练时间复杂度和空间复杂度，并与本文方法对比。表 4表明，本文方法与FC⁴方法(采用SqueezeNet设置)(Hu等，2017)具有接近的时间复杂度和空间复杂度。

表 4 不同深度学习方法的网络连接和参数数量
Table 4 Network connections and parameter size for different deep learning algorithms

下载CSV

/×10⁶
方法	连接数量	参数数量
Lou et al. (Lou等，2015)	0.8	56.9
CNN (Bianco等，2015)	0.2	14.9
DS-Net (Shi等，2016)	0.1	4.2
FC⁴ (AlexNet) (Hu等，2017)	0.8	2.9
FC⁴ (SqueezeNet) (Hu等，2017)	4.4	1.2
本文方法	2.1×2	0.8×2

本文方法在NUS-8数据集(Cheng等，2014)和重处理的ColorChecker数据集(Shi等，2014)上平均每幅图像的实际测试时间如表 5所示。对于一幅2 K分辨率级别的图像，本文方法的计算时间平均为1.4 s以内，可以满足实际问题求解需要。

表 5 本文方法在不同数据集上的平均测试时间
Table 5 Average evaluation time for the proposed approach for different datasets

下载CSV

数据集	数据集子集	图像分辨率/像素	时间/s
ColorChecker		2 041×1 359或2 193×1 460	1.37
NUS-8	Canon1DsMkIII	2 820×1 876	2.17
	Canon600D	2 601×1 732	1.98
	FujifilmXM1	1 650×1 094	0.74
	NikonD5200	3 018×2 010	2.63
	OlympusEPL6	2 320×1 736	1.68
	PanasonicGX1	2 304×1 732	1.79
	SamsungNX2000	2 768×1 848	2.24
	SonyA57	2 464×1 638	1.74

4 结论

针对目前光源颜色估计中局部场景的颜色歧义问题，本文基于深度残差学习提出一种光源颜色估计方法。首先对图像进行对数色度预处理，降低了图像亮度对光源颜色估计的影响，并减小了数据量；基于残差结构设计IEN和PSN，大幅度提高了网络深度，增加特征提取层次并更细致地融合图像高中低层次的特征，有利于增强网络的分类和回归能力，提高光源颜色估计和光源颜色误差分类的准确性；采用PSN去除图像中光源颜色估计误差较大的图像块，能够进一步降低全局估计误差，提高算法精度和稳健性。实验结果表明，相较于其他方法，本文方法的估计精度和稳健性均处于先进水平；与网络深度较浅的卷积神经网络相比，更深的残差网络能够提高光源颜色估计精度，同时对数色度预处理和PSN能够进一步降低误差并增强算法稳健性，从而验证了本文方法设计的有效性和必要性。目前，随着深度学习的发展，在其他领域出现了一些新的网络模型并获得较好的结果，如生成式对抗网络等，下一步的工作将针对该方向以及多光源条件下的图像颜色校正(Gao等，2019)进行深入研究。

参考文献

Barron J T. 2015. Convolutional color constancy//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 379-387[DOI: 10.1109/ICCV.2015.51]

Bi D Y, Ku T, Zha Y F, Zhang L C, Yang Y. 2016. Scale-adaptive object tracking based on color names histogram. Journal of Electronics & Information Technology, 38(5): 1099-1106 (毕笃彦, 库涛, 查宇飞, 张立朝, 杨源. 2016. 基于颜色属性直方图的尺度目标跟踪算法研究. 电子与信息学报, 38(5): 1099-1106) [DOI:10.11999/JEIT150921]

Bianco S, Cusano C and Schettini R. 2015. Color constancy using CNNs//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Boston, MA, USA: IEEE, 81-89[DOI: 10.1109/CVPRW.2015.7301275]

Buchsbaum G. 1980. A spatial processor model for object colour perception. Journal of the Franklin Institute, 310(1): 1-26 [DOI:10.1016/0016-0032(80)90058-7]

Chakrabarti A, Hirakawa K, Zickler T. 2012. Color constancy with spatio-spectral statistics. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(8): 1509-1519 [DOI:10.1109/TPAMI.2011.252]

Cheng D L, Prasad D K, Brown M S. 2014. Illuminant estimation for color constancy:why spatial-domain methods work and the role of the color distribution. Journal of the Optical Society of America A, 31(5): 1049-1058 [DOI:10.1364/JOSAA.31.001049]

Cheng D L, Price B, Cohen S and Brown M. 2015. Effective learning-based illuminant estimation using simple features//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 1000-1008[DOI: 10.1109/CVPR.2015.7298702]

Cheng Y, Jiao L B, Tong Y, Li Z, Hu Y, Cao X. 2017. Directional illumination estimation sets and multilevel matching metric for illumination-robust face recognition. IEEE Access, 5: 25835-25845 [DOI:10.1109/ACCESS.2017.2766128]

Cui S, Zhang J, Gao J. 2018. Illumination estimation based on exemplar learning in logarithm domain. Acta Optica Sinica, 38(2): #0233001 (崔帅, 张骏, 高隽. 2018. 对数域中基于实例学习的光照估计. 光学学报, 38(2): #0233001) [DOI:10.3788/aos201838.0233001]

Deng J, Dong W, Socher R, Li L J and Li F F. 2009. ImageNet: a large-scale hierarchical image database//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 248-255[DOI: 10.1109/CVPR.2009.5206848]

Duan Z G, Li Y, Wang E D, Tian J D, Tang Y D. 2016. Road and navigation line detection algorithm from shadow image based on the illumination invariant image. Acta Optica Sinica, 36(12): #1215004 (段志刚, 李勇, 王恩德, 田建东, 唐延东. 2016. 基于光照不变图像的阴影图像道路及导航线提取算法. 光学学报, 36(12): #1215004)

Finlayson G D, Drew M S, Funt B V. 1994. Color constancy:generalized diagonal transforms suffice. Journal of the Optical Society of America A, 11(11): 3011-3019 [DOI:10.1364/JOSAA.11.003011]

Finlayson G D and Trezzi E. 2004. Shades of gray and colour constancy//Proceedings of the 12th Color Imaging Conference: Color Science and Engineering Systems, Technologies, and Applications. Scottsdale, AZ, USA: IS & T, 37-41.

Gao S B, Yang K F, Li C Y and Li Y. 2013. A color constancy model with double-opponency mechanisms//Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney, NSW, Australia: IEEE, 929-936[DOI: 10.1109/ICCV.2013.119]

Gao S B, Han W W, Yang K F and Li C. 2014. Efficient color constancy with local surface reflectance statistics//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 158-173[DOI: 10.1007/978-3-319-10605-2_11]

Gao S B, Yang K F, Li C Y, Li Y. 2015. Color constancy using double-opponency. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(10): 1973-1985 [DOI:10.1109/TPAMI.2015.2396053]

Gao S B, Ren Y Z, Zhang M, Li Y. 2019. Combining bottom-up and top-down visual mechanisms for color constancy under varying illumination. IEEE Transactions on Image Processing, 28(9): 4387-4400 [DOI:10.1109/TIP.2019.2908783]

Gehler P V, Rother C, Blake A, Minka T and Sharp T. 2008. Bayesian color constancy revisited//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 1-8[DOI: 10.1109/CVPR.2008.4587765]

Gijsenij A, Gevers T, Van de Weijer J. 2010. Generalized gamut mapping using image derivative structures for color constancy. International Journal of Computer Vision, 86(2-3): 127-139 [DOI:10.1007/s11263-008-0171-3]

Gijsenij A, Gevers T. 2011. Color constancy using natural image statistics and scene semantics. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(4): 687-698 [DOI:10.1109/TPAMI.2010.93]

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 770-778[DOI: 10.1109/CVPR.2016.90]

Hu Y M, Wang B Y and Lin S. 2017. FC⁴: Fully convolutional color constancy with confidence-weighted pooling//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 330-339[DOI: 10.1109/CVPR.2017.43]

Hu Y M, Wang B Y and Lin S. 2017. Code and resources for "FC4: Fully convolutional color constancy with confidence-weighted pooling" (CVPR 2017)[EB/OL]. (2018-11-20)[2019-02-17]. DOI: https://github.com/yuanming-hu/fc4

Huang D M, Wang Y, Song W, Wang Z H, Du Y L. 2018. Underwater image enhancement method using adaptive histogram stretching in different color models. Journal of Image and Graphics, 23(5): 640-651 (黄冬梅, 王龑, 宋巍, 王振华, 杜艳玲. 2018. 不同颜色模型下自适应直方图拉伸的水下图像增强. 中国图象图形学报, 23(5): 640-651) [DOI:10.11834/jig.170610]

Jia Y Q, Shelhamer E, Donahue J, Karayev S, Long J, Girshick R, Guadarrama S and Darrell T. 2014. Caffe: convolutional architecture for fast feature embedding//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando, FL, USA: ACM, 675-678[DOI: 10.1145/2647868.2654889]

Joze H R V, Drew M S, Finlayson G D and Rey P. 2012. The role of bright pixels in illumination estimation//Proceedings of the 20th Color and Imaging Conference. Los Angeles, CA, USA: IS & T, 493-496

Joze H R V, Drew M S. 2014. Exemplar-based color constancy and multiple illumination. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(5): 860-873 [DOI:10.1109/TPAMI.2013.169]

Krizhevsky A, Sutskever I and Hinton G E. 2012. ImageNet classification with deep convolutional neural networks//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: ACM, 1097-1105

Land E H. 1977. The retinex theory of color vision. Scientific America, 237(6): 108-129 [DOI:10.1038/scientificamerican1277-108]

Li B, Xiong W H, Hu W M and Peng H. 2013. Illumination estimation based on bilayer sparse coding//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 1423-1429[DOI: 10.1109/CVPR.2013.187]

Li B, Xiong W H, Hu W M, Funt B, Xing J. 2016. Multi-cue illumination estimation via a tree-structured group joint sparse representation. International Journal of Computer Vision, 117(1): 21-47 [DOI:10.1007/s11263-015-0844-7]

Lou Z Y, Gevers T, Hu N H and Lucassen M. 2015. Color constancy by deep learning//Proceedings of the British Machine Vision Conference. Swansea, UK: BMVA, 76.1-76.12[DOI: 10.5244/C.29.76]

Oh S W, Kim S J. 2017. Approaching the computational color constancy as a classification problem through deep learning. Pattern Recognition, 61: 405-416 [DOI:10.1016/j.patcog.2016.08.013]

Qian Y L, Chen K, Kämäräinen J K, Nikkanen J and Matas J. 2016. Deep structured-output regression learning for computational color constancy//Proceedings of the 23rd International Conference on Pattern Recognition. Cancun, Mexico: IEEE, 1899-1904[DOI: 10.1109/ICPR.2016.7899914]

Shi L L and Funt B. 2014. Re-processed version of the Gehler color constancy dataset of 568 images[EB/OL]. (2014-05-07)[2019-02-17]. DOI: http://www.cs.sfu.ca/colour/data.

Shi W, Loy C C and Tang X O. 2016. Deep specialized network for illuminant estimation//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands: Springer, 371-387[DOI: 10.1007/978-3-319-46493-0_23]

Simonyan K and Zisserman A. 2015. Very deep convolutional networks for large-scale image recognition[EB/OL] [2019-03-01]. DOI: https://arxiv.org/pdf/1409.1556.pdf.

Sutskever I, Martens J, Dahl G and Hinton G. 2013. On the importance of initialization and momentum in deep learning//Proceedings of the 30th International Conference on International Conference on Machine Learning. Atlanta, GA, USA: ACM, Ⅲ-1139-Ⅲ-1147.

Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S and Anguelov D. 2015. Going deeper with convolutions//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 1-9[DOI: 10.1109/CVPR.2015.7298594]

Van de Weijer J, Gevers T, Gijsenij A. 2007. Edge-based color constancy. IEEE Transactions on Image Processing, 16(9): 2207-2214 [DOI:10.1109/TIP.2007.901808]

Wu K W, Yang X Z, Xie Z. 2016. Regional-oriented non-uniform illumination estimation. Acta Optica Sinica, 36(2): #0233001 (吴克伟, 杨学志, 谢昭. 2016. 面向区域的非均匀光照估计方法. 光学学报, 36(2): #0233001) [DOI:10.3788/aos201636.0233001]

Xiong W H, Funt B. 2006. Estimating illumination chromaticity via support vector regression. Journal of Imaging Science and Technology, 50(4): 341-348 [DOI:10.2352/J.ImagingSci.Technol.(2006)50:4(341)]

Yang K F, Gao S B and Li Y J. 2015. Efficient illuminant estimation for color constancy using grey pixels//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE[DOI: 10.1109/CVPR.2015.7298838]

Zhang X S, Gao S B, Li R X, Du X, Li C, Li Y. 2016. A retinal mechanism inspired color constancy model. IEEE Transactions on Image Processing, 25(3): 1219-1232 [DOI:10.1109/TIP.2016.2516953]