发布时间: 2022-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.211039
2022 | Volume 27 | Number 12

图像理解和计算机视觉

空间感知通道注意力引导的高动态图像重建

唐凌峰, 黄欢, 张亚飞, 李凡

昆明理工大学信息工程与自动化学院, 昆明 650500

收稿日期: 2021-11-04; 修回日期: 2021-12-27; 预印本日期: 2022-01-03

基金项目: 国家自然科学基金项目(62161015)

作者简介: 唐凌峰，男，硕士研究生，主要研究方向为数字图像处理、机器学习。E-mail: tanglf111@qq.com
黄欢，通信作者，女，副教授，主要研究方向为数字图像处理、机器学习。E-mail: 1427903561@qq.com
张亚飞，女，副教授，主要研究方向为行人重识别、行人检索、图像处理、机器学习。E-mail: zyfeimail@163.com
李凡，男，副教授，主要研究方向为行人重识别、行人检索、图像处理、机器学习。E-mail: 478263823@qq.com
*通信作者: 黄欢 1427903561@qq.com

中图法分类号: TP391.4

文献标识码: A

文章编号: 1006-8961(2022)12-3581-15

摘要

目的通过融合一组不同曝光程度的低动态范围(low dynamic range, LDR)图像，可以有效重建出高动态范围(high dynamic range, HDR)图像。但LDR图像之间存在背景偏移和拍摄对象运动的现象，会导致重建的HDR图像中引入鬼影。基于注意力机制的HDR重建方法虽然有一定效果，但由于没有充分挖掘特征空间维度和通道维度的相互关系，只在物体出现轻微运动时取得比较好的效果。当场景中物体出现大幅运动时，这些方法的效果仍然存在提升空间。为此，本文提出了空间感知通道注意力引导的多尺度HDR图像重建网络来实现鬼影抑制和细节恢复。方法本文提出了一种全新的空间感知通道注意力机制(spatial aware channel attention mechanism, SACAM)，该机制在挖掘通道上下文关系的过程中，通过提取特征通道维度的全局信息和显著信息，来进一步强化特征的空间关系。这有助于突出特征空间维度与通道维度有益信息的重要性，实现鬼影抑制和特征中有效信息增强。此外，本文还设计了一个多尺度信息重建模块(multiscale information reconstruction module, MIM)。该模块有助于增大网络感受野，强化特征空间维度的显著信息，还能充分利用不同尺度特征的上下文语义信息，来重构最终的HDR图像。结果在Kalantari测试集上，本文方法的PSNR-L(peak signal to noise ratio-linear domain)和SSIM-L(structural similarity-linear domain)分别为41.101 3、0.986 5。PSNR-μ(peak signal to noise ratio-tonemapped domain)和SSIM-μ(structural similarity-tonemapped domain)分别为43.413 6、0.990 2。在Sen和Tursun数据集上，本文方法较为真实地重构了场景的结构，并清晰地恢复出图像细节，有效避免了鬼影的产生。结论本文提出的空间感知通道注意力引导的多尺度HDR图像重建网络，有效挖掘了特征中对重构图像有益的信息，提升了网络恢复细节信息的能力。并在多个数据集上取得了较为理想的HDR重建效果。

关键词

多曝光图像融合; 高动态范围(HDR); 注意力; 多尺度; 鬼影抑制

Spatial aware channel attention guided high dynamic image reconstruction

Tang Lingfeng, Huang Huan, Zhang Yafei, Li Fan

Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China

Supported by: National Natural Science Foundation of China(62161015)

Abstract

Objective High dynamic range (HDR) imaging technology is widely used in modern imaging terminals. Hindered by the performance of the imaging sensor, photographs can capture information only in a limited range. HDR images can be reconstructed effectively through a group of low dynamic range (LDR) images fusion with multiple exposure levels. Due to shooting in real scene accompanied by camera shake and motion of shooting object, different exposures-derived LDR images do not have rigid pixel alignment in space, and the fused HDR results are easy to introduce artifacts, which greatly reduces the image quality. Although the attention based HDR reconstruction methods has a certain effect on improving the image quality, it achieves good results only when the object moves slightly for it does not fully mine the interrelationship in space dimension and channel dimension. When large foreground motion occurs in the scene, there is still a large room for improvement in the effects of these methods. Therefore, it is important to improve the ability of network to eliminate artifacts and restore details in saturated region. We develop multi-scale HDR image reconstruction network guided by spatial-aware channel attention. Method The medium-exposure LDR image is used as the reference image, and the remaining images are used as the non-reference images. Therefore, it is necessary to make full use of the effective complementary information of the non-reference images in the process of HDR reconstruction to enhance the dynamic range of the fused image, suppress the invalid information in the non-reference images and prevent the introduction of artifacts and saturation. In order to improve the ability of the network to eliminate artifacts and restore the details of saturated areas, we demonstrate a spatial-aware channel attention mechanism (SACAM) and a multi-scale information reconstruction module (MIM). In the process of mining channel context, SACAM strengthens the spatial relationship of features further via global information extraction and key information of feature channel dimension. Our research is focused on highlighting the importance of useful information in space dimension and channel dimension, and realizing ghost suppression and effective information enhancement in features. The MIM is beneficial to increase the network receptive field, strengthen the significant information of feature space dimension, and make full use of the contextual semantic information of different scale features to reconstruct the final HDR image. Result Our experiments are carried out on three public HDR datasets, including Kalantari dataset, Sen dataset and Tursun dataset. It can obtain better visual performance and higher objective evaluation results. Specifically, 1) on the Kalantari dataset, our PSNR-L and SSIM-L are 41.101 3 and 0.986 5, respectively. PSNR-μ and SSIM-μ are 43.413 6 and 0.990 2, respectively. HDR-VDP-2 is 64.985 3. In order to verify the generalization performance of each method, we also compare the experimental results on unlabeled Sen dataset and Tursun dataset. 2) On Sen dataset, our method can not only effectively suppress the ghosts, but also resilient clearer image details. 3) On the Tursun dataset, we reconstruct scene structure more real and avoid the artifacts effectively. In addition, ablation study proves the effectiveness of the proposed method. Conclusion A spatial-aware channel attention guided multi-scale HDR reconstruction network (SCAMNet) is facilitated. The spatial aware channel attention mechanism and multi-scale information reconstruction module are integrated into one framework, which effectively solves the artifact caused by target motion and detail recovery in saturated region. To enhance the useful information in the features for the reconstructed image, our spatial-aware channel attention mechanism tends to establish the relationship between features in spatial and channel dimensions. The multi-scale information reconstruction module makes full use of the context semantic relationship of different scale features to further mine the useful information in the input image and reconstruct the HDR image. The potentials of our method are evaluated and verified qualitatively and quantitatively.

Key words

multi-exposure image fusion; high dynamic range(HDR); attention; multiscale; ghost suppression

0 引言

高动态范围(high dynamic range, HDR)成像旨在有效地捕捉和显示自然场景的照明。由于标准数码相机受限于设备传感器的性能，只能捕获有限动态范围内的光强，导致拍摄图像中出现过亮或过暗的区域，不能很好地反映出人眼在自然场景中感知到的明亮或黑暗区域的细节。虽然利用专业成像设备可以直接获取HDR图像，但这些设备通常十分昂贵，大多数用户无法负担。因此，利用HDR重建算法(范逵和周晓波，2014; 朱雄泳等，2018)，即从传统数码相机捕获的图像中恢复出HDR图像的方法十分流行。

一些研究者试图利用单幅低动态范围(lour dynamic range, LDR)图像生成HDR图像(Eilertsen等，2017；Liu等，2020)。由于照相机传感器在捕获信息时存在量化误差和饱和工作区间，只利用单幅图像的信息难以达到较好的重建效果。具有不同曝光度的LDR图像分别包含了不同动态区间下的信息。因此，融合同一场景下的多幅不同曝光LDR图像可以重建出更高动态范围的图像。然而，现实生活中拍摄一组图像通常会存在相机位置的偏移、前景物体的移动以及饱和等现象。由于待融合图像的像素在空间位置上未对齐，会造成重建HDR图像出现鬼影、噪声和模糊的现象。为了解决这些问题，一些传统方法(Zimmer等，2011；Xu等，2010)试图使用光流法(Kang等，2003)先对LDR图像进行预先配准，然后进行融合。Gallo等人(2009)先检测运动区域，再预测由物体运动而导致的信息不一致区域，并将其摒弃来解决空间信息误对齐的问题。基于深度学习的HDR重建方法(Liu等，2020；Yan等，2019b)通常具有更强的恢复细节能力，但由于缺少对输入图像特征的有效挖掘和利用，阻碍了HDR图像质量的进一步提升。如Kalantari和Ramamoorthi(2017)利用光流法将输入图像与参考图像进行对齐，然后通过一系列卷积层对图像直接进行融合。Wu等人(2018)先利用单应性变换(homography transformation)对图像进行整体对齐，然后用基于U-Net或ResNet的网络架构来融合LDR图像。Yan等人(2020)仅从单一维度建立特征的相互关系，没有充分突出特征中的有效信息。现有基于注意力机制的方法虽然有一定效果，但由于没有充分考虑特征空间维度和通道维度的相互关系，因此在抑制鬼影、保持和恢复细节信息方面仍然存在很大的提升空间，如图 1所示。

图 1 不同HDR重建方法成像结果对比

Fig. 1 Comparison results of different HDR methods

本文方法着重解决因图像像素的未对齐而导致融合结果出现的“鬼影”、过曝光/欠曝光区域细节信息难以恢复以及融合过程中源图像边缘细节容易丢失的问题。为了解决上述问题，提出了一种空间感知通道注意力引导的HDR重建方法。

本文方法充分考虑了图像特征的空间相关性和特征通道的相关性，设计了空间感知通道注意力机制。这样一种集成式的设计，在挖掘通道上下文关系的过程中，通过提取特征通道维度的全局信息和显著信息，进一步强化特征的空间关系，实现对误对齐区域信息的进一步抑制以及有效信息的增强。此外，为强化网络挖掘输入图像中有益信息的能力，本文提出了多尺度信息重建模块，在增大网络感受野的同时，凸显了特征空间维度的显著信息，充分利用了不同尺度特征的上下文信息。这不仅有助于保留输入LDR图像的更多细节，还有助于恢复饱和区域丢失的信息。如图 1所示，本文模型能构建出更高质量的HDR图像。为了评估本文方法的性能，在公开HDR数据集上将本文方法与其他HDR重建方法进行了比较，实验结果证明了本文方法的有效性和优越性。综上所述，本文的主要贡献包括：

1) 提出一种全新的空间感知通道注意力机制。该机制在空间注意力的基础上，通过提取特征通道维度的全局信息和显著信息，进一步增强了有效区域信息在重构HDR图像中的作用，充分考虑了不同位置和不同通道特征之间的相关性和差异性。在抑制鬼影的同时增强了特征中有效信息的作用。

2) 设计多尺度信息重建模块。该模块有助于增大网络感受野，强化特征空间维度的显著信息，还能充分利用不同尺度特征的上下文语义信息，来重构最终的HDR图像。实现保留图像细节的同时，有效恢复出饱和区域丢失的信息。

3) 构建端到端HDR重建框架。该框架无需对图像进行预先配准，并在公开HDR数据集上取得了有竞争力的性能，充分证明了本文方法的有效性和优越性。

1 相关工作

1.1 基于对齐的方法

基于对齐的方法通常在进行多曝光图像融合之前，对LDR图像先进行对齐处理。Ward(2003)提出通过二值图计算整体像素偏移量来对齐偏移的图像。Zimmer等人(2011)提出基于光流的方法来对齐图像，但没有很好地利用未对齐部分的HDR内容。为增强融合结果中的图像细节，Sen等人(2012)提出通过优化基于图像块(patch-based)的能量最小化函数(energy-minimization formulation)，来解决对齐问题。这类方法通常在复杂场景以及图像之间存在目标物的大幅度移动时，对齐效果并不理想，导致融合结果中仍然有鬼影的存在。

1.2 基于运动检测的方法

基于运动检测的方法假定多幅LDR图像可以在最终的HDR图像中配准，并把LDR中的像素划分为偏移的像素和未偏移的像素来分别处理。Jinno和Okuda(2008)提出通过马尔可夫随机场预估出现的位移、遮挡和饱和的区域，并将这些区域的信息在最终的HDR图像中排除掉。Raman和Chaudhuri(2011)提出利用超像素分组(superpixel grouping)来检测场景的变化，并将信息不一致的块舍弃掉，以缓解HDR重建过程中可能出现的鬼影。Zheng等人(2013)提出使用模板匹配和空洞填充来检测和消除出现偏移的像素，以达到消除鬼影的目的。这类方法在运动区域处重构出的信息通常是低动态范围的，因为它们只是摒弃掉运动区域的内容，而没有充分利用运动区域所包含的信息。

1.3 基于深度神经网络的方法

深度学习技术通过端到端的训练让网络学习如何重建HDR图像。基于深度神经网络的方法通常包括两类实现HDR图像的方式：1)从单幅LDR图像中重构出HDR图像。2)通过融合多幅具有不同曝光水平的LDR图像重构HDR图像。在第1种方法中，Eilertsen等人(2017)设计了一个深度自编码器网络，旨在恢复出饱和区域丢失的信息，增强重构图像的细节表现。由于相机成像过程中有些步骤会造成信息丢失，Fotiadou等人(2020)通过稀疏自编码器从图像块的特征中建模不同的曝光条件，再利用模拟出的不同曝光水平从单幅LDR图像重建出HDR图像。

在第2种方法中，Kalantari和Ramamoorthi(2017)提出先用光流法对齐输入的图片，再用深度神经网络来预测重建的HDR图像。然而，这种方法需要对图像进行预处理，并且难以消除由于光流方法的局限性带来的误对齐。Wu等人(2018)从图像转化角度提出利用深度编码解码网络恢复出HDR图像的细节。但网络对抑制鬼影的鲁棒性不强。为进一步消除鬼影带来的影响，Yan等人(2019a)通过简单注意力机制构建特征空间位置关系，没有考虑特征通道间的关系。Yan等人(2020)又提出利用特征的空间相关性引导网络恢复出被遮挡区域的细节。但重建网络恢复图像细节能力有限。这些方法虽然能有效提升重构图像的质量，但在对饱和区域丢失细节的恢复或大尺度移动而引入的鬼影抑制方面，仍然存在较大的提升空间。

2 方法

本文方法框架如图 2所示，主要包括特征提取网络、空间感知通道注意力网络、多尺度信息重建网络。其中，特征提取网络主要负责从输入的图像中提取出包含不同层次信息的特征；空间感知通道注意力网络用于凸显有助于提升图像质量的信息，避免鬼影效应对融合结果的影响；多尺度信息重建网络利用特征在空间层面的重构来增大提取特征的感受野，这有助于在更大的感受野内提取有效信息，并实现过/欠曝光和运动区域丢失细节信息的恢复。

图 2 本文方法框架

Fig. 2 The framework of the proposed method

2.1 数据预处理与模型概述

给定一组动态场景下多曝光LDR图像{${\mathit{\boldsymbol{x}}}_{\rm {1}}$, ${\mathit{\boldsymbol{x}}}_{\rm {2}}$, ${\mathit{\boldsymbol{x}}}_{\rm {3}}$}。HDR图像重构的目标是根据输入的非参考图像{${\mathit{\boldsymbol{x}}}_{\rm {1}}$, ${\mathit{\boldsymbol{x}}}_{\rm {3}}$}, 重构出一幅与选定的参考图像${\mathit{\boldsymbol{x}}}_{\rm {2}}$对齐的HDR图像，并且该图像包含了非参考图像{${\mathit{\boldsymbol{x}}}_{\rm {1}}$, ${\mathit{\boldsymbol{x}}}_{\rm {3}}$}的细节信息。在待融合图像{${\mathit{\boldsymbol{x}}}_{\rm {1}}$, ${\mathit{\boldsymbol{x}}}_{\rm {2}}$, ${\mathit{\boldsymbol{x}}}_{\rm {3}}$}输入网络之前，本文根据Kalantari和Ramamoorthi(2017)方法的设定，先用gamma校正函数对LDR图像{${\mathit{\boldsymbol{x}}}_{\rm {1}}$, ${\mathit{\boldsymbol{x}}}_{\rm {2}}$, ${\mathit{\boldsymbol{x}}}_{\rm {3}}$}预处理，得到对应的HDR图像{${\mathit{\boldsymbol{H}}}_{\rm {1}}$, ${\mathit{\boldsymbol{H}}}_{\rm {2}}$, ${\mathit{\boldsymbol{H}}}_{\rm {3}}$}，其中$\boldsymbol{H}_i$可表示为

$ \boldsymbol{H}_i=\frac{\boldsymbol{x}_i^\gamma}{t_i}, \quad i \in\{1, 2, 3\} $

(1)

式中，$γ$>1表示gamma校正参数，$t_{i}$为LDR图像${\mathit{\boldsymbol{x}}}_{i}$的曝光时间。根据Kalantari和Ramamoorthi(2017)，设$γ$=2.2，并将${\mathit{\boldsymbol{x}}}_{i}$和${\mathit{\boldsymbol{H}}}_{i}$在通道上拼接起来，得到一个6通道的张量$\boldsymbol{X}_i=\left[\boldsymbol{H}_i, \boldsymbol{x}_i\right], i \in\{1, 2, 3\}$作为网络的输入。

2.2 特征提取网络

如图 2所示，特征提取网络由4个3×3卷积层组成，每个卷积层输出的特征均为16通道。对于输入$\boldsymbol{X}_i \in \mathbf{R}^{H \times W \times 6}(i=1, 2, 3)$，第$l$个卷积层的输出可以表示为

$ \boldsymbol{F}_{c, i}^l={Conv}\left(\boldsymbol{X}_i, k=3, l\right) $

(2)

式中，$Conv$表示卷积，$k$表示卷积核的尺寸，$l$∈{1, 2, 3, 4}表示卷积层的序号。特征提取网络最后输出的特征$\boldsymbol{F}_i \in \mathbf{R}^{H \times W \times 64}$可表示为

$ \boldsymbol{F}_i={concat}\left(\boldsymbol{F}_{c, i}^1, \boldsymbol{F}_{c, i}^2, \boldsymbol{F}_{c, i}^3, \boldsymbol{F}_{c, i}^4\right) $

(3)

式中，$concat$表示特征间的拼接操作。

2.3 空间感知通道注意力网络

本文提出的空间感知通道注意力网络(spatial aware channel attention network，SACAN)，如图 3所示。其主要由空间感知通道注意力机制(spatial aware channel attention mechanism，SACAM)构成。SACAM通过同时挖掘特征通道与空间层面的关系，生成软注意力权重，评估所提取的特征在空间维度与通道维度的重要性。假设输入SACAM的两幅不同图像的特征为${\mathit{\boldsymbol{F}}}_{i}$和${\mathit{\boldsymbol{F}}}_{j}$，其中${\mathit{\boldsymbol{F}}}_{i}$为从非参考图像中提取的特征，${\mathit{\boldsymbol{F}}}_{j}$为从参考图像中提取的特征。考虑到模型的目标是生成与参考图像场景一致的HDR图像，通过建立特征空间维度的关系，生成一个可以识别误对齐区域的注意力图。具体地，将特征${\mathit{\boldsymbol{F}}}_{i}$和${\mathit{\boldsymbol{F}}}_{j}$拼接，再经过两个卷积层(卷积核大小分别为1×1和3×3)和sigmoid激活函数后得到空间注意力权重$\boldsymbol{W}_{i j}^{\mathrm{SA}}$。将得到的权重$\boldsymbol{W}_{i j}^{\mathrm{SA}}$与${\mathit{\boldsymbol{F}}}_{i}$相乘，对${\mathit{\boldsymbol{F}}}_{i}$在不同空间位置进行加权，从而削弱误对齐部分的特征，减轻鬼影现象。其过程可表示为

图 3 空间感知通道注意力机制结构示意图

Fig. 3 The structure of our spatial aware channel attention mechanism

$ \boldsymbol{F}_i^{\mathrm{SA}}=\boldsymbol{F}_i \odot \boldsymbol{W}_{\mathrm{SA}} $

(4)

式中, $\odot$表示哈达玛积。

在空间维度仅能关注图像不同位置特征的重要性，无法充分利用特征中不同通道的相关性来重构HDR图像。区别于使用空间注意力和通道注意力双支路的方法，本文方法在空间维度进一步强化了$\boldsymbol{F}_i^{\mathrm{SA}}$中的有效信息，并且考虑了不同通道之间的相关性，从而突出不同通道的特征。具体地，SACAM对$\boldsymbol{F}_i^{\mathrm{SA}}$在通道层面分别进行全局平均池化(global average pooling, GAP)和全局最大池化(global max pooling, GMP)，来提取通道维度的全局信息$\boldsymbol{F}_{i\_ g}^{\mathrm{SA}} \in\mathbf{R}^{H \times W}$和显著信息$\boldsymbol{F}_{i\_ h}^{\mathrm{SA}} \in \mathbf{R}^{H \times W}$。这一过程为

$ \begin{aligned} & \boldsymbol{F}_{i\_ g}^{\mathrm{SA}}={GAP}\left(\boldsymbol{F}_i^{\mathrm{SA}}\right) \\ & \boldsymbol{F}_{i\_ h}^{\mathrm{SA}}={GMP}\left(\boldsymbol{F}_i^{\mathrm{SA}}\right) \end{aligned} $

(5)

将$\boldsymbol{F}_{i\_ g}^{\mathrm{SA}}$和$\boldsymbol{F}_{i\_ h}^{\mathrm{SA}}$在通道层面拼接后送入由两个全连接层构成的多层感知机$φ$。再进行Softmax计算后可得到权重$\boldsymbol{W}_{\mathrm{CA}} \in \mathbf{R}^{H \times W \times C}$。将$\boldsymbol{F}_i^{\mathrm{SA}}$与通道注意力权重$\boldsymbol{W}_{\mathrm{CA}}$相乘后可得到SACAM的输出$\boldsymbol{F}_i^{\mathrm{SACA}} \in\mathbf{R}^{H \times W \times C}$，即

$ \boldsymbol{F}_i^{\mathrm{SACA}}=\boldsymbol{F}_i^{\mathrm{SA}} \odot \boldsymbol{W}_{\mathrm{CA}} $

(6)

空间感知通道注意力网络的输入为${\mathit{\boldsymbol{F}}}_{\rm {1}}$, ${\mathit{\boldsymbol{F}}}_{\rm {2}}$, ${\mathit{\boldsymbol{F}}}_{\rm {3}}$。${\mathit{\boldsymbol{F}}}_{1}, {\mathit{\boldsymbol{F}}}_{\rm {2}}$和${\mathit{\boldsymbol{F}}}_{2}, {\mathit{\boldsymbol{F}}}_{\rm {3}}$经过空间感知通道注意力机制之后得到$\boldsymbol{F}_1^{\mathrm{SACA}}$，$\boldsymbol{F}_3^{\mathrm{SACA}}$。将$\boldsymbol{F}_1^{\mathrm{SACA}}, \boldsymbol{F}_2, \boldsymbol{F}_3^{\mathrm{SACA}}$拼接，并用一个1×1卷积进行整合后得到空间感知通道注意力网络的输出$\boldsymbol{F}^{\mathrm{SACA}} \in \mathbf{R}^{H \times W \times C}$，即

$ \boldsymbol{F}^{\mathrm{SACA}}={Conv}\left({concat}\left(\boldsymbol{F}_1^{\mathrm{SACA}}, \boldsymbol{F}_2, \boldsymbol{F}_3^{\mathrm{SACA}}\right), k=1\right) $

(7)

Li等人(2021)提出通过计算特征图与图像的高级语义表示之间的关系来探索空间上下文。由于图像的高级语义表示不能保留原始特征图的像素级信息，因此在HDR重建任务中，高维特征图与图像的高级语义表示之间的关系无法充分表达原始特征维度的空间依赖。与Li等人(2021)使用的通道上下文模块不同，本文方法提出一种集成式的设计，在预测通道间的相互依赖关系时，通过提取特征的全局信息和显著信息进一步强化特征的空间关系，增强鬼影抑制能力。这一机制不仅可以有效抑制由于严重饱和以及物体运动造成的鬼影，还有助于突出与参考图像互补的特征，重建高质量的HDR图像。

2.4 多尺度信息重建网络

由于LDR图像中存在移动物体的遮挡和饱和区域，HDR图像一些局部区域在重建时无法从源图像对应位置的相邻区域获得充分的有用信息。所以需要增大网络感受野来捕获更多HDR重建时所需要的细节信息。为此，本文提出了多尺度信息重建模块(multiscale information reconstruction module，MIM)。该模块的具体结构如图 4所示。该模块通过对特征分别进行全局平均池化和全局最大池化操作，在提取全局信息和显著信息的同时，增大重建网络的感受野，并捕获不同尺寸特征中包含的上下文信息。上采样操作则可以让网络将全局上下文信息传播到更高分辨率的特征中去。高层特征有助于削弱鬼影，而低层次特征中则包含更丰富的细节信息。因此，为了避免浅层特征中细节信息的丢失，在多尺度信息重建模块中还加入了跳跃连接，将下采样层的特征传递到对应上采样层的输入位置。

图 4 多尺度信息重建模块结构示意图

Fig. 4 The structure of our multiscale information reconstruction module

具体地，输入的特征$\boldsymbol{F}^{\mathrm{SACA}}$经过1×1卷积后得到$\widetilde{\boldsymbol{F}}^{\mathrm{SACA}}$，对$\widetilde{\boldsymbol{F}}^{\mathrm{SACA}}$分别进行全局平均池化和全局最大池化操作后得到的特征分别为$\boldsymbol{F}_{g 1} \in \mathbf{R}^{H / 2 \times W / 2 \times C}$和$\boldsymbol{F}_{h 1} \in \mathbf{R}^{H / 2 \times W / 2 \times C}$。将得到的特征拼接，并使用1×1卷积融合后得到的结果可表示为

$ \boldsymbol{F}_{l 1}={Conv}\left({concat}\left(\boldsymbol{F}_{g 1}, \boldsymbol{F}_{h 1}\right), k=1\right) $

(8)

特征$\boldsymbol{F}_{l 1} \in \mathbf{R}^{H / 2 \times W / 2 \times C}$分别经过全局平均池化和全局最大池化操作后得到的特征可表示为$\boldsymbol{F}_{g 2} \in\mathbf{R}^{H / 4 \times W / 4 \times C}$和$\boldsymbol{F}_{h 2} \in \mathbf{R}^{H / 4 \times W / 4 \times C}$。将得到的特征拼接，经过1×1卷积后可得到

$ \boldsymbol{F}_{l 2}={Conv}\left({concat}\left(\boldsymbol{F}_{g 2}, \boldsymbol{F}_{h 2}\right), k=1\right) $

(9)

对$\boldsymbol{F}_{l 2} \in \mathbf{R}^{H / 4 \times W / 4 \times C}$经过双线性插值上采样到$\boldsymbol{F}_{l 1}$相同的尺寸后，与经过3×3卷积层进一步特征提取的特征$\boldsymbol{F}_{l 1}$进行逐元素相加, 即

$ \boldsymbol{F}_{l 1}^{\prime}= { Upsample }\left(\boldsymbol{F}_{l 2}\right)+\boldsymbol{F}_{l 1}^{\prime} $

(10)

式中，$Upsample$表示双线性插值上采样，$\boldsymbol{F}_{l 1}^{\prime}={Conv}\left(\boldsymbol{F}_{l 1}, k=3\right)$。$\boldsymbol{F}_{l 1}^{\prime}$经过双线性插值上采样后的特征尺寸与$\widetilde{\boldsymbol{F}}^{\mathrm{SACA}}$相同，与经过3×3卷积层进一步特征提取的$\widetilde{\boldsymbol{F}}^{\mathrm{SACA}}$特征进行逐元素相加，即

$ \boldsymbol{F}_{\mathrm{MIM}}= { Upsample }\left(\boldsymbol{F}_{l 1}^{\prime}\right)+\boldsymbol{F}_{\mathrm{SACA}}^{\prime} $

(11)

式中，$\boldsymbol{F}_{\mathrm{SACA}}^{\prime}={Conv}\left(\widetilde{\boldsymbol{F}}^{\mathrm{SACA}}, k=3\right), \boldsymbol{F}_{\mathrm{MIN}} \in \mathbf{R}^{H \times \mathbb{W} \times C}$为多尺度信息重建模块的输出。在多尺度信息重建网络中，对多尺度信息重建模块的输出与输入进行拼接，然后经过1×1卷积，并将参考图像的特征${\mathit{\boldsymbol{F}}}_{\rm {2}}$补充进来。最后再使用1×1和3×3的卷积对特征进行融合和HDR图像重构。

2.5 损失函数

根据Kalantari和Ramamoorthi(2017)的设定，HDR标签$\hat{\boldsymbol{H}}$和网络预测图像${\mathit{\boldsymbol{H}}}$均经过色调映射函数处理后再计算损失函数，此过程采用可微的$μ$-law函数, 定义为

$ \boldsymbol{T}(\boldsymbol{H})=\frac{\log (1+\mu \boldsymbol{H})}{\log (1+\mu)} $

(12)

式中，$μ$是决定压缩程度的参数，参考Kalantari和Ramamoorthi(2017), 将其设为5 000，$\boldsymbol{T}(\boldsymbol{H})$是HDR图像${\mathit{\boldsymbol{H}}}$经过色调映射后的图像，$\boldsymbol{T}(\hat{\boldsymbol{H}})$表示经过色调映射后的真实HDR图像。在本文方法中，使用L1损失来使保证重构出的HDR图像与标签图像具有一致性，即

$ L_{\text {pixel }}=\|\boldsymbol{T}(\boldsymbol{H})-\boldsymbol{T}(\hat{\boldsymbol{H}})\|_1 $

(13)

结构相似度(structural similarity, SSIM)可以度量两幅图像之间的结构信息的相似性，其数值越大表示两幅图像结构信息就越相似。为保证重构图像与标签图像具有较强的结构相似性，防止结构信息的丢失，使用如下的结构相似度损失来对模型进行优化，即

$ L_{\mathrm{SSIM}}=1-{SSIM}(\boldsymbol{T}(\boldsymbol{H}), \boldsymbol{T}(\hat{\boldsymbol{H}})) $

(14)

综上，总的损失函数可以表示为

$ L=L_{\text {pixel }}+L_{\mathrm{SSIM}} $

(15)

3 实验

3.1 数据集

1) 训练数据。当前已提出了一些HDR数据集，如Kalantari dataset(Kalantari和Ramamoorthi，2017)、Tursun dataset(Tursun等，2016)和Sen dataset(Sen等，2012)。为了达到更好的性能，选择使用带标签的数据集Kalantari来训练本文网络。Kalantari包括拍摄于不同场景下的74组训练样本和15组测试样本。每组样本中包含同一场景下的3幅LDR图像和对应的曝光偏差，以及该场景下的标签HDR图像。样本中每一幅图像的尺寸都为1 500×1 000像素。实验中设定具有中等曝光程度的图片作为参考图像，其余的2幅为非参考图像。由于该数据集的训练集仅包含74个样本，在训练阶段将训练样本中的图片随机裁剪成512×512像素，并对裁剪好的图像块使用水平翻转和垂直翻转来避免过拟合。

2) 测试数据。在测试阶段使用了3个测试集对模型性能进行评估。包括Kalantari数据集的测试集、Sen数据集和Tursun数据集。其中Kalantari测试集的15组测试样本包含标签，用该数据集计算模型的定量指标。Sen数据集和Tursun数据集不包含标签图像，这两个数据集场景下的图像用于定性评估，同时进一步验证模型的泛化性能。

3.2 评价指标

为评价不同方法得到结果的质量，采用PSNR-L(peak signal to noise ratio-linear domain)，SSIM-L(structural similarity-linear domain)，PSNR-$μ$(peak signal to noise ratio-tonemapped domain)，SSIM-$μ$(structural similarity-tonemapped domain)，HDR-VDP-2(Mantiuk等，2011)作为重构结果客观评价指标。PSNR-L表示线性HDR域中标签HDR图像与网络输出之间的峰值信噪比。PSNR-$μ$表示$μ$-law域中标签HDR图像与网络输出之间的峰值信噪比。SSIM-L与SSIM-$μ$则分别表示线性HDR域与$μ$-law域中标签HDR图像与网络输出之间的结构相似度。HDR-VDP-2(Mantiuk等，2011)用来度量不同亮度条件下重构的HDR图像的可见性和质量。

3.3 实现细节

使用PyTorch实现提出的网络框架，训练和测试实验环境为Ubuntu20.04，实验设备搭载Nvidia GeForce RTX 3090和64 GB内存。训练阶段，使用Adam优化器优化网络，优化器参数β1 =0.9，β2 =0.999。批大小设置为2。采用使用warm-up学习率调整策略，初始学习率设置为10^-3，持续到第1 500代衰减为10^-4，到第2 500代衰减为10^-5，并保持学习率为10^-5直至训练结束。模型总共训练5 900代。

3.4 方法比较

为验证本文方法的有效性，将本文方法与当前最新的几种方法在Kalantari测试集(Kalantari和Ramamoorthi，2017)、Sen数据集以及Tursun数据集上进行了实验对比。对比方法包括3种流行的HDR重建方法：基于补丁的方法Sen(Sen等，2012); 基于单帧重建的方法HDRCNN(Eilertsen等，2017)和SingleHDR(Liu等，2020); 基于深度神经网络的方法Kalantari(Kalantari和Ramamoorthi，2017)、DeepHDR(Wu等，2018)、AHDRNet(Yan等，2019a)和NHDRRNet(Yan等，2020)。需要说明的是，Kalantari的方法在图像输入网络前需要使用光流法对图像进行对齐预处理，DeepHDR需要先用单应性变换(homography transformation)对齐输入图像的背景。AHDRNet、NHDRRNet以及本文方法在测试时则不需要对图像进行任何预处理。本文中所展示的HDR图像均使用Photomatix(Wu等，2018)进行色调映射。

3.4.1 定量分析

在有标签图像的Kalantari测试集下对不同方法进行了定量评估。各方法所有结果在各项评价指标下的平均值如表 1所示。各项指标数值越高表示重构图像的质量越好。从表 1定量评价结果可以看出，本文SCAMNet更具优势。虽然DeepHDR和NHDRRNet也采用了多尺度特征融合，但集成空间感知通道注意力的SCAMNet获得了更好的性能。而Sen和Kalantari方法通常会在图像局部区域引入鬼影。HDRCNN和SingleHDR易在过饱和区域引入噪声。

表 1 Kalantari测试集上不同HDR重建方法评价指标结果
Table 1 Results of different methods for Kalantari testing dataset

下载CSV

方法	PSNR-$μ$/dB	SSIM-$μ$	PSNR-L/dB	SSIM-L	HDR-VDP-2
Sen(Sen等，2012)	41.611 4	0.983 1	40.945 3	0.980 5	60.459 9
HDRCNN(Eilertsen等，2017)	13.835 1	0.780 0	13.923 1	0.468 2	51.072 1
SingleHDR(Liu等，2020)	12.297 5	0.849 1	9.687 4	0.335 8	53.272 1
Kalantari(Kalantari和Ramamoorthi，2017)	42.742 3	0.987 7	40.721 7	0.982 4	63.042 0
DeepHDR(Wu等，2018)	41.637 7	0.986 9	40.880 1	0.985 7	64.900 1
AHDRNet(Yan等，2019a)	43.617 2	0.990 0	41.039 0	0.970 2	63.842 9
NHDRRNet(Yan等，2020)	42.414 3	0.988 7	37.455 7	0.983 8	61.210 7
本文	43.413 6	0.990 2	41.101 3	0.986 5	64.985 3
注：加粗字体表示各列指标值最高的结果。

3.4.2 标签数据集融合结果的视觉效果分析

图 5和图 6展示了不同方法在Kalantari测试集上的重构结果。两组测试样本均存在大范围前景目标物的运动以及局部区域的过/欠曝光。其中，图 5(a)—(c)和图 6(a)—(c)为LDR图像。图 5(d)—(k)和6(d)—(k)为不同方法得到的HDR图像(色调映射后)的效果比较。为了便于观察，将每幅图像的对应标记区域进行了放大，并将其置于每幅图像的右上角和右下角。从图 5(d)可以看出，融合结果不仅细节恢复不理想，而且还引入了畸变(如红色和绿色标注区域所示)，这主要是因为基于块的方法在对饱和区域进行块关系匹配时出现了误差。从图 6(d)可以看出，虽然Sen方法能够重构出质量较高的HDR图像，但在部分区域(如树枝、手臂汗毛)对细节信息的恢复仍然不够理想。

图 5 不同方法在Kalantari测试集中Parking-one场景下所得结果的视觉效果展示

Fig. 5 Visual effect display of results obtained by different methods on scene Parking-one in Kalantari testset

((a)LDR1; (b)LDR2; (c)LDR3; (d)Sen; (e)HDRCNN; (f)SingleHDR; (g)Kalantari; (h)DeepHDR; (i)AHDRNet; (j)NHDRRNet; (k)ours; (l)ground truth)

图 6 不同方法在Kalantari测试集中Parking-two场景下所得结果的视觉效果展示

Fig. 6 Visual effect display of results obtained by different methods on scene Parking-two in kalantari testset

((a)LDR1; (b)LDR2; (c)LDR3; (d)Sen; (e)HDRCNN; (f)SingleHDR; (g)Kalantari; (h)DeepHDR; (i)AHDRNet; (j)NHDRRNet; (k)ours; (l)ground truth)

基于单帧重建的方法HDRCNN和SingleHDR虽然能在一定程度上避免鬼影和畸变信息的引入，但无法从非参考图像中获取必要的信息来重构边缘细节，且存在着较为明显的颜色扭曲。从图 5(g)的红色和图 6(g)红色、绿色标注区域可以看出，基于光流法的Kalantari输出结果出现了鬼影以及细节信息的丢失，这是由于Kalantari的卷积神经网络(convolutional neural network, CNN)结构过于简单，不能很好地解决因为光流法引入的误对齐。

虽然DeepHDR和NHDRRNet产生的结果整体效果较好，但从图 5(h)(j)绿色框标注的区域可以看出，手臂处出现了轻微的鬼影。同时，在图 6(h)(j)的绿色标注区域没有很好地恢复出饱和区域物体的细节。AHDRNet和NHDRRNet虽然引入了注意力机制，在一定程度上缓解了鬼影现象，但由于没有考虑特征通道维度的相关性，不能充分突出有效信息的作用，因此重建的结果中仍然存在过饱和区域。在图 5(i)的红色框标注区域和图 6(i)的绿色框标注区域内依然存在轻微的模糊和过饱和现象。与这些方法相比，由于本文方法从空间和通道两个维度同时突出了有益信息作用，并充分挖掘了多尺度特征信息，因此本文方法不仅能有效抑制鬼影的产生，而且还更有效地恢复出了清晰的图像细节。

3.4.3 无标签数据集融合结果的视觉效果分析

为验证模型的泛化能力，本文在Sen和Tursun两个无标签的数据集上对不同方法的性能进行了对比。每一个数据集展示了两个场景下的融合结果。图 7和图 8为Sen数据集两个场景下不同方法融合结果比较。从图 7(a)红色放大区域可以看出，融合结果没能有效地恢复出清晰的图像细节。同时，该方法在图 8(a)的红色和绿色放大区域内，在眼镜和下颌处引入了轻微噪声。这是因为基于块(patch)的方法Sen无法准确找到与饱和区域信息对应的块。

图 7 不同方法在Sen数据集中BabyOnGrass场景下所得结果的视觉效果展示

Fig. 7 Visual effect display of results obtained by different methods on scene BabyOnGrass in Sen dataset

((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)

图 8 不同方法在Sen数据集中LadyEating场景下所得结果的视觉效果展示

Fig. 8 Visual effect display of results obtained by different methods on scene LadyEating in Sen dataset

((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)

基于单帧重建方法HDRCNN和SingleHDR，因无法综合其他LDR图像的信息，导致其恢复的图像局部细节不清晰并且没有呈现较好的高动态范围效果。由于Kalantari在预先进行的光流对齐步骤中出现的偏差导致图 8(d)标注区域内引入了鬼影。此外，从图 7(e)(g)的标注区域可以看出, DeepHDR和NHDRRNet不仅没能实现丢失细节的恢复，还导致了颜色的畸变和轻微鬼影。这是因为DeepHDR和NHDRRNet没能充分突出有效信息在图像重建过程中的作用。图 7(f)中AHDRNet重建结果对局部细节的恢复并不理想，这是因为AHDRNet没能充分挖掘不同尺寸特征中包含的上下文信息，导致细节信息流失。相比而言，本文方法通过空间感知通道注意力机制有效增强了非参考图像中的有效信息，识别并抑制了误对齐区域的信息，因此能重构出无鬼影的HDR图像。

图 9和图 10给出了不同方法在Tursun数据集的两个场景下的重构结果。从这些结果可以看出，基于块匹配的方法Sen在图 9(a)和图 10 (a)中均引入了轻微鬼影，影响了重构结果的视觉效果。这是因为块匹配的过程中可能无法准确找到与饱和区域信息对应的块。方法HDRCNN和SingleHDR均造成了重构结果颜色的畸变和细节信息的损失。如图 9(d)和图 10(d)所示，Kalantari方法的重构结果出现了轻微的鬼影，原因是该方法不能很好地解决因为光流法引入的误对齐。虽然DeepHDR、AHDRNet和NHDRRNet等基于深度学习的方法能取得不错的效果，但依然会在局部区域引入鬼影，并且对细节信息的恢复也有提升空间。这是因为这些方法没能充分凸显对重构图像有益信息的作用和挖掘不同尺度特征中的上下文语义信息。从图 9(h)和图 10 (h)中可以看出，本文方法较为真实地重构了场景的结构，并清晰地恢复出了图像的细节，有效地避免了鬼影的产生。

图 9 不同方法在Tursun数据集中Plants场景下所得结果的视觉效果展示

Fig. 9 Visual effect display of results obtained by different methods on scene Plants in Tursun dataset

((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)

图 10 不同方法在Tursun数据集中Museum1场景下所得结果的视觉效果展示

Fig. 10 Visual effect display of results obtained by different methods on scene Museum1 in Tursun dataset

((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)

3.5 消融实验

本文通过消融实验验证了不同模块的重要性。实验中，把去除了SACAM和MIM的模型作为“Baseline”。将Baseline中添加了通道注意力的模型命名为“Baseline+CA”, 将“Baseline+CA”中的CA替换成SACAM的模型称之为“Baseline+ SACAM”，“Baseline+ SACAM”中添加了MIM的模型称之为“Baseline+SACAM +MIM”。图 11给出了模型在不同设置条件下得到结果的局部视觉效果对比。

3.5.1 通道注意力的有效性

由图 11(b)可以看出，与Baseline相比，Baseline+CA一定程度上减轻了鬼影现象，这得益于通道注意力调整了LDR图像的不同通道在重构HDR时的作用，并且通过提取特征通道维度的全局信息和显著信息，增强了有效区域信息在重构HDR图像中的作用。

图 11 本文各模块对HDR图像重建的视觉效果影响

Fig. 11 The influence of each module on the visual effect of HDR image reconstruction

((a)Baseline; (b)Baseline+CA; (c)Baseline+ SACAM; (d)Baseline+SACAM +MIM)

3.5.2 空间感知通道注意力机制的有效性

Baseline+SACAM在Baseline+CA的基础上加入了空间注意力。对比图 11(c)相对图 11(b)的变化，可以发现鬼影现象进一步被削弱，这是因为空间感知通道注意力能同时从空间维度和通道维度挖掘特征图中对重构图像有益的信息。并且通道注意力可以在空间注意力的基础上进一步凸显有效区域信息在重构HDR图像中的作用，从而进一步抑制鬼影。从表 2所示的客观评价结果来看，当把通道注意力换成空间感知通道注意力之后，所有评价指标的性能均得到了进一步提升，这验证了本文所设计的空间感知通道注意力的有效性。

表 2 本文模型中不同模块消融研究结果
Table 2 The ablation results of different modules in our model

下载CSV

方法	PSNR-$μ$/dB	SSIM-$μ$	PSNR-L/dB	SSIM-L	HDR-VDP-2
Baseline	42.590 4	0.989 0	40.254 2	0.985 8	63.658 4
Baseline+CA	42.883 9	0.989 4	40.507 3	0.986 1	63.940 7
Baseline+SACAM	43.162 8	0.989 6	40.625 4	0.986 2	64.435 3
Baseline+SACAM +MIM	43.413 6	0.990 2	41.101 3	0.986 5	64.985 3
注：加粗字体表示各列最优结果。

3.5.3 多尺度信息重建模块的有效性

为证明多尺度信息重建模块的有效性，比较了Baseline+SACAM与Baseline+SACAM+MIM产生结果的变化。如图 11(d)所示，Baseline+SACAM+MIM的结果与Baseline+SACAM相比，鬼影得到了更加有效地抑制，并且局部细节(如栏杆、建筑)也得到了恢复。这是因为该网络有助于增大网络感受野，强化特征空间显著信息和充分利用不同尺度特征的上下文语义信息，来重构最终的HDR图像。这样不仅能充分保留图像细节信息，还能有效恢复出饱和区域丢失的信息。相比之下，表 2中的客观评价指标也得到了提升，这表明了多尺度信息重建模块的有效性。

4 结论

本文提出了一个空间感知通道注意力引导的多尺度HDR图像重建网络(SCAMNet)。在一个框架内集成了空间感知通道注意力机制和多尺度信息重建模块，有效地解决了在拍摄过程中因目标运动而导致融合结果出现的“鬼影”和饱和区域缺失细节重建的问题。提出的空间感知通道注意力机制建立了特征在空间、通道维度的相互关系。在挖掘特征通道间相互依赖关系的同时，通过提取特征空间维度的全局信息和显著信息，进一步强化空间注意力特征的空间关系，凸显对重构图像有益的信息。SCAMNet还集成了多尺度信息重建模块。该模块充分利用不同尺度特征的上下文语义关系，进一步挖掘输入图像中的有益信息来重建HDR图像。强化特征空间显著信息的同时，还提升了感受野，增强了网络恢复细节信息的能力。定性和定量的评估都验证了本文方法与同类方法相比的优势。

参考文献

Eilertsen G, Kronander J, Denes G, Mantiuk R K, Unger J. 2017. HDR image reconstruction from a single exposure using deep CNNs. ACM Transactions on Graphics, 36(6): #178 [DOI:10.1145/3130800.3130816]

Fan K, Zhou X B. 2014. The optimization of image fusion and real-time application for HDR scenarios. Journal of Image and Graphics, 19(6): 940-945 (范逵, 周晓波. 2014. 高动态场景的图像融合优化和实时应用. 中国图象图形学报, 19(6): 940-945) [DOI:10.11834/jig.20140615]

Fotiadou K, Tsagkatakis G, Tsakalides P. 2020. Snapshot high dynamic range imaging via sparse representations and feature learning. IEEE Transactions on Multimedia, 22(3): 688-703 [DOI:10.1109/TMM.2019.2933333]

Gallo O, Gelfandz N, Chen W C, Tico M and Pulli K. 2009. Artifact-free high dynamic range imaging//Proceedings of 2009 IEEE International Conference on Computational Photography (ICCP). San Francisco, USA: IEEE: 1-7 [DOI: 10.1109/ICCPHOT.2009.5559003]

Jinno T and Okuda M. 2008. Motion blur free HDR image acquisition using multiple exposures//Proceedings of the 15th IEEE International Conference on Image Processing. San Diego, USA: IEEE: 1304-1307 [DOI: 10.1109/ICIP.2008.4712002]

Kalantari N K, Ramamoorthi R. 2017. Deep high dynamic range imaging of dynamic scenes. ACM Transactions on Graphics, 36(4): #144 [DOI:10.1145/3072959.3073609]

Kang S B, Uyttendaele M, Winder S, Szeliski R. 2003. High dynamic range video. ACM Transactions on Graphics, 22(3): 319-325 [DOI:10.1145/882262.882270]

Li Z C, Sun Y P, Zhang L Y, Tang J H. 2021. CTNet: Context-based tandem network for semantic segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence: #3132068 [DOI:10.1109/TPAMI.2021.3132068]

Liu Y L, Lai W S, Chen Y S, Kao Y L, Yang M H, Chuang Y Y and Huang J B. 2020. Single-image HDR reconstruction by learning to reverse the camera pipeline//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 1648-1657 [DOI: 10.1109/CVPR42600.2020.00172]

Mantiuk R, Kim K J, Rempel A G, Heidrich W. 2011. HDR-VDP-2: a calibrated visual metric for visibility and quality predictions in all luminance conditions. ACM Transactions on Graphics, 30(4): #40 [DOI:10.1145/2010324.1964935]

Raman S, Chaudhuri S. 2011. Reconstruction of high contrast images for dynamic scenes. The Visual Computer, 27(12): 1099-1114 [DOI:10.1007/s00371-011-0653-0]

Sen P, Kalantari N K, Yaesoubi M, Darabi S, Goldman D B, Shechtman E. 2012. Robust patch-based HDR reconstruction of dynamic scenes. ACM Transactions on Graphics, 31(6): #203 [DOI:10.1145/2366145.2366222]

Tursun O T, Akyüz A O, Erdem A, Erdem E. 2016. An objective deghosting quality metric for HDR images. Computer Graphics Forum, 35(2): 139-152 [DOI:10.1111/cgf.12818]

Ward G. 2003. Fast, robust image registration for compositing high dynamic range photographs from hand-held exposures. Journal of Graphics Tools, 8(2): 17-30 [DOI:10.1080/10867651.2003.10487583]

Wu S Z, Xu J R, Tai Y W and Tang C K. 2018. Deep high dynamic range imaging with large foreground motions//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 120-135 [DOI: 10.1007/978-3-030-01216-8_8]

Xu L, Jia J Y and Matsushita Y. 2010. Motion detail preserving optical flow estimation//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE: 1293-1300 [DOI: 10.1109/CVPR.2010.5539820]

Yan Q S, Gong D, Shi Q F, Van Den Hengel A, Shen C H, Reid I and Zhang Y N. 2019a. Attention-guided network for ghost-free high dynamic range imaging//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 1751-1760 [DOI: 10.1109/CVPR.2019.00185]

Yan Q S, Gong D, Zhang P P, Shi Q F, Sun J Q, Reid I and Zhang Y N. 2019b. Multi-scale dense networks for deep high dynamic range imaging//Proceedings of 2019 IEEE Winter Conference on Applications of Computer Vision (WACV). Waikoloa, USA: IEEE: 41-50 [DOI: 10.1109/WACV.2019.00012]

Yan Q S, Zhang L, Liu Y, Zhu Y, Sun J Q, Shi Q F, Zhang Y N. 2020. Deep HDR imaging via a non-local network. IEEE Transactions on Image Processing, 29: 4308-4322 [DOI:10.1109/TIP.2020.2971346]

Zheng J H, Li Z G, Zhu Z J, Wu S Q, Rahardja S. 2013. Hybrid patching for a sequence of differently exposed images with moving objects. IEEE Transactions on Image Processing, 22(12): 5190-5201 [DOI:10.1109/TIP.2013.2283401]

Zhu X Y, Lu X M, Li Z W, Wu W F, Tan H Z, Chen Q. 2018. High dynamic range image fusion with low rank matrix recovery. Journal of Image and Graphics, 23(11): 1652-1665 (朱雄泳, 陆许明, 李智文, 吴炆芳, 谭洪舟, 陈强. 2018. 求解低秩矩阵融合高动态范围图像. 中国图象图形学报, 23(11): 1652-1665) [DOI:10.11834/jig.180059]

Zimmer H, Bruhn A, Weickert J. 2011. Freehand HDR imaging of moving scenes with simultaneous resolution enhancement. Computer Graphics Forum, 30(2): 405-414 [DOI:10.1111/j.1467-8659.2011.01870.x]