Print

发布时间: 2023-01-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.220515
2023 | Volume 28 | Number 1




    红外与可见光图像融合    




  <<上一篇 




  下一篇>> 





红外与可见光图像分组融合的视觉Transformer
expand article info 孙旭辉, 官铮, 王学
云南大学信息学院, 昆明 650500

摘要

目的 针对传统红外与可见光图像融合方法中人工设计特征提取和特征融合的局限性,以及基于卷积神经网络(convolutional neural networks,CNN)的方法无法有效提取图像中的全局上下文信息和特征融合过程中融合不充分的问题,本文提出了基于视觉Transformer和分组渐进式融合策略的端到端无监督图像融合网络。方法 首先,将在通道维度上进行自注意力计算的多头转置注意力模块和通道注意力模块组合成视觉Transformer,多头转置注意力模块解决了自注意力计算量随像素大小呈次方增大的问题,通道注意力可以强化突出特征。其次,将CNN和设计的视觉Transformer并联组成局部—全局特征提取模块,用来提取源图像中的局部细节信息和全局上下文信息,使提取的特征既具有通用性又具有全局性。此外,为了避免融合过程中信息丢失,通过将特征分组和构造渐进残差结构的方式进行特征融合。最后,通过解码融合特征得到最终的融合图像。结果 实验在TNO数据集和RoadScene数据集上与6种方法进行比较。主观上看,本文方法能够有效融合红外图像和可见光图像中的互补信息,得到优质的融合图像。从客观定量分析来说,在TNO数据集中,本文方法相比于性能第2的方法,在归一化互信息、非线性相关信息熵、平均梯度和标准差指标上分别提高了30.90%、0.58%、11.72%和11.82%;在RoadScene数据集中,本文方法在以上4个指标上依然取得了最好成绩。结论 由于有效特征的提取和融合的复杂性以及融合过程中噪声的干扰,现有的融合方法都存在一定的局限性,或者融合效果质量不理想。相比之下,本文提出的基于视觉Transformer的图像融合方法在融合质量上取得了巨大提升,能够有效突出红外显著目标,并且将源图像中的背景信息和细节纹理有效保留在融合图像中,在对比度和清晰度方面也具有优越性。

关键词

红外图像; 可见光图像; 图像融合; 视觉Transformer; 卷积神经网络(CNN)

Vision transformer for fusing infrared and visible images in groups
expand article info Sun Xuhui, Guan Zheng, Wang Xue
School of Information Science and Engineering, Yunnan University, Kunming 650500, China
Supported by: National Natural Science Foundation of China(61761045)

Abstract

Objective Current image fusion can be as one the key branches of information fusion. Infrared and visible image fusion (IVF) is developed for image fusion dramatically. A visible light sensor-derived image can capture light-reflected. It is rich in texture detail information and fit to the human eye observation pattern. The image-fused can integrate rich detail information and thermal radiation information. Therefore, it is essential for such applications like object tracking, video surveillance, and autonomous driving. To resolve the constraints of manual-designed feature extraction and feature fusion in traditional infrared and visible image fusion methods, as well as the problems that convolutional neural network based (CNN-based) methods cannot effectively extract global contextual information in images and inadequate fusion during feature fusion, We develop an visual transformer-based end-to-end unsupervised fusion network via group-layered fusion strategies. Method First, a channel attention-based transformer is designed, which enhances the features further through computing the self-attention in the channel dimension and using the channel attention in series as the feed-forward network of the transformer. After that, to extract features from the source image, the transformer module and CNN are used in parallel to form a local-global feature extraction module. The features-extracted have the generality of the features extracted by the CNN model to avoid manual design of extraction rules. The global nature of the features extracted by the transformer can be used to make up for the shortage of convolutional operations. In addition, to alleviate the loss of feature information, we design a newly layer-grouped fusion module to fuse the local-global features-extracted by grouping the features of multiple sources in the channel dimension, fusing the features of the corresponding groups initially, and then fusing the features of different groups via a hierarchical residual structure. Result Our analysis is experimented on publicly available datasets TNO and RoadScene in comparison with six popular methods, which include traditional and deep learning-based methods both. Qualitative and quantitative evaluation methods are used to assess its effectiveness together. The qualitative analysis focuses on the clarity, contrast of the images perceived by the human eye. On the basis of qualitative evaluation, our method is capable to restore information-added in the infrared and visible images more effectively and maximize the useful information. At the same time, the fused images have contrast and definition and visual effects better. A quantitative-based comparison is carried out using six different metrics as well. On the TNO dataset, the proposed method achieved the best results in metrics normalized mutual information (NMI), nonlinear correlation information entropy ($Q_{\mathrm{NICE}}$), average gradient (AG) and standard deviation (SD), improving by 30.90%, 0.58%, 11.72% and 11.82% compared to the second method. On the RoadScene dataset, the method achieves the best results in metrics normalized mutual information (NMI), nonlinear correlation information entropy ($Q_{\mathrm{NICE}}$), average gradient (AG), standard deviation (SD) and visual fidelity improving by 32.74%, 0.64%, 24.53%, 31.40%, 31.73% compared to the second method. Conclusion Due to the complexity of effective feature extraction and fusion as well as the interference of noise in the fusion process, existing fusion methods have some challenging issues on fusion quality. In contrast, the visual transformer-based method has its potentials: 1) the infrared salient targets are highlighted effectively, 2) the background information and detailed textures in the source image are retained in related to image fusion, and 3) the contrast and definition are optimized as well. The future research can be concerned of designing more general and efficient image fusion algorithms beyond the fusion of infrared and visible images.

Key words

infrared image; visible image; image fusion; visual transformer; convolutional neural network (CNN)

0 引言

图像融合作为信息融合的分支,是目前信息融合研究的热点。红外与可见光图像融合(infrared and visible image fusion,IVF)是图像融合领域最广泛的研究之一(Ma等,2019a)。可见光图像由捕获反射光的可见光传感器产生,具有丰富的细节信息,如颜色、对比度和纹理等,且更符合人眼的观察模式,但在一些恶劣天气环境下会严重影响人眼的观察,不利于获取有效信息。利用热传感器获取的红外图像具有强烈的热辐射信息,可以在背景中显著地突出目标,但缺少图像的细节纹理。因此,将同一场景的可见光图像和红外图像融合,可以有效地结合两者的优势,使融合图像既具有红外图像的热辐射目标信息,又能够具有可见光图像丰富的纹理细节。红外与可见光图像融合已广泛应用于目标追踪、自动驾驶和视频监测等领域。

对于IVF任务,理想目标是从红外和可见光样本中重构出一个完美的场景图像,这些样本提供了关于视觉内容的互补信息。为了实现这一目标,研究人员提出了许多IVF方法。这些方法主要分为基于传统方法和基于深度学习的方法两类。

传统的融合方法在空间域或变换域提取图像特征,根据特定的融合规则实现图像融合。典型的传统融合算法有基于多尺度变换的方法(Pajares和de la Cruz,2004霍星等,2021宫睿和王小春,2019)和基于稀疏表示(sparse representation,SR)的方法(Li等,2012)等。基于多尺度变换的方法通过多尺度变换提取源图像的特征,根据不同的融合任务,采用特定的融合规则进行特征融合,最后通过多尺度反变换生成最终的融合图像。显然,这类方法的融合结果高度依赖于特征提取手段。因此,研究者为了有效提取图像特征,提出了基于稀疏表示的方法。在基于稀疏表示的方法中,将源图像通过滑动窗口技术分解为图像块,利用这些图像块构造一个矩阵,矩阵的每一列都是一个重构后的图像块,通过该矩阵计算SR(sparse representation)系数,并将其视为图像特征。通过以上操作,可将图像融合问题转化为系数融合问题,融合系数由一个适当的融合策略产生并用于重建融合图像。这些传统方法取得了不错的融合表现,但也存在不足:1)融合图像的质量严重依赖人工设计的特征提取手段,导致提取的特征不具有广泛的通用性;2)对于不同的特征需要采用不同的特征融合规则。

基于深度学习的图像融合方法可以有效克服传统方法的缺点,逐渐成为一种更可靠的方法。这些方法首先利用神经网络强大的特征表示能力提取更丰富的图像特征,这些特征更具有通用性。然后采用适当的融合策略和重建策略得到最终的融合图像。基于生成性对抗网络(generative advisional networks,GAN)的方法在融合图像与源图像之间创建对抗性游戏以实现图像融合(Ma等,2019b),但网络结构和损失函数设计不合适时,会导致源图像信息丢失,降低融合性能。基于卷积神经网络(convolutional neural networks,CNN)的融合技术通过卷积提取图像特征(Zhang等,2020Li等,2021),提高了特征的通用性,但由于卷积机制的限制,无法有效提取图像中的全局上下文信息,导致提取的图像特征信息不足,降低了融合图像的质量。

为了解决上述问题,本文提出一个基于视觉Transformer和分组渐进式融合策略的端到端无监督的红外与可见光图像融合网络。该网络包括两个主要模块,即局部—全局特征提取模块(local-global feature extraction module,LGFE)和分组渐进式融合模块(grouped progressive fusion module,GPF),分别用来提取图像特征和融合图像特征。局部—全局特征提取模块通过联合CNN和视觉Transformer组成混合模型来提取图像的局部细节特征和全局上下文特征(局部—全局特征),可以使提取到的图像特征既具有CNN提取特征的通用性,又具有视觉Transformer的全局性。另外,为了更充分有效地融合提取到的局部—全局图像特征,设计了分组残差式融合模块,该模块先对特征进行分组,然后构建一种分层残差式的结构对分组特征进行融合,这种分层残差式的结构可以在融合过程中体现多尺度性,并且减少融合过程中信息的丢失,从而获得更高质量的融合结果。

1 相关工作

1.1 基于深度学习的图像融合方法

早期研究人员使用预先训练好的网络提取图像特征,将特征进行适当的融合从而获取融合图像。Li等人(2018)将源图像分解为突出部分和基础部分,突出部分主要包含纹理和细节信息,基础部分主要是轮廓和亮度。通过预训练网络VGG-19(Visual Geometry Group 19)(Simonyan和Zisserman,2015)提取突出部分的多层次深度特征,并计算每一层深度特征中的特征突出部分,通过合理的融合策略将这些深度特征突出部分与基础部分进行融合,最后重建出融合后的图像。虽然这种基于预训练网络的方法取得了不错的效果,但VGG-19是为了图像分类任务设计的,可能对图像融合任务的适用性并不理想。Ma等人(2019b)提出了FusionGAN(generative adversarial network for infrared and visible image fusion), 首次将GAN用于红外与可见光图像的融合任务中。融合图像由生成器生成,生成的图像与可见光图像之间的相似度由判别器判断。虽然设计了内容损失和对抗损失来约束网络,但保留可见光图像中的细节纹理的能力仍有欠缺。因此,Ma等人(2020)提出了FusionGANv2,通过设计细节损失和目标边缘增强损失来改善融合图像的细节信息和热辐射信息。Li等人(2021)提出RNF-nest(residual fusion network for infrared and visible images),分别为特征提取和特征融合阶段训练网络。首先将编码器和解码器网络训练成自动编码器,可以用来提取特征并重建它们。在固定编码器和解码器的情况下,设计适当的损失函数训练特征融合网络,并使用它代替手动融合策略。Fu和Wu(2021)通过设计细节和语义双分支的自动编码器分别提取图像中的细节信息和语义信息,为了获得全局语义信息,设计了一种快速降采样网络结构,该结构通过3次下采样并且扩展通道数,再将下采样之后的特征通过一次上采样还原到原始大小,最后与细节分支的特征拼接获得最终特征。虽然该方法考虑了图像的全局信息,但由于下采样操作会导致信息丢失,所以在本文中采用视觉Transformer来提取全局信息。

1.2 视觉Transformer

Transformer最初是用于自然语言处理(natural language processing,NLP)领域(Vaswani等,2017)。Transformer是一种基于自注意力(self-attention,SA)的结构,设计用于序列建模和转导任务,以其关注数据中的长期依赖性而闻名。受NLP中自注意力机制巨大成功的启发,一些基于CNN的模型使用空间注意力和通道注意力,或同时使用这两种方法捕捉图像中的显著特征。虽然这些注意力模型取得相当好的效果,但仍然不及CNN模型。

受NLP中Transformer的巨大成功的启发,许多工作将Transformer应用到计算机视觉(computer vision, CV)领域。Dosovitskiy等人(2021)提出一种视觉Transformer,将完整图像分割成许多16×16像素的图像块作为网络的输入,使用与NLP中一样的Transfomer结构进行特征提取,并将其应用于图像分类任务,在许多图像分类基准上实现了最先进的表现。Liu等人(2021)提出一种称为Swin Transformer的视觉Transformer,其可以作为计算机视觉的通用主干,表现是通过移动窗口来计算自注意力。移位窗口方案通过将自注意力计算限制在不重叠的局部窗口上,同时允许跨窗口连接,从而提高计算效率。这种层次结构提供了在不同尺度下建模的灵活性,并且相对于图像大小具有线性计算复杂性。Swin Transformer在COCO(Microsoft common objects in context)对象检测和ADE20K语义分割方面取得了最好的性能,优于之前最好的方法。基于视觉Transformer的方法在图像恢复任务中也取得了优异的效果。Zamir等人(2022)提出了一种高效的Transformer模型Restormer用来处理图像恢复任务。Restormer通过在通道维度而不是空间维度上进行自注意力计算,不仅可以捕获图像的全局上下文信息,还能节省计算开销。它的输入可以是一幅完整的图像,而无需将图像分割为多个图像块。本文方法中的局部—全局特征提取模块中,借鉴使用了Restormer中的多头转置注意力(multi-dconv head transposed attention,MDTA)模块。在图像融合领域,Li等人(2022)设计了一种卷积引导的视觉Transfomer用于红外与可见光图像融合(convolution-guided transformer for infrared and visible image fusion,CGTF),运用CNN和视觉Transformer相结合的思想提取图像特征,以获得更出色的融合结果。Ma等人(2022)提出基于Swin Transformer的通用图像融合网络(cross-domain long-range learning for general image fusion via Swin transformer,SwinFusion),可以在统一的融合框架下实现多模态图像融合和数字图像融合,并且设计一种注意力引导的跨域融合模块,对同一域内和跨域的长依赖关系进行提取和集成。这两种方法都是在像素维度上进行自注意力计算,而本文是在通道维度上计算特征图之间的自注意力,这种做法可以避免自注意力的计算量随图像素大小增大而增大的问题,并且相比CGTF,本文方法不用固定输入图像的尺寸,可以灵活运用。

2 本文方法

2.1 网络总体结构

本文提出的端到端无监督图像融合网络的总体结构如图 1所示。该网络的特征提取阶段采用两个支路分别提取红外图像特征和可见光图像特征,两个支路结构一样,但不共享参数。首先,通过两个卷积块提取输入图像的浅层特征,卷积块由3×3卷积、批归一化层(batch normalization,BN)和LeakyReLU激活函数组成。然后,通过LGFE模块提取局部—全局特征,并将提取的局部—全局特征通过分组渐进式融合模块进行融合。最后,将由3个卷积块组合的解码器解码得到最后的融合图像。

图 1 网络总体结构
Fig. 1 Overall network structure

2.2 局部—全局特征提取模块

局部—全局特征提取模块结构如图 2(a)所示,有一个上分支(局部细节分支)和一个下分支(全局结构信息分支)。局部细节分支的结构类似于DenseNet(densely connected convolutional network)(Huang等,2017),由4层密集块结构组成,这种密集连接的网络结构可以使细节分支更好地学习原始图像的浅层细节特征。卷积每一层的输入与前几层的输出相连接,第$q$层的输出$\boldsymbol{X}_{q}=F_{q}(cat(\boldsymbol{X}_{0}, \boldsymbol{X}_{1}, \boldsymbol{X}_{2}, …, \boldsymbol{X}_{q-1}))$,其中,$F_{q}$表示非线性变换,包括3×3卷积和LeakyReLU激活函数。$cat(\boldsymbol{X}_{0}, \boldsymbol{X}_{1}, \boldsymbol{X}_{2}, …, \boldsymbol{X}_{q-1})$表示将之前所有层的输出进行拼接操作。

图 2 局部—全局特征提取模块
Fig. 2 Local and global feature extraction module
((a)local-global feature extraction module; (b)multi-dconv head transposed attention(MDTA); (c)squeeze and excitation(SE) network)

在全局分支中,使用MDTA和SE模块(squeeze and excitation network)(Hu等,2020)组合作为视觉Transformer。MDTA模块如图 2(b)所示。MDTA解决了SA的计算工作量随着输入的空间分辨率呈二次增长的问题。MDTA减少计算工作量的关键在于跨通道而非空间维度应用SA。

给定一个输入图像$\boldsymbol{X}∈{\bf{R}}^{H×W×C}$,其中$H$$W$$C$分别代表输入图像的高、宽和通道数。将输入$\boldsymbol{X}$先经过层归一化,再经过$1×1$的卷积和$3×3$的深度卷积(depth-wise convolution)得到$query(\boldsymbol{Q})$$key(\boldsymbol{K})$$value(\boldsymbol{V})$。其中,$\boldsymbol{Q}=W^{Q}_{1}(W^{Q}_{2}(\boldsymbol{X}))$$\boldsymbol{K}=W^{K}_{1}(W^{K}_{2}(\boldsymbol{X}))$$\boldsymbol{V}=W^{V}_{1}(W^{V}_{2}(\boldsymbol{X}))$$W_{1}(·)$$W_{2}(·)$分别代表$1×1$的卷积和$3×3$的深度卷积。通过将$\boldsymbol{Q}$$\boldsymbol{K}$的维度转化为${\bf{R}}^{HW×C}$${\bf{R}}^{C×HW}$,再将$\boldsymbol{Q}$$\boldsymbol{K}$进行矩阵相乘可以生成一个维度为${\bf{R}}^{C×C}$的转置特征图$\boldsymbol{A}$,而在空间维度上进行自注意力生成的特征图维度是${\bf{R}}^{HW×HW}$。总体来说,MDTA的过程可以定义为

$ \begin{gathered} \hat{\boldsymbol{X}}=W_1\left(F_A(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})\right)+\boldsymbol{X} \\ F_A(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\boldsymbol{V} \times F_{\mathrm{sm}}(\boldsymbol{K} \times \boldsymbol{Q} / \alpha) \end{gathered} $ (1)

式中,$\boldsymbol{X}$$\hat{\boldsymbol{X}}$分别表示输入特征图和输出特征图。$F_{A}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})$表示计算自注意力,$F_\text{sm}(·)$为softmax操作。其中,$α$为一个可学习的缩放参数,用来调节在进行softmax操作之前$\boldsymbol{K}$$\boldsymbol{Q}$之间相乘的大小。

在视觉Transformer中,大多数前馈网络使用全连接层转换特征。由于MDTA的输出特征$\hat{\boldsymbol{X}}$是通过应用通道维度的自注意力机制获得的,所以本文使用SE模块代替全连接层。SE模块如图 2(c)所示。SE是通道注意力,可以强化通道维度上的特征,进一步强化由MDTA获得的全局特征。SE的过程可以表达为

$ \boldsymbol{Y}=F_{\mathrm{S}}\left({COV}_{3 \times 3}\left({COV}_{3 \times 3}\left(F_{\mathrm{AVG}}(\hat{\boldsymbol{X}})\right)\right)\right) \cdot \hat{\boldsymbol{X}} $ (2)

式中,$\boldsymbol{Y}$代表最终的输出特征图,$F_\text{AVG}(·)$表示平均池化(average pooling)操作,$COV_{3×3}(·)$表示$3×3$的卷积操作加上LeakyReLU激活函数,$F_{\mathrm{S}}(\cdot)$表示sigmoid激活函数。

2.3 分组渐进式融合模块

将提取的特征图进行高质量的融合也是至关重要的,但大部分端到端的图像融合网络都只是简单地将特征图拼接在一起,无法有效融合特征,受Res2Net(Gao等,2021)的启发,本文将输入的特征图分为多个组,然后融合相应的组,最后通过渐进策略将不同组的特征融合在一起。分组渐进式融合模块如图 3所示。

图 3 分组渐进式融合模块
Fig. 3 Group progressive fusion module

分组渐进式融合模块的融合过程具体如下:红外图像特征图$\boldsymbol{Y}_\text{I}$和可见光图像特征图$\boldsymbol{Y}_\text{V}$通过$1×1$的卷积之后,按通道维度进行分组,分别得到$\boldsymbol{Y}_{\mathrm{I}}^i$$\boldsymbol{Y}_{\mathrm{V}}^i$,其中,$i∈{1, 2, …, s}$,将上标相同组的特征拼接之后,通过$3×3$的卷积改变维度,生成初步融合特征图$\boldsymbol{z}^{i}$, 将多个不同的$\boldsymbol{z}^{i}$进行渐进融合,得到最后的融合特征图$\boldsymbol{M}$,具体过程可表达为

$ \begin{gathered} \boldsymbol{z}^i={Conv}_i\left({cat}\left(\boldsymbol{Y}_{\mathrm{I}}^i, \boldsymbol{Y}_{\mathrm{V}}^i\right)\right) \\ \boldsymbol{Z}^i= \begin{cases}\boldsymbol{z}^i & i=1 \\ {Conv}_{\mathrm{F}}^i\left({cat}\left(\boldsymbol{z}^i, \boldsymbol{z}^{i-1}\right)\right) & i=2 \\ {Conv}_{\mathrm{F}}^i\left({cat}\left(\boldsymbol{z}^i, \boldsymbol{Z}^{i-1}\right)\right) & 2<i \leqslant s\end{cases} \end{gathered} $

$ \boldsymbol{M}={cat}\left(\boldsymbol{Z}^1, \bf{Z}^2, \cdots, \boldsymbol{Z}^i\right) $ (3)

式中,$Conv_{i}(·)$$Conv^{i}_\text{F}(·)$表示卷积块,包括一个$3×3$的卷积层、BN层和LeakyReLU激活函数。$cat(·)$表示拼接操作,并且都是在通道维度上进行操作。本文设置$s$的值为4。每一个通过$Conv^{i}_{F}(·)$得到的融合特征都潜在包含了之前所有的融合特征,这允许更多细节信息和全局信息充分融合,以实现比直接拼接操作更有效的融合效果。另外,每一次$\boldsymbol{z}^{i}$通过一个$3×3$的卷积,都会使卷积后的特征$\boldsymbol{Z}^{i}$获得一个更大的感受野,将不同的特征$\boldsymbol{Z}^{i}$进行融合,能体现多尺度融合的效果。

2.4 损失函数

为了使融合图像信息丢失最小化,获得更好的融合表现,本文采用3种不同的损失函数训练网络,分别为均方误差损失函数、结构相似性损失函数以及感知损失函数(Johnson等,2016)。这3种损失函数分别从像素强度、结构相似性和特征图差异3个方面约束融合图像和源图像之间的差异性。总损失函数表达为

$ L_{\mathrm{T}}=L_{\mathrm{S}}+\lambda_1 L_{\mathrm{M}}+\lambda_2 L_{\mathrm{P}} $ (4)

式中,$L_\text{T}$表示网络的总损失函数,$L_\text{S}$$L_\text{M}$$L_\text{P}$分别代表结构相似性损失函数、均方误差损失函数和感知损失函数。$λ_{1}$$λ_{2}$为超参数,用来控制3种损失之间的比例大小。根据以往的经验,本文设置$λ_{1}= 10$$λ_{2} = 1$

$L_\text{S}$计算融合图像和源图像(红外图像和可见光图像)之间的结构相似性。公式描述为

$ L_{\mathrm{S}}=f_{\mathrm{SSIM}}\left(\boldsymbol{I}_{\mathrm{F}}, \boldsymbol{I}_{\mathrm{I}}\right)+f_{\mathrm{SSIM}}\left(\boldsymbol{I}_{\mathrm{F}}, \boldsymbol{I}_{\mathrm{V}}\right) $ (5)

式中,$\boldsymbol{I}_\text{F}$为融合图像,$\boldsymbol{I}_\text{I}$为红外图像,$\boldsymbol{I}_\text{V}$为可见光图像。$f_\text{SSIM}(x, y)$表示$x$$y$之间的结构相似性,具体为

$ f_{\mathrm{SSIM}}(x, y)=\frac{\left(2 \mu_x \mu_y+c_1\right)\left(2 \sigma_{x y}+c_2\right)}{\left(\mu_x^2+\mu_y^2+c_1\right)\left(\sigma_x^2+\sigma_y^2+c_2\right)} $ (6)

式中,$μ_{x}$$μ_{y}$分别为$x$$y$的平均数,$σ_{x}$$σ_{y}$分别为$x$$y$的方差,$σ_{xy}$$x$$y$之间的协方差,$c_{1}$$c_{2}$为两个不同的常数。

$L_\text{M}$可以计算融合图像与输入图像之间的像素误差,红外图像以像素强度为特征,因此为了保留红外图像中更多的红外像素强度信息,本文方法只计算融合图像与红外图像之间均方误差。$L_\text{M}$详细描述为

$ \begin{aligned} L_{\mathrm{M}} & =f_{\mathrm{MSE}}\left(\boldsymbol{I}_{\mathrm{F}}, \boldsymbol{I}_{\mathrm{I}}\right) \\ f_{\mathrm{MSE}}(x, y) & =\frac{1}{N} \sum\limits_{n-1}^N\left(x_n-y_n\right)^2 \end{aligned} $ (7)

式中,$f_\text{MSE}(x, y)$表示计算$x$$y$之间的均方误差。

$L_\text{P}$为感知损失,利用预训练的VGG-19提取图像多个的特征图,再通过计算特征图之间的均方误差得到最终损失。详细描述过程为

$ \begin{gathered} L_{\mathrm{P}}=\sum\limits_{i=1}^m f_{\mathrm{MSE}}\left(\boldsymbol{\psi}_i\left(\boldsymbol{I}_{\mathrm{F}}\right), \boldsymbol{\psi}_i\left(\boldsymbol{I}_{\mathrm{I}}\right)\right)+ \\ \sum\limits_{i=1}^m f_{\mathrm{MSE}}\left(\boldsymbol{\psi}_i\left(\boldsymbol{I}_{\mathrm{F}}\right), \boldsymbol{\psi}_i\left(\boldsymbol{I}_{\mathrm{V}}\right)\right) \end{gathered} $ (8)

式中,$m$为4,$\boldsymbol{\psi}_{i}(·)$表示第$i$层特征。

3 实验

3.1 实验设置

实验使用的训练集和测试集都来自公开可用的数据集。本文提出的网络在TNO(TNO image fusion dataset)图像融合数据集上进行训练和测试。TNO数据集是标准红外和可见光图像对数据集,包括大约60对红外和可见光图像,主要描绘军事场景内容。训练深度学习网络需要大量数据,60对图像显然不够,因此在训练阶段,从TNO数据集中随机选择20对图像,然后按步长为14裁剪成128 × 128像素大小,最终获得30 360对图像作为训练集。网络参数由Adam优化器更新,初始学习率为0.000 1,使用自适应学习率下降法作为学习率调度器,忍耐系数为15个周期,调整系数为0.1。批大小设置为32,历元设置为50。本文网络模型在Pytroch中实现。实验在NVIDIA GeForce RTX 3090 GPU和2.80 GHz Intel Core i9-10900F CPU上进行。

在测试阶段,从TNO数据集中选择20对图像作为测试数据集。此外,为了证明模型的泛化性,还使用RoadScene数据集作为测试集,这是Xu等人(2022)创建的一个图像融合数据集,其中有221对红外和可见光图像精确对齐,这些图像对是FLIR(free flir thermal dataset)视频中具有高度代表性的场景。数据集中的主要场景是道路,包括车辆、行人、建筑物和其他目标。实验选择40对具有代表性的图像作为测试集。

图像融合质量评价是一个多方面问题,为了全面进行评估,本文采用定性和定量相结合的方法对提出的方法进行评价。选择6种有代表性的方法与本文方法进行对比实验。其中,基于深度学习的方法包括:DenseFuse (fusion approach to infrared and visible images)(Li和Wu,2019)、DRF(disentangled representation for visible and infrared image fusion)(Xu等,2021)、DualFuse(dual-branch network for infrared and visible image fusion)(Fu和Wu,2021)、FusionGAN(Ma等,2019b)和GANMcC(generative adversarial network with multiclassification constraints for infrared and visible image fusion)(Ma等,2021),传统方法包括:MDLatLRR(novel decomposition method for infrared and visible image fusion multi-level image decomposition method based on latent low-rank representation)(Li等,2020)。使用6个定量评价指标进行比较,分别是归一化互信息(normalized mutual information,NMI) (Aslantas和Bendes,2015)、非线性相关信息熵(nonlinear correlation information entropy,$Q_\text{NCIE}$)(Liu等,2012)、基于边缘的相似性度量($Q^{AB/F}$)(Xydeas和Petrović,2000)、平均梯度(average gradient,AG)(Cui等,2015)、视觉信息保真度(visual information fidelity,VIF)(Han等,2013)以及标准差(standard deviation,SD)(Rao,1997)。这些指标从不同方面评估融合质量。NMI测量从源图像传输到融合图像的信息量。NMI值越大,表示融合图像包含来自源图像的信息越多。$Q_\text{NCIE}$是计算融合图像与源图像之间非线性相关信息熵的指标。较大的$Q_\text{NCIE}$值表明融合图像与源图像之间的非线性相关性更好。$Q^{AB/F}$用来评价带有梯度的细节保留程度,$Q^{AB/F}$值越大,说明融合图像的梯度保留越好。AG通过计算融合图像的平均梯度来测量图像的清晰度,AG值越大,图像的清晰度越高,图像的融合性能越好。VIF是基于自然场景统计理论对融合图像的视觉信息保真度进行评估。VIF值越大,表示合图像信息保真度越好。SD通过像素值的分布反映融合图像的对比度,SD的值越大,融合图像的对比度越高。一般来说,对比度越高,图像的视觉效果越好。本文采用的定量指标中,NMI、$Q_\text{NICE}$$Q^{AB/F}$和VIF为参考指标,其余为无参考评价指标。虽然经常使用参考指标评价融合方法的性能,但使用红外或可见光图像作为参考,很容易将源图像的干扰信息引入融合图像中。为了从不同方面对融合性能进行综合评价,本文同时采用参考指标和无参考指标。

3.2 TNO数据集对比实验

3.2.1 定性比较

TNO数据集上5个典型图像的定性比较结果如图 4所示。

图 4 各种方法在TNO数据集上的结果
Fig. 4 Results of various methods on TNO dataset
((a)visible images; (b)infrared images; (c)DenseFuse; (d)DRF; (e)DualFuse; (f)FusionGAN; (g)GANMcC; (h)MDLatLRR; (i)ours)

图 4可以看出,在视觉效果方面,本文方法较对比方法有优势。首先,本文方法可以有效保留可见图像中的纹理细节,丰富的纹理细节可以提供更多的信息,使融合图像的视觉效果更加清晰。与此同时,还可以有效保留红外图像中显著的热辐射信息,使热辐射目标在背景中突出显示。

在第1、2列图像中,本文方法很好地保留了红外图像和可见光图像的互补信息,第1列图像中的楼梯以及第2列图像中的人和车辆在可见光图像中并不明显,但在红外图像中显著突出,本文方法很好地保留了这些信息。在DenseFuse、FusionGAN和MDLatLRR方法中,红外目标并不突出,并且存在一些伪影。在DRF中,第1、2列图像背景中的云都消失了。而本文方法有效避免了这些缺陷。第3列图像中的可见光图像十分模糊,而红外图像相对清晰,6种对比方法的结果从整体上看都有轻微的模糊现象,而本文方法从整体上看更清楚,并且很好地保留了路灯、帐篷等细节信息。第4、5列的图像结果证明了本文方法在保持边缘能力上较其他对比方法更具有优势。DRF和FusionGAN在第5列图像中的灌木丛并不清晰,说明保留边缘能力不强。DenseFuse和DualFuse方法在图像整体对比度上有所欠缺。而本文方法在整体对比度上效果更好,并且能更好地保留边缘信息。

根据图 4的结果对比分析,可以发现本文方法可以充分保留红外图像和红外图像中的互补信息,将这些有用的信息有效融合,避免了融合图像红外目标不显著、边缘和背景模糊等缺陷。

3.2.2 定量比较

为进一步说明本文方法的有效性,在TNO数据集中的20对图像上进行定量分析,20对图像的指标结果如图 5所示,表 1表示20对图像在6个评价指标上的均值。从表 1可以看出,本文方法在NMI、$Q_\text{NICE}$、AG和SD指标上取得了最佳结果。在指标$Q^{AB/F}$和VIF中排名第2,分别仅次于MDLatLRR和DRF。

图 5 不同融合方法在TNO数据集中20对红外与可见光图像的定量比较
Fig. 5 Quantitative comparison of fusion methods for 20 pairs of infrared and visible images on TNO dataset
((a) NMI; (b) $Q_\text{NICE}$; (c) $Q^{AB/F}$; (d) AG; (e) VIF; (f) SD)

表 1 不同融合方法在TNO数据集上各指标均值
Table 1 Mean values of each index of different fusion results on TNO dataset

下载CSV
方法 NMI QNICE QAB/F AG VIF SD
DenseFuse(Li和Wu,2019) 0.377 4 0.806 0 0.352 7 2.211 3 0.459 6 27.470 4
DRF(Xu等,2021) 0.344 3 0.805 4 0.239 1 2.415 1 1.006 7 41.659 0
DualFuse(Fu和Wu,2021) 0.362 9 0.805 9 0.405 8 2.385 5 0.573 5 31.661 3
FusionGAN(Ma等,2019b) 0.383 7 0.805 8 0.294 3 2.203 1 0.445 3 28.974 6
GANMcC(Ma等, 2021) 0.379 0 0.805 8 0.298 5 2.361 8 0.737 3 35.847 0
MDLatLRR(Li等, 2020) 0.359 5 0.805 7 0.454 1 2.469 7 0.548 3 28.355 2
本文 0.502 3 0.810 8 0.407 1 2.759 3 0.837 7 46.585 0
注:加粗字体表示各列最优结果。

通过表 1可得出以下结论:首先,较大的NMI和$Q_\text{NICE}$证明本文方法可以很大程度上保留红外图像和可见光图像中的信息,这是本文最初的设计意图。此外,在指标AG和SD上获得最高值,表明本文方法得到的融合图像在清晰度和对比度方面有更好表现。指标$Q^{AB/F}$主要反映融合图像保留梯度的程度,本文方法的$Q^{AB/F}$指标略低于MDLatLRR。MDLatLRR通过将图像多级分解,得到多个细节图像块和基础图像块,细节图像块主要包含图像梯度细节纹理,将多个细节图像块之间通过核范数融合,可以很好地保留图像梯度细节,因此MDLatLRR具有较高的$Q^{AB/F}$,但因为这种操作,造成了计算时间增加。本文方法虽然设计了细节分支,但可能由于全局分支提取的全局特征弱化了部分梯度细节,导致$Q^{AB/F}$值低于MDLatLRR。总体而言,本文方法在客观定量分析方面取得了优异的表现。

3.3 RoadScene数据集的对比实验

3.3.1 定性比较

为了证明本文方法的泛化性和有效性,在TNO数据集上训练,在RoadScene数据集进行测试,同样选取5幅具有代表性图像,结果如图 6所示。

图 6 各种方法在RoadScene数据集上的结果
Fig. 6 Results of various methods on RoadScene dataset
((a)visible images; (b)infrared images; (c)DenseFuse; (d)DRF; (e)DualFuse; (f)FusionGAN; (g)GANMcC; (h)MDLatLRR; (i)ours)

图 6中,通过第1列图像中的人物和轮胎以及第2列图像中的人物可以发现,本文方法在RoadScene数据集上保留红外显著性目标的能力是优异的,保留的红外人物轮廓都是清楚且高亮的。通过后3幅图像中的树叶、树枝可以证明本文方法在保留细节纹理方面同样具有优势。

3.3.2 定量比较

在RoadScene数据集上的定量分析结果如图 7所示,各指标在RoadScene数据集上的40对图像的均值如表 2所示。根据表 2得知,与其他6种对比方法进行比较,本文方法在指标NMI、$Q_\text{NICE}$、AG和SD上依然取得了最好的结果,与在TNO数据集上取得的结果是一样的。在指标$Q^{AB/F}$上只取得了第2的成绩,落后于MDLatLRR。值得注意的是,在指标VIF上,本文方法在RoadScene数据集超越了DRF,而在TNO数据集上要略低于DRF。可能原因是DRF通过解耦表示来解耦图像中的场景表示和属性表示,而TNO数据集和RoadScene数据集中的场景差异较大,从而无法有效解耦图像中的场景表示,导致信息保真度下降,以至于VIF值低于本文方法。总结来说,通过主观的定性分析和客观的定量分析,本文方法在RoadScene数据集上同样能够取得优秀的融合效果,这足够证明本文方法的有效性和优越性。

图 7 不同融合方法在RoadScene数据集中40对红外与可见光图像的定量比较
Fig. 7 Quantitative comparison of fusion methods for 40 pairs of infrared and visible images on RoadScene dataset
((a) NMI; (b) $Q_\text{NICE}$; (c) $Q^{AB/F}$; (d) AG; (e) VIF; (f) SD)

表 2 不同融合方法在RoadScene数据集上各指标均值
Table 2 Mean values of each index of different fusion results on RoadScene dataset

下载CSV
方法 NMI QNICE QAB/F AG VIF SD
DenseFuse(Li和Wu,2019) 0.396 0 0.806 6 0.380 6 3.402 1 0.369 1 31.037 1
DRF(Xu等,2021) 0.327 0 0.805 2 0.239 6 3.433 2 0.530 0 41.451 1
DualFuse(Fu和Wu,2021) 0.401 0 0.806 8 0.419 4 3.557 3 0.418 9 33.452 1
FusionGAN(Ma等,2019b) 0.394 9 0.806 5 0.301 2 3.292 5 0.404 9 39.415 1
GANMcC(Ma等,2021) 0.393 2 0.806 5 0.328 6 3.618 2 0.528 4 38.802 1
MDLatLRR(Li等,2020) 0.386 3 0.806 5 0.470 8 3.777 4 0.427 1 31.925 8
本文 0.532 3 0.812 1 0.465 2 4.703 2 0.698 2 54.470 1
注:加粗字体表示各列最优结果。

3.4 消融实验

为了进一步表明本文方法的有效性,验证提出模块的作用,对局部—全局特征提取模块中的Transformer模块和分组渐进式模块进行消融实验,结果如表 3所示,表中无Transformer表示去除局部—全局特征提取模块中的Transformer模块,仅保留局部细节分支。无分组渐进式融合模块表示直接将特征图拼接在一起。通过表 3可以得出,本文方法无论去除任何一部分,融合结果都会有所下降,都无法达到最佳效果。因此进一步证实了本文提出的Transformer模块和分组渐进式融合模块的有效性。

表 3 消融实验结果
Table 3 Results of ablation experiment

下载CSV
方法 NMI QNICE QAB/F AG VIF SD
无Transformer 0.469 8 0.809 3 0.385 3 2.755 5 0.817 9 42.190 1
无分组渐进式融合模块 0.455 3 0.808 7 0.406 3 2.739 9 0.727 3 39.653 6
本文 0.502 3 0.810 7 0.407 1 2.759 2 0.837 7 46.585 0
注:加粗字体表示各列最优结果。

3.5 运行效率对比

融合方法的运算效率是衡量其价值的重要方面,不同方法在TNO和RoadScene数据集上测试花费的平均运行时间如表 4所示。由表 4可以发现,6种基于深度学习的方法的运行效率都远好于传统算法MDLatLRR,这得益于GPU的加速。本文方法在运行时间上不是最优的,在TNO数据集上与最优的方法DualFuse相差约0.2 s,在RoadScene数据集与最快的方法DenseFuse相差约0.06 s。这是因为本文方法使用了自注意力机制,所以会导致计算时间加长。但本文方法在6个定量指标上都远好于这两种方法。为了提升融合图像的质量,略微牺牲运行时间是值得的。综上所述,本文方法具有良好的应用价值。

表 4 不同方法在两个数据集上运行时间的平均值
Table 4 Average run time of different method on two datasets 

下载CSV
/s
方法 TNO RoadScene
DenseFuse(Li和Wu,2019) 0.109 8 0.042 2
DRF(Xu等,2021) 0.506 5 0.412 2
DualFuse(Fu和Wu,2021) 0.086 0 0.075 9
FusionGAN (Ma等,2019b) 0.132 8 0.076 0
GANMcC(Ma等,2021) 0.163 9 0.089 1
MDLatLRR(Li等,2020) 30.698 3 11.275 4
本文 0.281 7 0.107 0
注:加粗字体表示各列最优结果。

4 结论

同一场景的红外与可见光图像的融合图像可以有效弥补单一图像的不足,并且具有更丰富的信息,更符合人类视觉效果。本文根据CNN和视觉Transformer相结合的思想,提出了一种基于视觉Transformer的端到端无监督图像融合网络,并通过对比实验和消融实验证明了该网络的有效性。针对基于CNN图像融合方法的不足,本文采用引入视觉Transformer和CNN共同提取图像特征的方法,使提取的图像特征更全面、更通用。为了减少融合过程中信息的丢失,进一步提高融合质量,本文提出将特征分组,构造分层渐进式的结构将特征进行多尺度的融合。在与6种先进方法对比中,本文的融合结果无论客观定量评价还是主观定性评价都取得了更好的结果。

但是,本文的工作只限于红外与可见光图像的融合,不适用于其他图像任务。下一步的工作方向是面向更多样性的图像融合任务,以及提高模型的运算效率,节省运算时间。

参考文献

  • Aslantas V, Bendes E. 2015. A new image quality metric for image fusion: the sum of the correlations of differences. AEU-International Journal of Electronics and Communications, 69(12): 1890-1896 [DOI:10.1016/j.aeue.2015.09.004]
  • Cui G M, Feng H J, Xu Z H, Li Q, Chen Y T. 2015. Detail preserved fusion of visible and infrared images using regional saliency extraction and multi-scale image decomposition. Optics Communications, 341: 199-209 [DOI:10.1016/j.optcom.2014.12.032]
  • Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X H, Unterthiner T, Dehghani M, Minderer M, Heigold G, Gelly S, Uszkoreit J and Houlsby N. 2021. An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. [2022-05-20]. https://arxiv.org/pdf/2010.11929.pdf
  • Fu Y and Wu X J. 2021. A dual-branch network for infrared and visible image fusion//Proceedings of the 25th International Conference on Pattern Recognition. Milan, Italy: IEEE: 10675-10680[DOI: 10.1109/ICPR48806.2021.9412293]
  • Gao S H, Cheng M M, Zhao K, Zhang X Y, Yang M H, Torr P. 2021. Res2 Net: a new multi-scale backbone architecture. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(2): 652-662 [DOI:10.1109/TPAMI.2019.2938758]
  • Gong R, Wang X C. 2019. Infrared and visible image fusion based on BEMD and W-transform. Journal of Image and Graphics, 24(6): 987-999 (宫睿, 王小春. 2019. BEMD分解和W变换相结合的红外与可见光图像融合. 中国图象图形学报, 24(6): 987-999) [DOI:10.11834/jig.180530]
  • Han Y, Cai Y Z, Cao Y, Xu X M. 2013. A new image fusion performance metric based on visual information fidelity. Information Fusion, 14(2): 127-135 [DOI:10.1016/j.inffus.2011.08.002]
  • Hu J, Shen L, Albanie S, Sun G, Wu E H. 2020. Squeeze-and-excitation networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(8): 2011-2023 [DOI:10.1109/TPAMI.2019.2913372]
  • Huang G, Liu Z, Van Der Maaten L and Weinberger K Q. 2017. Densely connected convolutional networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 2261-2269[DOI: 10.1109/CVPR.2017.243]
  • Huo X, Zou Y, Chen Y, Tan J Q. 2021. Dual-scale decomposition and saliency analysis based infrared and visible image fusion. Journal of Image and Graphics, 26(12): 2813-2825 (霍星, 邹韵, 陈影, 檀结庆. 2021. 双尺度分解和显著性分析相结合的红外与可见光图像融合. 中国图象图形学报, 26(12): 2813-2825) [DOI:10.11834/jig.200405]
  • Johnson J, Alahi A and Li F F. 2016. Perceptual losses for real-time style transfer and super-resolution//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 694-711[DOI: 10.1007/978-3-319-46475-6_43]
  • Li H, Wu X J. 2019. DenseFuse: a fusion approach to infrared and visible images. IEEE Transactions on Image Processing, 28(5): 2614-2623 [DOI:10.1109/TIP.2018.2887342]
  • Li H, Wu X J and Kittler J. 2018. Infrared and visible image fusion using a deep learning framework//Proceedings of the 24th International Conference on Pattern Recognition. Beijing, China: IEEE: 2705-2710[DOI: 10.1109/ICPR.2018.8546006]
  • Li H, Wu X J, Kittler J. 2020. MDLatLRR: a novel decomposition method for infrared and visible image fusion. IEEE Transactions on Image Processing, 29: 4733-4746 [DOI:10.1109/TIP.2020.2975984]
  • Li H, Wu X J, Kittler J. 2021. RFN-Nest: an end-to-end residual fusion network for infrared and visible images. Information Fusion, 73: 72-86 [DOI:10.1016/j.inffus.2021.02.023]
  • Li J, Zhu J M, Li C, Chen X, Yang B. 2022. CGTF: convolution-guided transformer for infrared and visible image fusion. IEEE Transactions on Instrumentation and Measurement, 71: #5012314 [DOI:10.1109/TIM.2022.3175055]
  • Li S T, Yin H T, Fang L Y. 2012. Group-sparse representation with dictionary learning for medical image denoising and fusion. IEEE Transactions on Biomedical Engineering, 59(12): 3450-3459 [DOI:10.1109/TBME.2012.2217493]
  • Liu Z, Blasch E, Xue Z Y, Zhao J Y, Laganiere R, Wu W. 2012. Objective assessment of multiresolution image fusion algorithms for context enhancement in night vision: a comparative study. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(1): 94-109 [DOI:10.1109/TPAMI.2011.109]
  • Liu Z, Lin Y T, Cao Y, Hu H, Wei Y X, Zhang Z, Lin S and Guo B N. 2021. Swin transformer: hierarchical vision transformer using shifted windows//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE: 9992-10002[DOI: 10.1109/ICCV48922.2021.00986]
  • Ma J Y, Liang P W, Yu W, Chen C, Guo X J, Wu J, Jiang J J. 2020. Infrared and visible image fusion via detail preserving adversarial learning. Information Fusion, 54: 85-98 [DOI:10.1016/j.inffus.2019.07.005]
  • Ma J Y, Ma Y, Li C. 2019a. Infrared and visible image fusion methods and applications: a survey. Information Fusion, 45: 153-178 [DOI:10.1016/j.inffus.2018.02.004]
  • Ma J Y, Tang L F, Fan F, Huang J, Mei X G, Ma Y. 2022. SwinFusion: cross-domain long-range learning for general image fusion via Swin transformer. IEEE/CAA Journal of Automatica Sinica, 9(7): 1200-1217 [DOI:10.1109/JAS.2022.105686]
  • Ma J Y, Yu W, Liang P W, Li C, Jiang J J. 2019b. FusionGAN: a generative adversarial network for infrared and visible image fusion. Information Fusion, 48: 11-26 [DOI:10.1016/j.inffus.2018.09.004]
  • Ma J Y, Zhang H, Shao Z F, Liang P W, Xu H. 2021. GANMcC: a generative adversarial network with multiclassification constraints for infrared and visible image fusion. IEEE Transactions on Instrumentation and Measurement, 70: #5005014 [DOI:10.1109/TIM.2020.3038013]
  • Pajares G, de la Cruz J M. 2004. A wavelet-based image fusion tutorial. Pattern Recognition, 37(9): 1855-1872 [DOI:10.1016/j.patcog.2004.03.010]
  • Rao Y J. 1997. In-fibre Bragg grating sensors. Measurement Science and Technology, 8(4): 355-375 [DOI:10.1088/0957-0233/8/4/002]
  • Simonyan K and Zisserman A. 2015. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2022-05-20]. https://arxiv.org/pdf/1409.1556.pdf
  • Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, Kaiser Ł and Polosukhin I. 2017. Attention is all you need//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc. : 6000-6010
  • Xu H, Ma J Y, Jiang J J, Guo X J, Ling H B. 2022. U2Fusion: a unified unsupervised image fusion network. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(1): 502-518 [DOI:10.1109/TPAMI.2020.3012548]
  • Xu H, Wang X Y, Ma J Y. 2021. DRF: disentangled representation for visible and infrared image fusion. IEEE Transactions on Instrumentation and Measurement, 70 [DOI:10.1109/TIM.2021.3056645]
  • Xydeas C S, Petrović V. 2000. Objective image fusion performance measure. Electronics Letters, 36(4): 308-309 [DOI:10.1049/el:20000267]
  • Zamir S W, Arora A, Khan S, Hayat M, Khan F S and Yang M H. 2022. Restormer: efficient transformer for high-resolution image restoration[EB/OL]. [2022-05-20]. https://arxiv.org/pdf/2111.09881.pdf
  • Zhang Y, Liu Y, Sun P, Yan H, Zhao X L, Zhang L. 2020. IFCNN: a general image fusion framework based on convolutional neural network. Information Fusion, 54: 99-118 [DOI:10.1016/j.inffus.2019.07.011]