发布时间: 2023-01-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.220638
2023 | Volume 28 | Number 1

红外与可见光图像融合

多级特征引导网络的红外与可见光图像融合

王彦舜, 聂仁灿, 张谷铖, 杨小飞

云南大学信息学院, 昆明 650505

收稿日期: 2022-06-15; 修回日期: 2022-10-10; 预印本日期: 2022-10-17

基金项目: 国家自然科学基金项目(61966037, 61833005, 61463052);中国博士后科学基金面上项目(2017M621586)

作者简介: 王彦舜，男，硕士研究生，主要研究方向为深度学习、图像融合。E-mail：yanshunwang@mail.ynu.edu.cn
聂仁灿，通信作者，男，教授，博士生导师，主要研究方向为神经网络、图像处理、深度学习。E-mail：rcnie@ynu.edu.cn
张谷铖，男，硕士研究生，主要研究方向为深度学习、图像融合。E-mail：zhang_zgc@mail.ynu.edu.cn
杨小飞，男，硕士研究生，主要研究方向为深度学习、图像融合。E-mail：yang@mail.ynu.edu.cn
*通信作者: 聂仁灿 rcnie@ynu.edu.cn

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2023)01-0207-14

摘要

目的以卷积神经网络为基础的深度学习技术在图像融合方面表现出优越的性能。在各类图像融合领域，红外与可见光的图像融合应用十分广泛，这两种图像各自的特性十分鲜明，二者信息交互融合得到的融合图像具有显著的价值和意义。为了提高红外与可见光图像的融合质量，本文提出了一种多级特征引导网络的融合框架。方法本文框架中编码器用于提取源图像的特征，并将多级特征引导至解码器中对融合结果进行重建。为了有效地训练网络，设计了一种混合损失函数。其中，加权保真项约束融合结果与源图像的像素相似度，而结构张量损失鼓励融合图像从源图像中提取更多的结构特征，为了有效进行多尺度信息交互，不同于普通的编解码结构，本文方法在编码器每一层的每一部分均进行特征引导，在编码部分采用池化对尺寸进行缩小，解码采用上采样将尺寸放大，实现多尺度融合与重建，有效弥补了训练过程中卷积层数的堆叠导致的信息的丢失，在编码部分适时地对特征进行引导，及时地与解码层进行融合，在网络结构构建完成后，提出一种损失融合算法，从红外图像和可见光图像各自特点出发，分别设计基于视觉显著性权值估计的2范数损失和基于结构张量的F范数损失。结果为了说明融合方法的可行性，在TNO数据集与RoadScene数据集上进行实验，与传统以及深度学习融合方法进行了视觉对比和客观对比，在信息保真度准则、基于梯度的融合性能边缘信息保持度、非线性相关熵以及基于结构相似度的图像质量测量指标等关键图像评价指标上达到了理想的结果。同时，为了验证提出的网络结构以及损失函数的有效性，使得提出的网络模型完备性得到保证。结论提出的融合模型综合了传统模型和深度学习模型的优点，得到了高质量的融合图像，取得了良好的融合效果。

关键词

图像融合; 多级特征引导; 混合损失; 结构张量; 显著性检测; 深度学习

Infrared and visible image fusion based on multi-level guided network

Wang Yanshun, Nie Rencan, Zhang Gucheng, Yang Xiaofei

School of Information Science and Engineering, Yunnan University, Kunming 650505, China

Supported by: National Natural Science Foundation of China(61966037, 61833005, 61463052)

Abstract

Objective Multi-source image fusion is focused effective information extraction and integration for diversified images. It is beneficial to resolve the insufficient information-related problem for single image and improve the efficiency of data processing for multi-source images. The infrared and visible images are widely used in the context of image processing and have their mutual benefits for information ability. To obtain a clear and accurate description of the scene, the fusion-mutual can optimize the detailed texture information in the visible image and clarify the target information in the infrared image. So, we develop a fusion-mutual algorithm in terms of deep learning-relevant image processing method. Method First, densed convolutional network is improved, and an end-to-end convolutional network fusion model is trained in relevant to encoding and decoding. To reconstruct the fusion results, the encoder is used to extract the features of the source image and guide the multilevel features into the decoder. Each layer-encoded has the feature-guided beyond regular decoding structure. The pooling-based size is narrowed down in the coding part. The upsampling can be enlarged in the decoding part to realize the multi-scale fusion and reconstruction. The training effectiveness can be improved further in the process of convolution layer stack but information loss is followed by. To train the network effectively, a hybrid loss function is designed. The weighted fidelity term will be used to constrain the pixel similarity between the fusion result and the source image when the structural tensor loss is activated in the fusion image to extract more structural features from the source image. The coding part is divided into three layers to ensure effective feature extraction in depth, and each layer is segmented by a pooling layer. The network-depth-via convolution blocks between each layer are down from 3 to 1 gradually. To bridge the extraction of effective network features, it can adapt more extraction of shallow network and less extraction of a deep network. To realize multi-scale information interaction, the features are efficient to be guided in the encoding part. It can be fused into the decoding layer at the same time. For decoding part of the design, the first layer is composed of five parts of the convolution blocks. Our fusion results are obtained after the fifth convolution block output. The second layer is composed of three convolution blocks, and the third layer is constructed based on a convolution block only. The sampling process is interconnected between layers. After the network structure is constructed, we proposed a loss fusion algorithm, which are included L2 saliency detection-based norm constraints; and the F norm constraint is based on structure tensor calculation for infrared and visible light. The image features are user-friendly. The fusion results are mutual-benefited under the control of the network structure and the loss algorithm. Result A series of evaluation indicators are achieved compared to traditional fusion methods and deep learning fusion methods on the TNO dataset and RoadScene dataset. To demonstrate the feasibility of the fusion method, its experiment is carried out on TNO dataset and RoadScene dataset. Furthermore, to validate the effectiveness of our loss function-based algorithm, the network structure and loss are ablated both in terms of the principle of control variables. Conclusion To obtain potential high-quality fusion images and achieve good fusion effects further, our fusion model has shown its priorities for models optimization.

Key words

image fusion; multi-level feature guidance; hybrid loss; structure tensor; detection of significance; deep learning

0 引言

在复杂现实应用条件下，捕获成像设备的传感器不能有效提取图像的各方面丰富信息，极大地限制了目标探测和识别等性能。图像融合一直是图像领域的重要研究部分，其通过对多个传感器采集到的不同类别的图像进行融合而获得一幅包含源图像完整信息的融合结果，主要包括多聚焦图像融合、多曝光图像融合、红外与可见光图像融合(infrared and visible image fusion, IVIF)等。其中，红外与可见光图像由于成像机制不同，在同一场景下可以形成良好的互补特性。红外图像反映物体的热辐射情况，不易受气候等环境影响，抗干扰能力强，在透雾、夜视等方面有着更为显著的效果。然而，红外图像缺乏对纹理细节的展现，对比度低，分辨率差，视觉效果模糊；可见光图像反映物体表面的反射特性，空间分辨率较高，且具有清晰的细节纹理信息，含有丰富的细节信息，更易被人眼视觉系统所理解，但其成像过程对外部环境依赖较大，有利于人眼对场景的认知，但成像效果对外界环境光照条件依赖性大，在低照度下成像效果会下降。通过红外与可见光图像融合任务，得到一幅既能突出红外目标信息，又能展现高分辨率细节信息的图像，对于军事民生具有重要意义，为目标检测(Zhang等，2020)、无人系统安防(李国梁等，2022)、安全导航、交通监测和智能监控(Li和Wu，2019)等诸多领域提供了重要的基础。

IVIF现阶段主要分为传统方法和基于深度学习的融合方法。传统方法如基于多尺度变换方法(multiscale transform methods, MST)(Chen等，2020；杨勇等，2015)是目前图像融合领域研究最多、应用最广的方法。首先将源图像在不同尺度上进行分解，然后设计融合策略对源图像不同尺度的信息特征进行融合，最后重建为融合结果。典型的方法包括拉普拉斯金字塔变换(Laplacian pyramid, LP)(Burt和Adelson，1987)，该方法首先对每幅源图像进行金字塔分解得到不同层次(尺度)下的带通子图像(体现不同空间分辨率的信息)，对各源图像的不同尺度分解系数采用特定规则进行融合，但由于其具有平移不变性，会产生大量的冗余信息。为了改进LP，有学者提出NSCT(non-subsampled contourlet transform)(陈木生，2016)与NSST (non-subsampled shearlet transform)(Zhang等，2015)，这两种方法可以提取更全面的细节信息, 减少冗余量。但是在融合过程中没有充分考虑空间一致性, 导致融合图像中可能会出现伪影。其他的传统方法还有基于稀疏表示(Liu等，2017)、基于子空间(Li等，2013)、基于引导滤波的图像融合方法(guided filtering fusion, GFF)以及利用显著性检测的可见光和红外图像双尺度融合方法(two-scale image fusion based on visual saliency, TSIFVS)(Bavirisetti和Dhuli，2016)等。Li等人(2020b)提出MDlatLRR(multi-level decomposition with latent low-rank representation)，将图像分为基础和细节两部分，但融合策略的选择设计较为复杂，适应性差。Li等人(2021a)对红外图像预处理，提出IVFusion(infrared and visible image fussion)将红外图像目标背景对比度加上来，不采用传统加权方式，然而由于手工设计性强，融合图像在主观视觉上存在较大失真。Zhao等人(2020)提出Bayesian模型，将红外与可见光图像融合任务转换为回归问题，然而，算法设计复杂，图像细节不够清晰。刘明葳等人(2021)利用各向异性导向滤波从源图像获得多种尺度的序列细节图，利用各向异性导向滤波优化权重，取得了较为理想的融合结果。Chen等人(2020)提出TE-MST(target-enhanced multiscale transform decomposition)，对红外图像热目标增强，然而，由于传统方法不能自适应地有效提取热目标信息，融合效果不够真实。这些方法为了避免亮度退化以及纹理缺失等问题，必须设计合适的分解方法与融合规则，导致融合效率下降。

基于深度学习的融合方法由于计算机强大的计算能力，广泛应用于IVIF任务中。Li等人(2018)利用卷积神经网络(convolutional neural network，CNN)提出了一种融合方法(VGG-lnorm)。然而，该网络不能提取足够的特征。因此，他们采用密集连接卷积网络(densely connected convolutional networks，DenseNet)(Iandola等，2014)对源图像特征进行深度提取，并设计了DenseFase(Li和Wu，2019)实现融合任务。Zhao等人(2021)设计了一个自编码器，提取源图像的背景与纹理特征，然后设计融合策略对特征进行融合，方法命名为DIDF-use(deep image decomposition for infrared and visible image fusion)。Fu和Wu(2021)提出DualFuse(dual-branch network for infrared and visible image fusion)，在通道策略上分解，与传统方法相比融合质量较好，但亮度信息提取不明显。然而，自编码器没有改变特征图的尺寸，导致编码器中存在恒等映射，不能提取出足够的有用特征。因此，研究人员利用蜂巢网络(UNet)(Ronneberger等，2015)对源图像进行多尺度特征提取，同时设计基于巢连接模型的红外与可见光图像融合架构(NestFuse)(Li等，2020a)与基于残差端到端融合网络结构RFN-Nest(residual fusion network)(Li等，2021b)实现了IVIF任务。尽管他们的方法有效地避免了上述问题，但是，特征图尺寸的变化可能会导致关键信息的缺失。此外，他们的方法由较为简单的损失函数来约束，导致融合结果在亮度以及细节纹理上存在缺陷。Tang等人(2022)将图像融合与视觉任务结合起来，提出语义感知的实时图像融合网络(semantic-aware real-time infrared and visible image fusion network, SEAFusion)，设计了一个梯度残差密集块来提高融合网络对细粒度细节的描述能力，并采用高级视觉算法对融合过程进行优化, 得到了较好的融合结果，但融合框架的设计较为简单，不能充分地提取源图像的纹理特征。李云飞等人(2022)在深度学习的基础上提出一种单样本对融合算法，该方法利用卷积神经网络建立高、低空间分辨率图像间的超分关系，得到了具有更丰富的场景信息的融合结果。

本文设计了一个新颖的端到端融合框架，包括编码器与解码器。利用编码器提取源图像的特征，并将编码器提取的多级特征引导至解码器中以对结果进行融合重建。在训练阶段，提出一组混合损失，包括加权保真项和结构张量损失。其中，前者利用显著性检测算法(Saliency_LC)产生的显著性图与源图像相结合生成权值对保真项进行改进，在像素层面约束融合图像与源图像的相似度，有效地避免了融合结果的亮度退化问题；而后者允许融合结果包含更多的结构细节。

1 本文融合方法

本文提出的融合框架由编码器和解码器组成。其中，编码器对源图像进行特征提取并融合；解码器对融合结果进行重建，生成融合结果。

1.1 编码器

首先将一对红外与可见光图像采用卷积操作得到一对通道数为16的特征图。然后将特征图输入到融合框架中，通过多个参数共享的卷积块对其进行特征提取，其中每个卷积块由CNN-ReLU-CNN-ReLU组成。如图 1所示，当经过EB10，EB11，EB12这3个卷积块后，采用最大池化操作(maxpooling)将特征图的尺寸减半，去除冗余信息、对特征进行压缩，简化网络复杂度，对网络主要特征保留的同时防止过拟合，提高模型的泛化能力，实现多尺度网络结构。然后继续采用EB20，EB21这2个卷积块与最大池化提取源图像的深度特征。最后，使用1个卷积块(EB30)和最大池化获得源图像的多级特征。具体来说，每个CNN函数的卷积核大小(kernel size)设为3，步长(stride)与填充(padding)均设为1，每级特征的输出通道分别为56，80, 208(每层通道维数见表 1)。当提取特征后，将每一级的红外图像特征与可见光图像特征进行拼接融合(concatenation)，在图 1中，为了充分引导特征信息，编码器除了最终输出作为解码器的输入外，在编码器每部分均进行特征引导，获得多级的融合结果。

图 1 本文网络结构

Fig. 1 Structure of proposed network

表 1 网络结构中各部分卷积核详细参数
Table 1 Detailed parameters of convolutional kernels in each part of network structure

下载CSV

网络结构参数		卷积核	步长	输入通道	输出通道
编码器	EB10	3×3	1	16	8
	EB11	3×3	1	8	112
	EB12	3×3	1	112	56
	EB20	3×3	1	56	160
	EB21	3×3	1	160	80
	EB30	3×3	1	80	208
解码器	DB10	3×3	1	56	56
	DB11	3×3	1	56+8×2	56
	DB12	3×3	1	112×2+56+80	80
	DB13	3×3	1	80+80	80
	DB14	3×3	1	80+208	80
	DB20	3×3	1	80	80
	DB21	3×3	1	80+160×2	80
	DB22	3×3	1	208+80	208
	DB30	3×3	1	208	208

1.2 解码器

Li等人(2020a)提出NestFuse蜂巢网络用于红外与见光图像融合，该网络是一种常见的编解码结构。与其不同的是(由图 1可见)，本文提出的编码器对每层的每一部分均进行特征引导。同时，采用池化操作，避免冗余信息在深层网络中的无效训练，对应编码器池化操作，解码器采用上采样进行尺寸还原，提高有效特征信息的分辨率，体现多尺度构造。

如图 1所示，解码器首先通过DB10，DB20，DB30卷积块对多级特征进行充分融合，获得特征图。然后，对编码器中的每一级特征进行拼接融合，同时将融合结果引导至解码器中。再者，对深层次的特征采取上采样操作(upsampling)并与上一级特征进行融合，再经过DB14卷积块得到多级特征的融合结果。最终，通过一个卷积操作对结果进行重建，得到一幅融合图像。与编码器中的卷积块相似，解码器中的卷积块同样由两组卷积与ReLU激活函数组成，每个卷积块的具体通道数如表 1所示。

相较于现有的深度学习方法，本文的融合框架有以下3点优势：1)通过池化和上采样设计的多尺度网络结构，允许编码器提取更多的源图像的重要特征；2)将编码器中的多级特征引导至解码器中，多极特征体现在编码器每层的每一部分，EB10, EB11，EB20输出的特征图拼接后馈送至DB11，DB12, DB21, 多尺度的融合弥补了信息的丢失，有效地避免了因池化特征图尺寸变化导致的信息缺失问题；3)多深度、多层次、多引导的多尺度的重建过程能够让解码器获得更好的融合结果。

1.3 损失函数

本文方法损失函数由加权保真项与结构张量损失组成，其定义为

$ L=L_1+\lambda L_2 $

(1)

式中，$L_1 $表示加权保真项，在像素级层面约束融合结果与源图像的像素相似度，其表达式为

$ L_1=\left\|W_1 \otimes\left(\boldsymbol{I}_{\mathrm{o}}-\boldsymbol{I}_{\mathrm{ir}}\right)\right\|_2^2+\left\|W_2 \otimes\left(\boldsymbol{I}_{\mathrm{o}}-\boldsymbol{I}_{\mathrm{vis}}\right)\right\|_2^2 $

(2)

式中, $\boldsymbol{I}_{\mathrm{o}}, \boldsymbol{I}_{\mathrm{ir}}, \boldsymbol{I}_{\mathrm{vis}}$分别代表融合图像、红外图像与可见光图像, $\otimes$代表乘积操作, $\|\cdot\|_2^2$表示2范数(Nie等, 2021）。$W_1$和$W_2$代表加权操作, $W_1+W_2=1$。本文方法在像素损失中采用了加权策略, 该策略能够从给定源图像的像素强度中提取出更多表示信息，有效避免了融合结果的亮度退化以及纹理细节缺失问题，采用显著性检测算法(Saliency_LC)对加权策略进行建模，首先计算红外图像与可见光图像特征值的直方图，然后计算每一个特征值的显著值，为每一个对应像素值分配显著值，得到显著图，将显著图归一化到[0, 255]范围内并显示。

算法1: 图像显著性检测算法(Saliency_LC)

1) 输入: 完整的红外与可见光图像对；

2) 对每幅图像，图像$\boldsymbol{I} $中某个像素$ \boldsymbol{I}_k$的显著值计算为

$ \begin{aligned} & {SalS}\left(I_k\right)=\sum\limits_{\forall I_i \in I} I_k-I_i= \\ & I_k-I_1+I_k-I_2+\cdots+I_k-I_N \end{aligned} $

3) 令$I_1=a_0, I_2=a_1, I_k=a_m$

4) 得${SalS}\left(I_k\right)=a_m-a_0+\cdots+a_m-a_1+\cdots$

5) 输出: 最终表达式

$ {SalS}\left(a_m\right)=\sum\limits_{n=0}^{255}\left(f_n a_m-a_n\right) $

算法1中$I_i$取值范围为$[0, 255]$, 表示某点灰度值, $N$表示图像中元素数量, ${SalS}(\cdot)$表示显著性值, $\|\cdot\|$表示1范数, $a_m=I_k, f_n$表示图像第$n$个像素的频数。本文的加权系数$W$可由该显著性方法得到, 具体算法为

$ S_{\mathrm{IR}}={SalS}\left(\boldsymbol{I}_{\mathrm{ir}}\right) $

(3)

$ S_{\mathrm{VIS}}={SalS}\left(\boldsymbol{I}_{\mathrm{vis}}\right) $

(4)

$ W_1=S_{\mathrm{IR}} /\left(S_{\mathrm{IR}}+S_{\mathrm{VIS}}+e p s\right) $

(5)

$ W_2=1-W_1 $

(6)

式中，$ S_\text{IR}$表示红外图像显著性值，$S_\text{VIS} $表示可见光图像显著性值，$W_1 $表示红外图像权重，$ W_2$表示可见光图像权重，$eps=10^{-7} $，如图 2所示。

图 2 权值估计示例

((a)infrared image; (b)saliency of (a); (c)pseudo-color of (b); (d)weight value $ W_1$; (e)visible image; (f)saliency of (e); (g)pseudo-color of (f); (h)weight value $W_2 $)

Fig. 2 An example of weight estimation

此外，为了更好地保留融合图像的细节纹理，采用结构张量损失(Jung等，2020)。首先，在源图像的每个邻域内，分别在水平与竖直方向上进行梯度求导，得到结构矩阵$ \boldsymbol{T}_\text{vis}$与$ \boldsymbol{T}_\text{ir}$。然后在整幅图像范围内重复该操作，得到图像的结构张量矩阵。其次，为了有效地平衡两种结构张量，对二者的结构张量计算平均值，得到$\boldsymbol{T}_i $，具体公式为

$ \boldsymbol{T}=\left[\begin{array}{cc} \boldsymbol{R}_x^2 & \boldsymbol{R}_x \boldsymbol{R}_y \\ \boldsymbol{R}_x \boldsymbol{R}_y & \boldsymbol{R}_y^2 \end{array}\right]=\left[\begin{array}{ll} \boldsymbol{T}_{x x} & \boldsymbol{T}_{x y} \\ \boldsymbol{T}_{x y} & \boldsymbol{T}_{y y} \end{array}\right] $

(7)

$ \begin{gathered} \boldsymbol{Z}_{\mathit{\Omega}}^{x, y}= \\ {\left[\begin{array}{cc} \sum\limits_{\mathit{\pmb{\Omega}}}\left(\nabla_x \boldsymbol{I}_i^{x, y}\right)^2 & \sum\limits_{\mathit{\pmb{\Omega}}}\left(\nabla_x \boldsymbol{I}_i^{x, y}\right)\left(\nabla_y \boldsymbol{I}_i^{x, y}\right) \\ \sum\limits_{\mathit{\pmb{\Omega}}}\left(\nabla_y \boldsymbol{I}_i^{x, y}\right)\left(\nabla_x \boldsymbol{I}_i^{x, y}\right) & \sum\limits_{\mathit{\pmb{\Omega}}}\left(\nabla_y \boldsymbol{I}_i^{x, y}\right)^2 \end{array}\right]} \end{gathered} $

(8)

$ \boldsymbol{T}_i=\left(\boldsymbol{T}_{\mathrm{vis}}+\boldsymbol{T}_{\mathrm{ir}}\right) / 2 $

(9)

式中, $\boldsymbol{R}_x, \boldsymbol{R}_y$分别为图像的水平与垂直梯度, $\boldsymbol{T}$表示该邻域的结构张量矩阵, $\mathit{\pmb{\Omega}}$表示整个图像域范围, $\boldsymbol{Z}$表示整个图像的结构张量矩阵, $\nabla$为求梯度; $\boldsymbol{T}_u, \boldsymbol{T}_i$分别代表融合图像、源图像的结构张量平均值; $\boldsymbol{T}_{\mathrm{vis}}, \boldsymbol{T}_{\mathrm{ir}}$分别代表可见光图像、红外图像的结构张量矩阵。最后, $L_2$计算融合图像结构张量与$\boldsymbol{T}_i$的差值的$\mathrm{F}$范数, 得到结构张量损失, 即

$ L_2=\left\|\boldsymbol{T}_u-\boldsymbol{T}_i\right\|_{\mathrm{F}}^1 $

(10)

2 实验结果

2.1 实验设置

实验数据集来自TNO数据集(https://figshare.com/articles/dataset/TNO_Image_Fusion_Dataset/1008029)和RoadScene数据集(https://github.com/hanna-xu/RoadScene)。TNO数据集广泛应用于红外与可见光图像融合任务，素材采集于自然生活各个场景，该数据集作为主要训练集。TNO图像来源广泛，在TNO上进行实验能够确保本文方法的应用范围合理性，为了避免单一数据集的实验结果说服力不强，还采用RoadScene数据集作为泛化数据集，该数据集取材于道路、车辆等，是一个新颖的用于红外与可见光图像的数据集，素材来源于日常生活。这两种数据集涵盖了自然生活各领域。由于这两种数据集素材来源不尽相同，两类数据集共同使用能够保证模型对红外与可见光融合任务的适用性。为了避免同一完整数据集全部用来模型训练带来的泛化能力不强、模型可移植性低等问题，在数据集中选取一部分作为训练集，另一部分作为测试集，有效避免了单一数据集整体作为训练集导致模型过拟合及泛化性差等问题。实验从TNO数据集图像库中选择72对清晰的红外与可见图像, 其中包括51对训练图像和21对测试图像。为了验证本文方法的泛化能力，采用21对RoadScene测试图像对网络进一步实验。本文方法使用PyTorch框架，并采用Adam优化器，学习率初始值设置为0^－2，并随着迭代次数而衰减，最终降低为10^－5。此外，将训练集中的51对源图像尺寸裁剪为256×256像素，batch_size设置为1，实验共训练800轮，并在每10轮保存一次模型。

为了验证本文融合算法的优越性，对比了9种其他融合方法，包括Bayesian(Zhao等，2020), IVFusion(Li等，2021a)，MDlatLRR(Li等，2020b)3种传统方法，以及6种基于深度学习的融合方法：NestFuse(Li等，2020a)，DIDFuse(deep image decomposition for infrared and visible image fusion)(Zhao等，2021), U2Fusion(unified unsupervised image fusion network)(Xu等，2022), RFN-Nest(residual fusion network)(Li等，2021b), SEAFusion(Tang等，2022), DualFuse(Fu和Wu，2021)。本文选用信息保真度准则(information fidelity criterion，IFC)(Sheikh等，2005)、基于梯度的融合性能边缘信息保持度($Q_\text{ABF} $)(Xydeas和Petrović，2000)、非线性相关熵($Q_\text{NCIE} $)(Wang等，2008)以及基于结构相似度的图像质量测量指标($ Q_Y$)(Li等，2008)，上述指标值越大表示融合图像质量越好。

2.2 实验结果

本文选取了TNO测试集中典型的21对红外与可见光图像对与RoadScene数据集中21对分别作为测试集进行对比分析, 训练和测试的部分图像如图 3所示。分别从两个数据集中各取出一幅图进行局部放大与伪彩展示分析，如图 4和图 5所示。图 4中圈出位置行人处可以看到本文方法亮度较高，同时兼顾了背景信息的完整，图 5中圈出的树干可以看出本文方法树干纹理细节较为清晰。从视觉上看，如图 6所示，相对于Bayesian方法，例如行人、直升机等图像，可以明显看出融合图像亮度信息不够，DIDFuse方法视觉背景信息较暗，如森林、行人等图像背景基本看不清，RFN-Nest方法融合图像较为模糊，如雨伞的背景、椅子等物品已经不可见，U2Fusion图像背景细节不够明显，IVFusion由于手动设计融合策略导致融合结果失真严重，如吉普车、村庄、汽车等，MDlatLRR由于传统设计的局限性，不能充分吸收红外图像的亮度信息，导致融合图像亮度不高，融合图像不够真实，如直升机、汽车等图片，SEAFusion取得了较为理想的融合结果，但与本文方法相比细节纹理信息保留不够好，如吉普车背景的云彩已经消失，本文方法的融合图像视觉效果较好，亮度上有提升，图像细节纹理较好地进行了保留。

图 3 训练和测试数据示例

Fig. 3 Some examples of training and testing

图 4 TNO数据集部分结果视觉对比

Fig. 4 Visual comparison of partial results of TNO dataset

图 5 RoadScene数据集部分结果视觉对比

Fig. 5 Visual comparison of partial results of RoadScene dataset

图 6 两个数据集中一些视觉结果实例

Fig. 6 Some visual samples in two datasets

在TNO与RoadScene数据集均取21对红外与可见光图像作为测试图像，然后分别在两个数据集求21幅融合图像的各指标平均值，指标均值如表 2所示，结果如图 7和图 8所示。可以看到，与其他9种方法相比，本文方法在4个评价指标中有3个为最优，另外一个次优，验证了本文方法的有效性。同时，在TNO和RoadScene数据集各取一幅融合图像进行详细展示，如图 4和图 5所示，取局部放大与伪彩展示，可以看出，本文融合方法在纹理细节、亮度、图像平滑度、结构相似度和信息保真度等方面均有不错效果，指标均值表明了本文方法的有效性，同时，在TNO和RoadScene数据集各取一幅融合图像进行详细展示, 可以看出本文方法达到了较为理想的融合效果。

表 2 TNO/RoadScene数据集不同融合方法的21对图像各指标平均值
Table 2 The mean values of each index of 21 pairs of images with different fusion methods in TNO/RoadScene dataset

下载CSV

方法	TNO				RoadScene
方法	$ Q_\text{ABF}$↑	$ \text{IFC}$↑	$ Q_\text{NCIE}$↑	$ Q_Y$↑	$ Q_\text{ABF}$↑	$ \text{IFC}$↑	$ Q_\text{NCIE}$↑	$ Q_Y$↑
DIDFuse(2021)	0.405 7	2.211 7	0.471 4	0.683 1	0.425 8	1.911 5	0.400 5	0.675 0
MDlatLRR(2020)	0.417 1	2.761 0	0.469 3	0.736 6	0.430 1	2.083 0	0.412 4	0.700 5
Bayesian(2020)	0.439 8	3.052 2	0.409 5	0.793 4	0.321 1	1.883 0	0.275 0	0.677 6
DualFuse(2021)	0.345 0	2.425 7	0.320 8	0.665 3	0.288 2	1.390 8	0.178 6	0.493 1
U2Fusion (2020)	0.344 5	2.216 5	0.345 2	0.671 7	0.265 4	1.344 3	0.161 7	0.512 2
IVFusion(2021)	0.269 9	2.806 0	0.351 6	0.623 9	0.273 7	2.438 2	0.263 2	0.639 7
RFN-Nest(2021)	0.362 0	2.471 0	0.336 8	0.670 7	0.309 2	1.563 7	0.236 0	0.575 1
NestFuse(2020)	0.368 2	2.284 3	0.535 4	0.718 1	0.442 3	2.308 2	0.391 8	0.720 5
SEAFusion(2022)	0.433 0	2.574 1	0.443 9	0.761 8	0.408 9	1.994 0	0.399 2	0.686 1
本文	0.486 7	3.109 9	0.581 3	0.771 0	0.503 4	2.345 8	0.565 1	0.727 8
注：加粗和加下划线字体分别表示各列最优和次优结果，↑表示值越高越好。

图 7 TNO数据集下的指标折线图

Fig. 7 The line charts of four metrics in TNO dataset

图 8 RoadScene数据集下的指标折线图

Fig. 8 The line charts of four metrics in RoadScene dataset

2.3 讨论

为了说明本文融合方法的完备性，对损失函数中平衡因子$λ$做参数讨论，取不同值进行指标评价；同时对网络结构和损失函数进行消融分析，对网络结构中多尺度引导与无多尺度引导进行对比，说明本文方法引导的必要性，对亮度加权损失和结构张量损失分别进行消融实验，对比表明两类损失函数设计的有效性。

对损失函数表达式中$ λ$做参数分析，结果如表 3所示。可见，$λ$取1时结果较好。

表 3 TNO数据集下$ λ$不同取值对应的指标均值
Table 3 Average values of indices corresponding to different values of lent in TNO dataset

下载CSV

$ λ$	$Q_\text{ABF}$↑	IFC↑	$ Q_\text{NCIE}$↑	$Q_Y $↑
0.8	0.451 1	2.475 7	0.506 1	0.738 1
0.9	0.447 6	2.472 4	0.501 3	0.735 0
1	0.486 7	3.109 9	0.581 3	0.771 0
1.1	0.434 9	2.443 3	0.461 7	0.724 7
1.2	0.447 6	2.468 3	0.500 0	0.735 1
1.3	0.446 3	2.471 6	0.498 8	0.734 2
1.4	0.451 6	2.479 2	0.505 1	0.737 8
注：↑表示值越高越好。

分别对网络结构中的引导和损失函数进行消融。对网络结构消融分析时，去除网络引导部分，单纯进行编解码器的图像融合；对损失函数消融时，分别对$L_1 $与$ L_2$消融，验证保证项与结构张量的有效性，消融实验结果如表 4和表 5所示。结果表明，本文方法中网络结构的多尺度引导实现了较为充分的信息交互，对于编码部分的信息及时加以引导，融入解码网络，对于融合图像起到了积极的作用；对于损失函数中亮度的加权，能够表明，本文方法对红外显著的提取有效约束了目标的显著性，对于融合图像的目标捕获起到促进作用，体现在视觉上，本文方法融合图像亮度较为突出；对于损失函数中结构张量的约束，本文方法在融合图像纹理细节上较为友好。通过主观和客观对比，融合图像背景较大保留，融合指标较为优越。本文方法从红外与可见光图像自身特点出发，对红外的亮度信息有效提取，对可见光纹理细节有效保留，在网络结构上，多尺度、多层次引导实现特征图尺寸变化以及特征信息有效融合，较好地实现了红外与可见光图像融合任务。

表 4 TNO数据集下对结构消融分析
Table 4 Ablation analysis of structure under TNO dataset

下载CSV

		$Q_\text{ABF}$↑	IFC↑	$ Q_\text{NCIE}$↑	$Q_\text{Y} $↑
Network	无网络引导	0.406 2	2.257 7	0.451 9	0.701 3
Network	有网络引导	0.486 7	3.109 9	0.581 3	0.771 0
注：加粗字体表示各列最优结果。↑表示值越高越好。

表 5 TNO数据集下对损失消融分析
Table 5 Ablation analysis of loss under TNO dataset

下载CSV

		$Q_\text{ABF}$↑	IFC↑	$ Q_\text{NCIE}$↑	$Q_\text{Y} $↑
损失函数	$L = L1 $	0.318 9	1.596 4	0.385 4	0.619 0
	$ L = L2$	0.451 6	2.478 7	0.507 5	0.738 1
	$ L=L1+λL2$	0.486 7	3.109 9	0.581 3	0.771 0
注：加粗字体表示各列最优结果。↑表示值越高越好。

本文方法主要对红外与可见光图像融合做了分析，损失函数的设计对红外图像的亮度显著信息作为加权保真项，可见光图像较好的纹理信息作为正则项。然而，对其他多模态图像融合任务没有详细讨论，如遥感图像融合，但本文的网络结构原理依旧适用于该任务，因此，未来还将积极探索遥感图像融合，设计基于此的损失函数并优化网络结构。

3 结论

针对传统图像融合方法中手工设计导致图像失真问题，针对现有深度学习方法中图像融合信息交互不充分问题，提出一种基于多尺度的细节保留与显著性检测的红外与可见光图像融合方法。此外，本文设计的多级引导结构不同于传统的编解码结构，对特征图进行多级融合与有效引导，从红外与可见光图像自身现实出发，本文方法设计的损失函数包括加权保真项和正则项，其中加权保真项对红外热显著信息有效提取，保证融合图像热目标不丢失，另一个损失通过结构张量对可见光细致的纹理进行保留，使得融合结果包含丰富的纹理细节信息。本文方法在两个数据集上进行了实验验证，从视觉效果和定量分析两方面证明了该方法的有效性。与其他红外与可见光算法相比，本文方法的融合图像在视觉保真度、亮度凸显等方面表现卓越，在有效亮度提取的前提下，还对图像纹理细节进行了保留，场景信息、纹理信息更为丰富。并通过实验验证了方法的有效性、可靠性和优越性。实验结果表明：1)本文方法采用多层次、宽领域和多尺度的网络结构，能够全方位捕获图像的关键信息，造成的信息丢失较小；2)对红外的亮度进行有效提取，有效针对有用信息进行加权；3)从人眼视觉出发，对图像纹理细节通过结构张量进行有效保存，使得融合图像更为真实，给人视觉上的舒适感。从视觉出发，能够主观看到本方法融合图像质量较高；从客观出发，与其他9种融合方法(包含传统方法3种，深度学习方法6种)进行对比，在指标评价上表明本文方法融合质量较好。

本文方法目前的实验数据仅限于红外与可见光图像，下一步的工作是优化目前的网络结构，使之能够自适应根据源图像不同特点提取不同的有效信息，适应其他的多模态融合任务，并使模型具有更强的泛化性与可移植性。在损失函数的设计上，不局限于红外与可见光图像，可用于其他多模态图像，例如遥感图像融合。

参考文献

Bavirisetti D P, Dhuli R. 2016. Two-scale image fusion of visible and infrared images using saliency detection. Infrared Physics and Technology, 76: 52-64 [DOI:10.1016/j.infrared.2016.01.009]

Burt P J and Adelson E H. 1987. The Laplacian pyramid as a compact image code//Proceedings of Readings in Computer Vision: Issues, Problems, Principles, and Paradigms. San Francisco, USA: Morgan Kaufmann Publishers Inc. : 671-679

Chen J, Li X J, Luo L B, Mei X G, Ma J Y. 2020. Infrared and visible image fusion based on target-enhanced multiscale transform decomposition. Information Sciences, 508: 64-78 [DOI:10.1016/j.ins.2019.08.066]

Chen M S. 2016. Image fusion of visual and infrared image based on NSCT and compressed sensing. Journal of image and Graphics, 21(1): 39-44 (陈木生. 2016. 结合NSCT和压缩感知的红外与可见光图像融合. 中国图象图形学报, 21(1): 39-44) [DOI:10.11834/jig.20160105]

Fu Y and Wu X J. 2021. A dual-branch network for infrared and visible image fusion//Proceedings of the 25th International Conference on Pattern Recognition (ICPR). Milan, Italy: IEEE: 10675-10680 [DOI: 10.1109/ICPR48806.2021.9412293]

Iandola F, Moskewicz M, Karayev S, Girshick R, Darrell T and Keutzer K. 2014. DenseNet: implementing efficient ConvNet descriptor pyramids [EB/OL]. [2022-04-07]. https://arxiv.org/pdf/1404.1869/pdf

Jung H, Kim Y, Jang H, Ha N, Sohn K. 2020. Unsupervised deep image fusion with structure tensor representations. IEEE Transactions on Image Processing, 29: 3845-3858 [DOI:10.1109/TIP.2020.2966075]

Li G F, Lin Y J, Qu X D. 2021a. An infrared and visible image fusion method based on multi-scale transformation and norm optimization. Information Fusion, 71: 109-129 [DOI:10.1016/j.inffus.2021.02.008]

Li G L, Xiang W H, Zhang S L, Zhang B X. 2022. Infrared and visible image fusion algorithm based on residual network and attention mechanism. Unmanned Systems Technology, 5(2): 9-21 (李国梁, 向文豪, 张顺利, 张博勋. 2022. 基于残差网络和注意力机制的红外与可见光图像融合算法. 无人系统技术, 5(2): 9-21) [DOI:10.19942/j.issn.2096-5915.2022.2.012]

Li H, Wu X J. 2019. DenseFuse: a fusion approach to infrared and visible images. IEEE Transactions on Image Processing, 28(5): 2614-2623 [DOI:10.1109/TIP.2018.2887342]

Li H, Wu X J, Durrani T. 2020a. NestFuse: an infrared and visible image fusion architecture based on nest connection and spatial/channel attention models. IEEE Transactions on Instrumentation and Measurement, 69(12): 9645-9656 [DOI:10.1109/TIM.2020.3005230]

Li H, Wu X J and Kittler J. 2018. Infrared and visible image fusion using a deep learning framework//Proceedings of the 24th International Conference on Pattern Recognition. Beijing, China: IEEE: 2705-2710 [DOI: 10.1109/ICPR.2018.8546006]

Li H, Wu X J, Kittler J. 2020b. MDLatLRR: a novel decomposition method for infrared and visible image fusion. IEEE Transactions on Image Processing, 29: 4733-4746 [DOI:10.1109/TIP.2020.2975984]

Li H, Wu X J, Kittler J. 2021b. RFN-Nest: an end-to-end residual fusion network for infrared and visible images. Information Fusion, 73: 72-86 [DOI:10.1016/j.inffus.2021.02.023]

Li S S, Hong R C and Wu X Q. 2008. A novel similarity based quality metric for image fusion//Proceedings of 2008 International Conference on Audio, Language and Image Processing. Shanghai, China: IEEE: 167-172 [DOI: 10.1109/ICALIP.2008.4589989]

Li S T, Kang X D, Hu J W. 2013. Image fusion with guided filtering. IEEE Transactions on Image Processing, 22(7): 2864-2875 [DOI:10.1109/TIP.2013.2244222]

Li Y F, Li J, He L. 2022. Convolutional neural network based single image pair method for spatiotemporal fusion. National Remote Sensing Bulletin, 26(8): 1614-1623 (李云飞, 李军, 贺霖. 2022. 单样本对卷积神经网络遥感图像时空融合. 遥感学报, 26(8): 1614-1623) [DOI:10.11834/jrs.20219348]

Liu C H, Qi Y, Ding W R. 2017. Infrared and visible image fusion method based on saliency detection in sparse domain. Infrared Physics and Technology, 83: 94-102 [DOI:10.1016/j.infrared.2017.04.018]

Liu M W, Wang R H, Li J, Jiao Y Z. 2021. Infrared and visible image fusion with multi-scale anisotropic guided filtering. Journal of Image and Graphics, 26(10): 2421-2432 (刘明葳, 王任华, 李静, 焦映臻. 2021. 各向异性导向滤波的红外与可见光图像融合. 中国图象图形学报, 26(10): 2421-2432) [DOI:10.11834/jig.200339]

Nie R C, Ma C Z, Cao J D, Ding H W, Zhou D M. 2021. A total variation with joint norms for infrared and visible image fusion. IEEE Transactions on Multimedia, 24: 1460-1472 [DOI:10.1109/TMM.2021.3065496]

Ronneberger O, Fischer P and Brox T. 2015. U-net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241 [DOI: 10.1007/978-3-319-24574-4_28]

Sheikh H R, Bovik A C, De Veciana G. 2005. An information fidelity criterion for image quality assessment using natural scene statistics. IEEE Transactions on Image Processing, 14(12): 2117-2128 [DOI:10.1109/TIP.2005.859389]

Tang L F, Yuan J T, Ma J Y. 2022. Image fusion in the loop of high-level vision tasks: a semantic-aware real-time infrared and visible image fusion network. Information Fusion, 82: 28-42 [DOI:10.1016/j.inffus.2021.12.004]

Wang Q, Shen Y and Jin J. 2008. Performance evaluation of image fusion techniques//Image Fusion: Algorithms and Applications. London: Academic Press: 469-492 [DOI: 10.1016/B978-0-12-372529-5.00017-2]

Xu H, Ma J Y, Jiangć J J, Guo X J, Ling H B. 2022. U2Fusion: a unified unsupervised image fusion network. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(1): 502-518 [DOI:10.1109/TPAMI.2020.3012548]

Xydeas C S, Petrovic V. 2000. Objective image fusion performance measure. Electronics Letters, 36(4): 308-309 [DOI:10.1049/el:20000267]

Yang Y, Tong S, Huang S Y. 2015. Image fusion based on fast discrete curvelet transform. Journal of Image and Graphics, 20(2): 219-228 (杨勇, 童松, 黄淑英. 2015. 快速离散Curvelet变换域的图像融合. 中国图象图形学报, 20(2): 219-228) [DOI:10.11834/jig.20150208]

Zhang B H, Lu X Q, Pei H Q, Zhao Y. 2015. A fusion algorithm for infrared and visible images based on saliency analysis and non-subsampled Shearlet transform. Infrared Physics and Technology, 73: 286-297 [DOI:10.1016/j.infrared.2015.10.004]

Zhang Q, Huang N C, Yao L, Zhang D W, Shan C F, Han J G. 2020. RGB-T salient object detection via fusing multi-level CNN features. IEEE Transactions on Image Processing, 29: 3321-3335 [DOI:10.1109/TIP.2019.2959253]

Zhao Z X, Xu S, Zhang C X, Liu J M, Li P F and Zhang J S. 2021. DIDFuse: deep image decomposition for infrared and visible image fusion [EB/OL]. [2022-04-08]. https://arxiv.org/pdf/200309210.pdf

Zhao Z X, Xu S, Zhang C X, Liu J M, Zhang J S. 2020. Bayesian fusion for infrared and visible images. Signal Processing, 177: #107734 [DOI:10.1016/j.sigpro.2020.107734]