发布时间: 2023-01-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.220517
2023 | Volume 28 | Number 1

红外与可见光图像融合

多尺度分解和八度卷积相结合的红外与可见光图像融合

张子晗, 吴小俊, 徐天阳

1. 江南大学人工智能与计算机学院, 无锡 214122;

2. 江南大学江苏省模式识别与计算智能工程实验室, 无锡 214122

收稿日期: 2022-06-10; 修回日期: 2022-09-05; 预印本日期: 2022-09-12

基金项目: 国家自然科学基金项目(62020106012，U1836218，61672265)；中国教育部111项目(B12018)

作者简介: 张子晗，男，硕士研究生，主要研究方向为图像融合。E-mail: zzh1561193380@163.com
吴小俊，通信作者，男，教授，主要研究方向为人工智能、模式识别、计算机视觉。E-mail: xiaojun_wu_jnu@163.com
徐天阳，男，副教授，主要研究方向为人工智能、模式识别、计算机视觉。E-mail: tianyang_xu@163.com
*通信作者: 吴小俊 xiaojun_wu_jnu@163.com

中图法分类号: TP391.7

文献标识码: A

文章编号: 1006-8961(2023)01-0179-17

摘要

目的在基于深度学习的红外与可见光图像融合方法中，多尺度分解是一种提取不同尺度特征的重要方式。针对传统多尺度分解方法里尺度设置粗糙的问题，提出了一种基于八度(octave)卷积的改进图像融合算法。方法融合方法由4部分组成：编码器、特征增强、融合策略和解码器。首先，使用改进后的编码器获取源图像的多尺度上的低频、次低频和高频特征。这些特征会被从顶层到底层进行强化。其次，将这些特征按照对应的融合策略进行融合。最后，融合后的深度特征由本文设计的解码器重构为信息丰富的融合图像。结果实验在TNO和RoadScene数据集上与9种图像融合算法进行比较。主观评价方面，所提算法可以充分保留源图像中的有效信息，融合结果也符合人的视觉感知；客观指标方面，在TNO数据集上所提算法在信息熵、标准差、视觉信息保真度、互信息和基于小波变换提取局部特征的特征互信息5个指标上均有最优表现，相较于9种对比方法中最优值分别提升了0.54%，4.14%，5.01%，0.55%，0.68%。在RoadScene数据集上所提算法在信息熵、标准差、视觉信息保真度和互信息4个指标上取得了最优值，相较9种对比方法的最优值分别提升了0.45%，6.13%，7.43%，0.45%，基于小波变换提取局部特征的特征互信息与最优值仅相差0.002 05。结论所提融合方法在主观和客观评估中都取得了优秀的结果，可以有效完成图像融合任务。

关键词

图像处理; 图像融合; 八度卷积; 红外图像; 可见光图像

Multi-scale decomposition and octave convolution based infrared and visible image fusion

Zhang Zihan, Wu Xiaojun, Xu Tianyang

1. School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China;

2. Jiangsu Provincial Laboratory of Pattern Recognition and Computational Intelligence, Jiangnan University, Wuxi 214122, China

Supported by: National Natural Science Foundation of China (62020106012, U1836218, 61672265); the 111 Project of Ministry of Education of China(B12018)

Abstract

Objective Image fusion can be as one of the processing techniques in the context of computer vision, which aims to integrate the salient features from multiple input images into a complicated image. In recent years, image fusion approaches have been involved in applications-relevant like video clips analysis and medical-related interpretation. Generally, the existing fusion algorithms consist of two categories of methods: 1) traditional-based and 2) deep learning-based. Most traditional methods have introduced the signal processing operators for image fusion and the completed fusion task. However, the feature extraction and fusion rules are constrained of human-labeled methods. The feature extraction and fusion rule are quite complicated for realizing better fusion results. Thanks to the rapid development of deep learning, current image fusion methods have been facilitated based on this technique. Multi-scale decomposition can be as an effective method to extract the features for deep learning-based infrared image and visible image fusion. To alleviate the rough scale settings in the traditional multi-scale decomposition methods, we develop an improved octave convolution-based image fusion algorithm. Deep features can be divided in terms of octave convolution-based frequency. Method Our fusion method is composed of four aspects as following: 1) encoder, 2) feature enhancement, 3) fusion strategy and 4) decoder. The encoder extracts deep features on four scales source image-derived through convolution and pooling. The deep features-extracted of each scale are subdivided into low-frequency, sub low-frequency and high-frequency features in terms of octave convolution. For enhancement phase, high-level features are added to low-level features for feature enhancement between different scales. High-level high-frequency features are utilized to enhance low-level sub low-frequency features, and high-level sub low-frequency features are utilized to enhance low-level low-frequency features. The low-frequency, sub low-frequency and high-frequency features of each scale are fused based on multiple fusion strategies. To produce the informative fused image, the features-fused are reconstructed via the designed decoder. In our experiment, all requirements are based on the Ubuntu system with NVIDIA GTX 1080Ti GPU. The Python version is 3.6.10 and the PyTorch is used for implementation. For training phase, the network does not use the fusion strategy. The pairs of infrared and visual images are not required for network training because it just needs deep features extraction and image reconstruction with these deep features. We choose 80 000 images from the dataset MS COCO(Microsoft common objects in context) as the training set of our auto-encoder network, which is converted to grayscale and then resized to 256×256 pixels. Adam optimizer is utilized to optimize our model. The learning rate, batch size and epochs are set as 1×10^-4, 1 and 2 of each. After the training, the network can complete the image fusion task. First, the improved encoder is used to obtain the low-frequency, sub low-frequency and high-frequency features of the source image in multiple scales. These features can be enhanced between top and bottom levels. Second, these features are fused in terms of multiple fusion strategy. Finally, to obtain the informative fused image, the features-fused are reconstructed in terms of the designed decoder. Result The proposed fusion algorithm is compared to 9 sorts of existing image fusion algorithms on TNO and RoadScene datasets, and all image fusion algorithms are evaluated qualitatively and quantitatively. This algorithm can fully keep the effective natural-relevant information between the source image and the fused results. It is still challenged to evaluate some algorithms quantitatively, so we choose the 6 objective metrics to evaluate the fusion performance of these methods. Compared with other algorithms on TNO dataset, the proposed algorithm achieves the best performance in five indicators: 1) entropy, 2) standard deviation, 3) visual information fidelity, 4) mutual information and 5) wavelet transform-based feature mutual information. Compared with the best values in the above five metrics of nine existing fusion algorithms, an average increase of are outreached 0.54%, 4.14%, 5.01%, 0.55%, 0.68% of each further. The performance of our algorithm-developed on RoadScene dataset is consistent with that on TNO dataset basically. The best values are obtained in 4 kinds of quality metrics: a) entropy, b) standard deviation, c) visual information fidelity, and d) mutual information. Compared to the 9 sort of existing methods, the best values of the four metrics are increased by 0.45%, 6.13%, 7.43%, and 0.45%, respectively. The gap between the value of our algorithm and the best value is only 0.002 05 in wavelet transform-based feature mutual information. Conclusion A novel and effective deep learning architecture is developed for infrared and visible image fusion analysis based on convolutional neural network and octave convolution. This network structure can make full use of multi-scale deep features. The octave convolution makes a more detailed division of the extracted features and the appropriated fusion strategies can be selected for these deep features further. Because low-frequency, sub low-frequency and high-frequency features are divided in each scale, more appropriated features can be selected to enhance low-level features in the feature enhancement phase. The experimental results show that our algorithm has its potentials in image fusion according to qualitative and quantitative evaluation.

Key words

image processing; image fusion; octave convolution; infrared image; visible image

0 引言

图像融合是计算机视觉领域一种重要的图像处理技术，旨在将多幅输入图像的显著特征集成到一幅图像上以增强其感知性(Piella，2003)。图像融合方法广泛用于实际应用，如视频分析和医学分析(Xu等，2019a；周涛等，2021)。大体上，现存的图像融合方法可以分为两种：传统方法(Nunez等，1999；殷明等，2016；Li等，2020c)和基于深度学习的方法(Xu等，2019b, c；Xu等，2020a；Li等，2018；Li和Wu，2019)。

大多数传统方法通过将信号处理方法引入图像融合领域完成融合任务。Yang和Li(2010)使用稀疏表示处理多聚焦图像融合。Li等人(2020b)将多尺度分解和潜在低秩表示相结合来更好地提取图像中的显著特征。但是在这些融合方法中，都必须手动设计特征提取方式和融合策略。而为了取得更好的融合结果，特征提取方式和融合策略也设计得越来越复杂。同时，在数据量较大的情况下，传统图像融合方法的效率较低。

随着深度学习的快速发展，涌现了许多基于深度学习的图像融合方法。Liu等人(2017)提出了一种使用卷积神经网络(convolutional neural network, CNN)进行多聚焦图像融合的方法。Li等人(2018)针对红外和可见光图像融合任务提出了一种基于稠密块(dense block)的网络结构。除此以外，Ma等人(2019)还将生成对抗网络(generative adversarial network，GAN)(Goodfellow等，2014)也引入到图像融合领域之中，通过无监督的生成对抗网络完成红外和可见光图像的融合任务。这些基于深度学习的融合方法一定程度上缓解了传统方法的不足，但在不同尺度下，深度特征的侧重点不同，而以上这些基于深度学习的方法并没有考虑到多尺度信息。基于这一点，Li等人(2020a)又提出一种基于鸟巢(nest)连接的融合方法。这种方法提取了源图像的多尺度深度特征，并将提取到的特征在对应的尺度上融合，再由融合后的特征重构出信息丰富的最终融合图像。该方法针对红外与可见光图像的融合任务完成得十分出色。从融合结果上看，将特征在多尺度上分别进行融合是十分有效的，但是该方法仅保持在4个尺度上分别进行融合，没有探索对特征更细致的分解是否可以进一步提升网络的融合性能。

针对上述问题，本文提出了一种基于八度(octave)卷积(Chen等，2019)的深度融合算法OctaveFuse。算法的主要改进如下：

1) 为了对特征进行更细致的分解，提出的方法将八度卷积结构应用于深度融合框架之中。在提取源图像多尺度深度特征的基础上，每个尺度依据频率对深度特征进一步划分。同时所提算法也没有拘泥于原始的八度卷积结构，实验探索出了更适合图像融合任务的三分支八度卷积结构，通过一个卷积块提取出单个尺度下的高频特征、次低频特征和低频特征，用于后续针对性处理。

2) 本文方法使用高层特征对低层特征进行增强，使编码器提取到的多尺度特征在层之间也进行交互。同时针对每个尺度上不同频率特征所包含信息的区别，对增强方式进行了改进。本文方法认为高层的高频特征比低层的高频特征更接近于低层的次低频与低频特征，使用相近的特征进行增强可能会比简单的对应相加产生更好的结果。通过实验确立了使用高层高频特征增强低层次低频特征，并使用高层次低频特征增强低层低频特征这种特征增强方式。

3) 源图像的细节更多地被保留在高频特征中，因此对所有提取到的特征都采用相同的融合方式是不合适的。为了平衡不同频率特征所包含的不同信息，同时考虑到基于空间注意力与基于通道注意力两种融合方式的区别，本文方法对融合策略进行改进，不同频率的特征采用更加适宜的融合方法。

4) 实验结果表明，所提出的融合算法无论是主观评价还是客观指标方面都十分具有竞争性。

1 八度卷积

Chen等人(2019)所提出的八度卷积结构如图 1所示。图中，$H$和$W$分别是输入特征图原始的高和宽。$C_\text{in}$和$C_\text{out}$则分别是输入的通道数以及输出的通道数。$α_\text{in}$是八度卷积模块的输入特征图中，缩小了尺寸的低频特征图(即图 1中第2行分支的输入特征图)通道数在输入特征图的总通道数($C_\text{in}$)中所占的比例。在所提算法的网络结构中，$α_\text{in}$的取值范围是0~1。$α_\text{out}$是八度卷积模块输出特征图中，低频特征图(即图 1中第2行分支的输出特征图)通道数在输出特征图的总通道数($C_\text{out}$)中所占的比例，取值范围与$α_\text{in}$相同。当$α_\text{in}$和$α_\text{out}$均为0时，八度卷积就变成了传统卷积形式。“conv”表示传统卷积操作，“pooling”表示自适应均值池化，“upsampling”表示上采样操作。

图 1 八度卷积结构

Fig. 1 Structure of octave convolution

该结构在普通的卷积基础上添加了一条新的分支来处理低频信息，低频特征图宽和高均为高频特征图的一半，通道数占总特征图的比例根据实际情况进行选择。进行卷积时，高频特征图和低频特征图分别进行卷积，然后输入的高频特征图在池化后进行卷积并加到卷积后的低频特征图上作为八度卷积模块的低频输出，输入的低频特征图在上采样后进行卷积并加到卷积后的高频特征上作为八度卷积模块的高频输出。

这种卷积方式内存消耗较低，而且可以直接应用到许多基于深度学习的算法中，直接替换普通卷积方式，并不会破坏原先的网络结构。同时，低频特征图因其更小的尺寸，卷积时会具有更大的感受野，所提取到的特征信息相对普通卷积得到的特征更加丰富。因此，这种卷积方式很适合运用到特征提取模块之中，使同一个卷积块提取到两种不同频率的信息，也可以根据信息的特点对融合策略进行更细致的选择。

2 所提算法模型

2.1 算法模型

2.1.1 网络结构

所提网络模型结构如图 2所示，网络由编码器、特征增强、融合层和解码器4个部分组成。$\boldsymbol{I}_\text{1}$和$\boldsymbol{I}_\text{2}$分别代表一对配准好的红外图像和可见光图像。$\boldsymbol{O}$代表融合后的图像。

图 2 所提网络结构

Fig. 2 Structure of proposed network

“OctaveConv”表示一层八度卷积层。“EOCB”和“DOCB”分别是编码器和解码器里的八度卷积块，每个八度卷积块包含两个八度卷积层。“Pooling”代表最大池化操作，最大池化算子的尺寸设置为2×2。“up”表示上采样操作。“p1”, “p2”和“p3”是本文方法提出的特征增强方法。“FS”是所提方法的融合策略。

2.1.2 三分支八度卷积结构

在所提算法中，对原始的八度卷积结构进行了改进，使它对图像融合的特征提取任务有更好的表现。算法中使用的三分支八度卷积结构如图 3所示。结构的选择将在3.2.2节进行讨论。

图 3 所提算法中的八度卷积结构

Fig. 3 Structure of octave convolution of proposed algorithm

如图 3所示，本文在Chen等人(2019)提出的八度卷积结构上进行改进，在高频分支和低频分支间增加了一条分支用于提取图像的次低频特征。该模块输入并非是一组尺寸相同的特征图，而是具有3种不同尺寸的特征图的组合，它的输出也同样是3种不同尺寸的特征图组合。

图 3中各个符号和参数含义与图 1中相同，不再赘述。因为新增加了一条分支，$α_\text{in}$和$α_\text{out}$的取值范围变化为0~0.5。

在本实验中，编码器的“OctaveConv”模块里，$α_\text{in}$设置为0；解码器的“OctaveConv”模块里，$α_\text{out}$被设置为0。其余所有地方的$α_\text{in}$和$α_\text{out}$均设置为0.125，值的选择将在3.2.2节进行讨论。使用八度卷积这种方式，使得网络每一次卷积都可以得到原尺寸的高频特征、较小尺寸的次低频特征以及更小尺寸的低频特征。而在卷积过程中，不同频率的信息也会进行交互。

2.1.3 特征增强结构

所提方法中，特征增强的结构如图 4所示。图 4是图 1中的特征增强模块“p1”的内部结构，“p2”和“p3”与其结构相同。

图 4 图像增强模块结构

Fig. 4 Structure of image enhancement module

具体来说，编码器从源图像提取出多尺度特征以后，本文方法使用高层的特征去增强低层的特征。而八度卷积在每一层上提取到的特征图实际上是3个不同频率特征图的组合。本文方法认为高层的高频特征比低层的高频特征更接近于低层的次低频与低频特征，所以在进行增强时尝试了多种组合，这将在3.2.3节进行讨论。最终本文方法选择将高层的高频特征加到低层的次低频特征上，将高层的次低频特征加到低层的低频特征上来增强低层特征。以此类推，除了最高层外，每一尺度上的次低频特征与低频特征都得到了增强。

综上所述，本文方法首先使用深度神经网络分别提取红外图像与可见光图像的多尺度特征，每个尺度上的特征都是一个包含3个频率特征图的组合。然后，提取到的特征通过特征增强模块从高层到低层进行层层递进的增强，使得每一层特征都具有丰富的语义信息。接着这些增强后的特征作为融合层的输入，使用合适的融合策略进行融合。融合策略将在2.2节介绍。最后，解码器将这些融合后的特征重构生成一幅融合图像。

2.2 融合策略

图像融合方法中有许多效果较好的图像融合策略。但是，这些融合策略大多数只是将提取到的特征级联起来或者是仅计算图像的空间信息来进行融合。针对这种情况，Li等人(2020a)提出了一种基于通道注意力机制的特征融合方法进行补充，完成了一种基于空间和通道注意力机制的融合策略，其结构如图 5所示。

图 5 基于注意力模型的融合策略结构

Fig. 5 The procedure of attention model-based fusion strategy

图 5中，$m$表示参与融合的深度特征属于编码器提取出的第几层特征，在本文网络中，$m$的最大值是4。$\boldsymbol{\phi}^{m}_{1}$和$\boldsymbol{\phi}^{m}_{2}$分别表示从红外图像和可见光图像上提取到的特征信息。$\hat{\boldsymbol{\phi}}_{\mathrm{f}}^m$表示由空间注意力模块得到的融合特征，$\widetilde{\boldsymbol{\phi}}_{\mathrm{f}}^m$则表示由通道注意力模块获取的融合特征。$\boldsymbol{\phi}^{m}_\text{f}$是第$m$层最终的融合结果，作为该层融合层的输出。其中，由$\hat{\boldsymbol{\phi}}_{\mathrm{f}}^m \text {和} \widetilde{\boldsymbol{\phi}}_{\mathrm{f}}^m$计算$\boldsymbol{\phi}^{m}_\text{f}$的表达式为

$ \boldsymbol{\phi}_{\mathrm{f}}^m=\left(\hat{\boldsymbol{\phi}}_{\mathrm{f}}^m+\widetilde{\boldsymbol{\phi}}_{\mathrm{f}}^m\right) \times 0.5 $

(1)

2.2.1 空间注意力模块

空间注意力模型为很多融合方法所采用(Li和Wu，2019)，基于它的融合策略结构如图 6所示。

图 6 基于空间注意力模型的融合策略结构

Fig. 6 The procedure of spatial attention model-based fusion strategy

本文方法对深度特征$\boldsymbol{\phi}^{m}_{1}$和$\boldsymbol{\phi}^{m}_{2}$使用$\text{L}_{1}$范数和softmax算子来生成权重图$\boldsymbol{\beta}^{m}_{1}$和$\boldsymbol{\beta}^{m}_{2}$，计算为

$ \boldsymbol{\beta}_m^k(x, y)=\frac{\exp \left[\left\|\boldsymbol{\phi}_k^m(x, y)\right\|_1\right]}{\sum\limits_{i=1}^K \exp \left[\left\|\boldsymbol{\phi}_i^m(x, y)\right\|_1\right]} $

(2)

式中，$‖·‖_{1}$表示$\text{L}_{1}$范数，$k$表示该特征图来源图像。本文方法中，$k$的最大值($K$)是2。$W、H$和$C$分别表示深度特征的宽度、高度和通道数。使用($x$, $y$)来表示深度特征$\boldsymbol{\phi}^{m}_{1}$和$\boldsymbol{\phi}^{m}_{2}$与权重图$\boldsymbol{\beta}^{m}_{1}$和$\boldsymbol{\beta}^{m}_{2}$的对应位置。$\boldsymbol{\phi}^{m}_{k}(x, y)$是一个$C$维的向量。

基于空间注意力模块生成的融合特征计算为

$ \hat{\boldsymbol{\phi}}_{\mathrm{f}}^m(x, y)=\sum\limits_{i=1}^K \boldsymbol{\beta}_i^m(x, y) \times \boldsymbol{\phi}_i^m(x, y) $

(3)

2.2.2 通道注意力模块

提取出的特征图是3维的，仅考虑空间信息进行融合会使得部分信息丢失。Li等人(2020a)提出的基于通道注意力模块的融合策略对其进行了补足，其结构如图 7所示。

图 7 基于通道注意力模型的融合策略结构

Fig. 7 The procedure of channel attention model-based fusion strategy

与图 6中相同，$\boldsymbol{\phi}^{m}_{1}$和$\boldsymbol{\phi}^{m}_{2}$分别表示从红外图像和可见光图像上提取到的特征信息。$\boldsymbol{\alpha}^{m}_{1}$和$\boldsymbol{\alpha}^{m}_{2}$分别是从特征图$\boldsymbol{\phi}^{m}_{1}$和$\boldsymbol{\phi}^{m}_{2}$生成的权重向量，均为$C$维，计算为

$ \boldsymbol{\alpha}_k^m(n)=\frac{\exp \left\{P\left[\boldsymbol{\phi}_k^m(n)\right]\right\}}{\sum\limits_{i=1}^K \exp \left\{P\left[\boldsymbol{\phi}_i^m(n)\right]\right\}} $

(4)

式中，$k$的含义与式(2)中相同，表示特征图来源于哪一幅源图像，并且最大值($K$)也为2。$n$用来表示特征图$\boldsymbol{\phi}^{m}_{1}$和$\boldsymbol{\phi}^{m}_{2}$与权重向量$\boldsymbol{\alpha}^{m}_{1}$和$\boldsymbol{\alpha}^{m}_{2}$的对应通道。$P(·)$表示全局池化操作。

Li等人(2020a)提出的融合策略中，选择了3种全局池化方式：平均池化、最大池化以及核范数池化。平均池化和最大池化操作分别计算每个通道上特征图的平均值与最大值。核范数池化计算每个通道上各自的奇异值之和。根据Li等人(2020a)的实验结果，在所提方法中采取平均池化的全局池化方式。

基于通道注意力模块生成的融合特征计算为

$ \widetilde{\boldsymbol{\phi}}_{\mathrm{f}}^m(n)=\sum\limits_{i=1}^K \boldsymbol{\alpha}_i^m(n) \times \boldsymbol{\phi}_i^m(n) $

(5)

在Li等人(2020a)的方法中，每一层都采用相同的融合策略，融合特征都由式(1)得到。但在本文方法中，每一层提取到的特征又被更细致地划分出高频特征、次低频特征和低频特征。Li等人(2020a)提出对不同频率的特征应采用适当的融合方法。最终，本文方法对高频特征使用基于空间与通道注意力机制的融合策略，对次低频和低频特征使用基于空间注意力机制的融合策略。融合策略的选择将在3.2.4节进行介绍。

2.3 训练阶段

本文方法想要训练一个自编码网络，所以训练时从整体网络中移除了融合层。由编码器提取到的深度特征在进行特征增强以后直接作为解码器的输入去重构图像。这种训练方法的优势在于对于训练好的网络，融合策略可以根据不同的融合任务进行更换。训练阶段的网络结构如图 8所示，网络的一些参数设置见表 1，$C_\text{in}$和$C_\text{out}$随层数变化而变化。

图 8 训练阶段网络结构

Fig. 8 The network structure of training process

表 1 训练阶段网络的参数设置
Table 1 The parameter settings of the network in training phase

下载CSV

	层	尺寸	步长	输入通道数	输出通道数	激活函数
编码器	OctaveConv	1	1	1	16	ReLU
	EOCB10	-	-	16	64	-
	EOCB20	-	-	64	112	-
	EOCB30	-	-	112	160	-
	EOCB40	-	-	160	208	-
解码器	DOCB31	-	-	368	160	-
	DOCB21	-	-	272	112	-
	DOCB22	-	-	384	112	-
	DOCB11	-	-	176	64	-
	DOCB12	-	-	240	64	-
	DOCB13	-	-	304	64	-
	OctaveConv	1	1	64	1	-
编码器八度卷积块	OctaveConv	3	1	C_in	C_in/2	ReLU
编码器八度卷积块	OctaveConv	3	1	C_in/2	C_out	ReLU
解码器八度卷积块	OctaveConv	3	1	C_in	C_in/2	ReLU
解码器八度卷积块	OctaveConv	3	1	C_in/2	C_out	ReLU
注：“-”表示当前模块没有该项属性。

图 8中，$\boldsymbol{I}$是一幅用于训练的源图像，而$\boldsymbol{O}$是在编码器提取到的深度特征被增强以后，由解码器这些增强后的特征重构出的图像。

为了使网络重构出的图像$\boldsymbol{O}$更接近于源图像$\boldsymbol{I}$，本文方法使用损失函数$L_\text{total}$来训练所提出的网络，$L_\text{total}$计算为

$ L_{\text {total }}=L_{\text {pixel }}+\lambda L_{\text {ssim }} $

(6)

$L_\text{total}$由两部分组成：重构图像$\boldsymbol{O}$与源图像$\boldsymbol{I}$之间的像素损失($L_{pixel}$)和结构相似度损失($L_\text{ssim}$)(Zhou等，2004)。$λ$用来平衡像素损失和结构相似度损失，$λ$的值分别设置为1、10、100和1 000来进行实验，并在3.2.1节分析比较。计算像素损失

$ L_{\text {pixel }}=\|\boldsymbol{O}-\boldsymbol{I}\|_{\mathrm{F}}^2 $

(7)

式中，$\boldsymbol{O}$和$\boldsymbol{I}$分别是重构图像和源图像，$||·||_\text{F}$表示Frobenius范数。像素损失可以使重构图像$\boldsymbol{O}$在像素上更接近于源图像$\boldsymbol{I}$。

但是仅使用像素损失约束可能会产生模糊的视觉结果，所以又引入了结构相似度损失进行补充。结构相似度损失计算为

$ L_{\mathrm{ssim}}=1-f_{\mathrm{ssim}}(\boldsymbol{O}, \boldsymbol{I}) $

(8)

式中，$f_\text{ssim}(·)$表示计算两幅图像的结构相似度(structural similarity, SSIM)。SSIM从光照、对比度和结构方面衡量两幅图像的相似度。使用结构相似度进行约束可以使重构图像$\boldsymbol{O}$在结构上更接近于源图像$\boldsymbol{I}$。

在训练阶段，本文方法仅使用编码器提取深度特征，增强所提取特征后再交由解码器重构图像，所以并不需要成对的红外与可见光图像进行训练。本文方法从微软广泛场景下的物体(Microsoft common objects in context, MS COCO)(Lin等，2014)数据集中选择了80 000幅图像来训练所提网络，这些训练图像被转化成了灰度图像，并且尺寸也被设置为256×256像素。网络优化器为Adam，学习率设置为1×10^-4。网络共训练2个周期，批量池大小为1。

3 实验及结果分析

3.1 实验环境及评估标准

实验在操作系统Ubuntu 16.04上进行，编程语言为Python 3.6，深度学习框架为Pytorch，CPU为Intel i7-6850K，GPU为NVIDIA GTX 1080Ti。

从TOET(2014)和Ma等人(2017)的方法中选择了21对红外与可见光图像作为实验的测试集，称为TNO数据集。该测试集均为真实的红外与可见光图像，同时也被许多现有的红外与可见光图像融合算法作为测试集，具有代表性。除此以外，本文方法还从Xu等人(2020b)的方法中选择了50对红外与可见光图像作为实验补充。该测试集为真实的道路场景图像。

对融合结果从主观评价和客观指标两个方面进行评价，本文选择了9种现有的经典图像融合算法进行比较，包括基于离散余弦波的小波变换算法(discrete cosine harmonic wavelet transform, DCHWT)(Kumar，2013)、基于视觉显著性图和加权最小二乘优化的算法(weighted least square, WLS)(Ma等，2017)、基于卷积稀疏表示的算法(convolutional sparse representation, ConvSR)(Liu等，2016)、基于VGG(Visual Geometry Group)网络多层深度特征融合的算法(VGG multi-layers, VGGML)(Li等，2018)、基于密集连接的自编码网络融合算法(DenseFuse)(Li和Wu，2019)、基于生成对抗网络的算法(FusionGAN)(Goodfellow等，2014)、基于通用融合网络的融合算法(image fusion framework based on convolutional neural network, IFCNN)(Zhang等，2020)、基于巢连接的融合算法(NestFuse)(Li等，2020a)、基于残差结构的端对端图像融合算法(RFN-Nest)(Li等，2021)。这些方法的代码均可以从原论文中获取。

为了客观地比较不同方法，本文选择了6个评价指标来衡量融合结果，包括：信息熵(entropy, En)(Roberts等，2008)、标准差(standard deviation, SD)(Rao，1997)、改进的结构相似度(structural similarity, SSIM_{a})(Zhou等，2004)、视觉信息保真度(visual information fidelity, VIF)(Han等，2013)、互信息(mutual information, MI)(Sulaiman和Labadin，2015)、基于小波变换提取局部特征的特征互信息(feature mutual information based on wavelet transform, FMI_w)(Haghighat和Razian，2014)。

在本次实验中，改进的结构相似度($\text{SSIM}_\text{a}$)计算为

$ \;\;\;\;\;\;\;\;\;\;f_{\sin _a}(\boldsymbol{F})= \\ \left(f_{\mathrm{ssim}}\left(\boldsymbol{F}, \boldsymbol{I}_1\right)+f_{\mathrm{ssim}}\left(\boldsymbol{F}, \boldsymbol{I}_2\right)\right) \times 0.5 $

(9)

式中，$\boldsymbol{F}$、$\boldsymbol{I}_\text{1}$和$\boldsymbol{I}_{2}$分别表示融合结果、红外图像和可见光图像。$\text{SSIM}_\text{a}$的值越大说明融合结果中源图像的结构信息越多。

信息熵衡量图像中包含的信息量；标准差越大表明融合图像像素分布差异越大，图像质量越好；视觉信息保真度衡量图像的失真情况，值越高表明融合图像质量越高；互信息量和基于小波变换提取局部特征的特征互信息的值越高，表明融合图像中保留来自源图像的信息与特征越多。

3.2 消融实验

3.2.1 损失函数的平衡参数$λ$

如2.3节提到的，损失函数里像素损失与结构相似度损失的平衡参数$λ$的值分别设置为1、10、100和1 000进行实验。在当前实验中，八度卷积的结构、八度卷积结构中$α_\text{in}$和$α_\text{out}$的值、特征增强方式以及融合策略选择均与第2节保持一致。以TNO测试集中21对红外与可见光图像作为测试集，使用不同$λ$的值训练出来的网络进行融合的结果客观指标如表 2所示。

表 2 不同损失函数平衡参数训练出网络融合结果的平均指标
Table 2 The average values of quality metrics for fused images with different values of λ

下载CSV

λ	En	SD	SSIM_a	VIF	MI	FMI_w
1	6.923 69	83.156 36	0.703 41	0.786 23	13.851 28	0.434 21
10	6.928 87	82.981 62	0.707 79	0.779 32	13.847 82	0.432 67
100	6.932 99	83.870 56	0.709 26	0.791 10	13.865 97	0.435 89
1 000	6.929 61	83.296 67	0.711 27	0.784 99	13.856 79	0.433 15
注：加粗字体表示每列最优结果。

从表 2中可以发现，当$λ$的值设置为100时，训练出来的网络对融合任务结果比其他值更好一些，所以接下来的实验中，训练阶段损失函数的平衡参数均设置为100。

3.2.2 八度卷积结构

在2.1小节介绍了所提方法中使用的八度卷积模块。如图 3所示，它把具有3个尺度特征图的组合进行卷积，并且保持不同尺度特征间也有信息交互。当把次低频和低频特征的比例设置为0，就变成了传统卷积结构。实际上，Chen等人(2019)所提出的是只有两分支的八度卷积结构，即在传统卷积的基础上分离出高频和低频信息。本文认为将特征依靠频率进行更细致的划分可以更好地进行融合，实验中尝试了更多分支的八度卷积形式，结构设置如表 3所示。三分支八度卷积中，添加了一条特征宽高介于普通八度卷积高频和低频特征之间的次低频分支；四分支八度卷积则是在普通八度卷积的基础上添加了次高频和次低频两条分支。

表 3 不同分支数八度卷积结构的参数设置
Table 3 Parameter setting of octave convolution structure with different branch numbers

下载CSV

分支数	特征种类	宽	高	通道数(输入)	通道数(输出)
1	-	W	H	C_in	C_out
2	高频	W	H	(1-α_in)C_in	(1-α_out)C_out
2	低频	0.5W	0.5H	α_inC_in	α_outC_out
3	高频	W	H	(1-2α_in)C_in	(1-2α_out)C_out
	次低频	0.75W	0.75H	α_inC_in	α_outC_out
	低频	0.5W	0.5H	α_inC_in	α_outC_out
4	高频	W	H	(1-3α_in)C_in	(1-3α_out)C_out
	次高频	0.85W	0.85H	α_inC_in	α_outC_out
	次低频	0.7W	0.7H	α_inC_in	α_outC_out
	低频	0.5W	0.5H	α_inC_in	α_outC_out
注：特征种类中“-”表示不区分特征频率，仅使用单一种类特征。

单分支时，八度卷积即为传统卷积，表 3中$W$和$H$的值根据输入图像大小以及该八度卷积所属模块而确定。$C_\text{in}$和$C_\text{out}$的值即为表 1中所设置的对应值。八度卷积中$α_\text{in}$和$α_\text{out}$的值、特征增强方式以及融合策略选择均与第2节中保持一致。使用TNO测试集的21对红外与可见光图像进行测试，融合结果的评价指标如表 4所示。

表 4 不同八度卷积结构融合结果的平均指标
Table 4 The average values of quality metrics for fused images with different octave convolution structure

下载CSV

分支数	EN	SD	SSIM_a	VIF	MI	FMI_w
1	6.919 71	82.752 42	0.709 94	0.786 51	13.839 42	0.437 23
2	6.910 85	82.106 74	0.710 34	0.776 89	13.821 70	0.436 34
3	6.932 99	83.870 56	0.709 26	0.791 10	13.865 97	0.435 89
4	6.893 09	80.881 79	0.712 93	0.759 80	13.786 18	0.434 64
注：加粗字体表示每列最优结果。

从表 4可以看出，比起Chen等人(2019)所提出的双分支结构，三分支结构在大多数融合指标上取得了进步。但是当拓展到四分支时，有些指标明显降低，表明特征并不是根据频率划分得越细致越好。综上所述，在实验中本文方法选择了图 3所示的三分支的八度卷积结构作为最终结构，在接下来的实验中结构固定。

八度卷积结构中还有一个重要的参数就是所设置的次低频以及低频特征通道数在这个组合中占用总通道数的比例，即$α_\text{in}$和$α_\text{out}$的值。由Chen等人(2019)可知，当$α_\text{in}$和$α_\text{out}$的值设置为0.25或0.125时，大多数网络结构可以发挥最大效果。实验中，使用TNO测试集，特征增强方式以及融合策略选择均与第2节中保持一致，仅改变$α_\text{in}$和$α_\text{out}$的值，融合结果评价指标如表 5所示。

表 5 八度卷积中不同α_in与α_out的值生成融合图像的平均指标
Table 5 The average values of quality metrics for fused images with different values of α_in and α_out

下载CSV

α_in和α_out	EN	SD	SSIM_a	VIF	MI	FMI_w
0.25	6.909 58	81.934 22	0.712 46	0.773 15	13.819 16	0.434 34
0.125	6.932 99	83.870 56	0.709 26	0.791 10	13.865 97	0.435 89
注：加粗字体表示每列最优结果。

由表 5可知，当$α_\text{in}$和$α_\text{out}$设置为0.125时网络取得的融合结果较好，因此在接下来的实验中，编码器的“OctaveConv”模块里，$α_\text{in}$设置为0；解码器的“OctaveConv”模块里，$α_\text{out}$设置为0。其余所有地方的$α_\text{in}$和$α_\text{out}$均设置为0.125。

3.2.3 特征增强方式

除了对卷积方式进行修改，使得编码器提取到的每层尺度下的特征进行更细致的频率划分之外，还对使用高层特征对低层特征进行增强，使得编码器提取到的多尺度特征在层之间也进行交互。

如2.1节所述，本文方法认为高层的高频特征比低层的高频特征更接近于低层的次低频与低频特征，使用相近的特征进行增强可能会产生更好的结果。

实验1中，使用高层高频特征增强低层高频特征、高层次低频特征增强低层次低频特征、高层低频特征增强低层低频特征；实验2中，使用高层高频特征增强低层次低频特征、高层次低频特征增强低层低频特征；实验3中，仅使用高层高频特征增强低层低频特征；实验4为不进行特征增强，编码器提取特征直接输入解码器重构图像的融合网络。当前实验中，使用TNO测试集，融合策略与第2节中保持一致。实验结果如表 6所示。从表 6可以看出，特征增强是有效果的，但用高层特征增强低层对应频率的特征并没有取得最好结果。如之前所考虑，使用相近的特征进行增强可能更合适。使用高层高频特征增强低层次低频特征并使用高层次低频特征增强低层低频特征这种特征增强方式在大多数指标上表现较好，因此所提方法在接下来的实验中固定使用这种方式。

表 6 不同特征增强方式生成融合图像的平均指标
Table 6 The average values of quality metrics for fused images with different feature enhancement methods

下载CSV

	EN	SD	SSIM_a	VIF	MI	FMI_w
实验1	6.928 77	83.463 76	0.709 14	0.788 79	13.857 55	0.436 67
实验2	6.932 99	83.870 56	0.709 26	0.791 10	13.865 97	0.435 89
实验3	6.924 55	83.103 70	0.709 63	0.786 59	13.849 10	0.436 30
实验4	6.928 38	83.330 10	0.709 28	0.789 45	13.856 76	0.436 51
注：加粗字体表示每列最优结果。

3.2.4 融合策略选择

Li等人(2020a)提出了基于通道注意力的融合策略作为基于空间注意力的融合策略的补充，并且取得了较好的融合结果。但是在所提方法中，对每个尺度上提取到的特征进一步依据频率细分，而不同频率的特征侧重点不同，使用相同的融合策略并不合适。Woo等人(2018)的方法中介绍，空间注意力侧重于“在哪里”，而通道注意力则更侧重于“是什么”。源图像的细节更多被保留在高频特征中，因此本文方法认为对低频特征仅使用基于空间注意力的融合策略会产生更好的融合结果。实验1中，所有特征均采用基于空间和通道注意力机制的融合策略；实验2中，高频特征和次低频特征采用基于空间和通道注意力机制的融合策略，而低频特征采用基于空间注意力的融合策略；实验3中，高频特征采用基于空间和通道注意力机制的融合策略，次低频和低频特征采用基于空间注意力的融合策略。本实验使用TNO测试集，不同融合策略生成的融合结果如表 7所示。由表 7可以看出，在每一尺度上对高频特征使用基于空间和通道注意力机制的融合策略，并对次低频和低频特征使用基于空间注意力的融合策略生成的融合图像在更多的指标上取得了最优值，这也验证了本文算法的有效性。因此在所提方法中，使用上述融合策略。

表 7 不同融合策略生成融合图像的平均指标
Table 7 The average values of quality metrics for fused images with different fusion strategy

下载CSV

	EN	SD	SSIM_a	VIF	MI	FMI_w
实验1	6.931 85	83.694 39	0.709 33	0.789 73	13.863 71	0.435 88
实验2	6.931 84	83.693 56	0.709 32	0.789 73	13.863 67	0.435 88
实验3	6.932 99	83.870 56	0.709 26	0.791 10	13.865 97	0.435 89
注：加粗字体表示每列最优结果。

3.3 结果分析

将所提算法与现有的融合方法进行对比。首先在“街道”、“人”与“车”图像中进行可视化比较，对比结果如图 9—图 11所示。

图 9 不同算法在“街道”图像上的实验

Fig. 9 Experiments with different algorithms on "street" images

((a) visible image; (b) infrared image; (c) DCHWT; (d) WLS; (e) ConvSR; (f) VGGML; (g) DenseFuse; (h) FusionGAN; (i) IFCNN; (j) RFN-Nest; (k) NestFuse; (l) ours)

图 10 不同算法在“人”图像上的实验

Fig. 10 Experiments with different algorithms on "man" images

((a) visible image; (b) infrared image; (c) DCHWT; (d) WLS; (e) ConvSR; (f) VGGML; (g) DenseFuse; (h) FusionGAN; (i) IFCNN; (j) RFN-Nest; (k) NestFuse; (l) ours)

图 11 不同算法在“车”图像上的实验

Fig. 11 Experiments with different algorithms on "car" images

((a) visible image; (b) infrared image; (c) DCHWT; (d) WLS; (e) ConvSR; (f) VGGML; (g) DenseFuse; (h) FusionGAN; (i) IFCNN; (j) RFN-Nest; (k) NestFuse; (l) ours)

图 9和图 10来源于TNO测试集，图 11来源于道路场景测试集。为了更好地表现不同融合方法间的差距，使用红色实线框标出图像中较为明显的特征。

图 9是不同融合算法在“街道”图像上的融合结果。从图 9中可以看出，DCHWT和DenseFuse融合图像包含较多的噪声，视觉效果较差。ConvSR和VGGML融合图像比较平滑，但是纹理信息不突出。FusionGAN和RFN-Nest融合图像中，广告牌上的字以及右下角的行人都有些模糊不清。WLS、IFCNN、NestFuse以及本文方法融合结果相对较好。

图 10是不同融合算法在“人”图像上的融合结果。由图 10可看出，DCHWT融合图像依旧包含较多噪声。FusionGan融合图像纹理丢失较为严重。ConvSR和VGGML与图 9中表现相同，图像平滑但是纹理信息不突出(红框所标记的树)。WLS、DenseFuse、IFCNN、RFN-Nest、NestFuse以及本文方法融合结果具有良好的视觉效果。

图 11是不同融合算法在“车”图像上的融合结果。由图 11可看出，DCHWT融合图像依旧包含较多噪声。FusionGAN和RFN-Nest融合图像纹理丢失较为严重，车尾的字迹完全模糊。ConvSR、VGGML和IFCNN融合图像，红框所标记的树的轮廓非常模糊。WLS和DenseFuse融合图像更多地保留了可见光图像中的特征，视觉效果较差。NestFuse以及所提方法融合结果更自然。

对图 9—图 11融合结果分析可以看出，所提出的融合方法可以做到对源图像的信息较好地保留，视觉效果比大多数融合算法好。但是主观而言，所提方法与一些融合方法融合结果相近，很难评估好坏，于是使用3.1节介绍的6个指标对这些融合方法进行客观评价。依旧使用TNO测试集和道路场景测试集进行测试，其中TNO测试集的融合结果平均指标如表 8所示，道路场景测试集的的融合结果平均指标如表 9所示。

表 8 TNO数据集上不同融合方法生成融合结果的质量指标平均值
Table 8 The average values of quality metrics for fused images with different fusion methods on the TNO dataset

下载CSV

	EN	SD	SSIM_a	VIF	MI	FMI_w
DCHWT	6.567 77	64.978 91	0.731 32	0.505 60	13.135 53	0.401 47
WLS	6.640 71	70.588 94	0.723 60	0.728 74	13.281 43	0.376 62
ConvSR	6.258 69	50.743 72	0.753 35	0.392 18	12.517 37	0.383 62
VGGML	6.181 95	48.138 52	0.777 99	0.294 92	12.363 90	0.416 83
DenseFuse	6.724 66	66.001 26	0.714 06	0.645 76	13.449 32	0.363 93
FusionGAN	6.362 85	54.357 52	0.653 84	0.453 55	12.725 70	0.370 83
IFCNN	6.595 45	66.875 78	0.731 86	0.590 29	13.190 90	0.401 66
RFN-Nest	6.841 34	71.901 31	0.699 49	0.657 72	13.682 69	0.302 35
NestFuse	6.894 21	80.363 72	0.714 46	0.752 04	13.788 42	0.432 93
本文	6.931 85	83.694 39	0.709 33	0.789 73	13.863 71	0.435 88
注：加粗字体表示每列最优结果。

表 9 道路场景数据集上不同融合方法生成融合结果的质量指标平均值
Table 9 The average values of quality metrics for fused images with different fusion methods on the RoadScene dataset

下载CSV

	EN	SD	SSIM_a	VIF	MI	FMI_w
DCHWT	7.163 45	62.573 40	0.693 47	0.519 36	14.326 91	0.367 62
WLS	7.201 15	65.487 37	0.676 35	0.745 95	14.402 31	0.387 01
ConvSR	6.798 66	51.356 56	0.704 00	0.478 02	13.597 31	0.395 41
VGGML	6.866 45	50.314 61	0.754 15	0.376 91	13.611 34	0.414 68
DenseFuse	7.130 96	69.594 16	0.714 30	0.667 25	14.261 93	0.434 41
FusionGAN	7.177 96	66.750 83	0.652 09	0.420 97	14.355 92	0.341 87
IFCNN	6.967 56	56.249 89	0.730 05	0.620 88	13.935 13	0.403 15
RFN-Nest	7.337 80	78.206 95	0.652 55	0.635 26	14.675 60	0.287 11
NestFuse	7.356 90	77.091 81	0.665 93	0.900 96	14.713 80	0.432 24
本文	7.390 00	81.816 46	0.660 49	0.967 91	14.780 00	0.432 36
注：加粗字体表示每列最优结果。

从表 8可以看出，所提出的融合方法与其他融合算法相比，在5个指标上达到了最优值。其中，信息熵(EN)、标准差(SD)和互信息(MI)的最优值说明所提出的融合方法保留了更多的细节信息。信息保真度(VIF)和基于小波变换提取局部特征的特征互信息($\text{FMI}_\text{w}$)上的最优值说明本文方法的融合方法同时也保留了更多的特征信息。

表 9表明，所提出的融合方法在道路场景测试集上表现结果基本与在TNO测试集上表现结果一致。与在TNO数据集上融合结果的指标相比，虽然在基于小波变换提取局部特征的特征互信息($\text{FMI}_\text{w}$)上没有取得最优值，但是所提出的融合方法在指标上仅次于DenseFuse，而且差距非常小。结合图 11可以看出，所提方法视觉效果比DenseFuse融合结果更自然。

综上所述，无论是主观视觉效果还是客观指标评估，所提出的融合方法效果均超越大多数现存的融合方法。

OctaveFuse在NestFuse的基础上对特征进行更细致的划分与处理，取得了更好的融合结果。将TNO数据集中的21对红外与可见光图像设置为指定大小比较两种方法的时间效率，实验环境与3.1小节中相同。结果如表 10所示。

表 10 不同融合策略的运行时间
Table 10 The running time of different fusion methods

下载CSV

/s
输入尺寸/像素	OctaveFuse	NestFuse
128×128	2.835 26	2.886 93
256×256	3.410 36	3.114 81
512×512	6.430 84	6.448 45
注：加粗字体表示每行最优结果。

从表 10可以看出，OctaveFuse在NestFuse的基础上对特征进行了更复杂的处理，但是运行时间与NestFuse基本保持一致。结合表 8与表 9可以看出，所提出的OctaveFuse在不降低时间效率的前提下，可以很好地提升融合效果。

4 结论

针对红外图像与可见光图像融合任务，本文提出了一种基于八度卷积的融合算法OctaveFuse。首先，使用基于八度卷积的编码器分别提取出红外与可见光图像多尺度上的高频、次低频和低频特征。然后根据所设计的增强模块，高层特征用来增强对应的低层特征。接着这些增强后的不同频率特征根据包含信息的侧重由对应的融合策略进行融合。最后，融合后的特征被解码器重构为一幅融合图像。

在TNO和RoadScene数据集上分别与多种现有的优秀图像融合算法进行了对比实验。实验中，OctaveFuse取得了较为优秀的融合结果，可以充分保留来自源图像中的特征信息，并且更加符合视觉感知，且并未消耗更多的时间。

目前，所提方法针对图像中的特征信息进行增强，但是并未对源图像中可能含有的噪声进行针对性处理。在未来的研究中，将对特征增强模块进行完善，针对噪声进行改进，使算法具有更强的泛化性。此外，训练阶段的损失函数也可以根据融合任务种类进行改良，针对不同的融合任务设计更为合适的融合策略。

参考文献

Chen Y P, Fan H Q, Xu B, Yan Z C, Kalantidis Y, Rohrbach M, Yan S C and Feng J S. 2019. Drop an octave: reducing spatial redundancy in convolutional neural networks with octave convolution//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 3434-3443[DOI: 10.1109/iccv.2019.00353]

Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A and Bengio Y. 2014. Generative adversarial nets//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press: 2672-2680

Haghighat M and Razian M A. 2014. Fast-FMI: non-reference image fusion metric//Proceedings of the 8th IEEE International Conference on Application of Information and Communication Technologies. Astana, Kazakhstan: IEEE: 1-3[DOI: 10.1109/icaict.2014.7036000]

Han Y, Cai Y Z, Cao Y, Xu X M. 2013. A new image fusion performance metric based on visual information fidelity. Information Fusion, 14(2): 127-135 [DOI:10.1016/j.inffus.2011.08.002]

Kumar B K S. 2013. Multifocus and multispectral image fusion based on pixel significance using discrete cosine harmonic wavelet transform. Signal, Image and Video Processing, 7(6): 1125-1143 [DOI:10.1007/s11760-012-0361-x]

Li H, Wu X J. 2019. DenseFuse: a fusion approach to infrared and visible images. IEEE Transactions on Image Processing, 28(5): 2614-2623 [DOI:10.1109/tip.2018.2887342]

Li H, Wu X J, Durrani T. 2020a. NestFuse: an infrared and visible image fusion architecture based on nest connection and spatial/channel attention models. IEEE Transactions on Instrumentation and Measurement, 69(12): 9645-9656 [DOI:10.1109/tim.2020.3005230]

Li H, Wu X J and Kittler J. 2018. Infrared and visible image fusion using a deep learning framework//Proceedings of the 24th International Conference on Pattern Recognition. Beijing, China: IEEE: 2705-2710[DOI: 10.1109/icpr.2018.8546006]

Li H, Wu X J, Kittler J. 2020b. MDLatLRR: a novel decomposition method for infrared and visible image fusion. IEEE Transactions on Image Processing, 29: 4733-4746 [DOI:10.1109/tip.2020.2975984]

Li H, Wu X J, Kittler J. 2021. RFN-Nest: an end-to-end residual fusion network for infrared and visible images. Information Fusion, 73: 72-86 [DOI:10.1016/j.inffus.2021.02.023]

Li X X, Guo X P, Han P F, Wang X, Li H G, Luo T. 2020c. Laplacian redecomposition for multimodal medical image fusion. IEEE Transactions on Instrumentation and Measurement, 69(9): 6880-6890 [DOI:10.1109/TIM.2020.2975405]

Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Dollár P and Zitnick C L. 2014. Microsoft COCO: common objects in context//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 740-755[DOI: 10.1007/978-3-319-10602-1_48]

Liu Y, Chen X, Peng H, Wang Z F. 2017. Multi-focus image fusion with a deep convolutional neural network. Information Fusion, 36: 191-207 [DOI:10.1016/j.inffus.2016.12.001]

Liu Y, Chen X, Ward R K, Wang Z J. 2016. Image fusion with convolutional sparse representation. IEEE Signal Processing Letters, 23(12): 1882-1886 [DOI:10.1109/lsp.2016.2618776]

Ma J L, Zhou Z Q, Wang B, Zong H. 2017. Infrared and visible image fusion based on visual saliency map and weighted least square optimization. Infrared Physics and Technology, 82: 8-17 [DOI:10.1016/j.infrared.2017.02.005]

Ma J Y, Yu W, Liang P W, Li C, Jiang J J. 2019. FusionGAN: a generative adversarial network for infrared and visible image fusion. Information Fusion, 48: 11-26 [DOI:10.1016/j.inffus.2018.09.004]

Nunez J, Otazu X, Fors O, Prades A, Pala V, Arbiol R. 1999. Multiresolution-based image fusion with additive wavelet decomposition. IEEE Transactions on Geoscience and Remote Sensing, 37(3): 1204-1211 [DOI:10.1109/36.763274]

Piella G. 2003. A general framework for multiresolution image fusion: from pixels to regions. Information Fusion, 4(4): 259-280 [DOI:10.1016/S1566-2535(03)00046-0]

Rao Y J. 1997. In-fibre Bragg grating sensors. Measurement Science and Technology, 8(4): 355-375 [DOI:10.1088/0957-0233/8/4/002]

Roberts J W, van Aardt J A, Ahmed F B. 2008. Assessment of image fusion procedures using entropy, image quality, and multispectral classification. Journal of Applied Remote Sensing, 2(1): #023522 [DOI:10.1117/1.2945910]

Sulaiman M A and Labadin J. 2015. Feature selection based on mutual information//Proceedings of the 9th International Conference on IT in Asia (CITA). Sarawak, Malaysia: IEEE: 1-6[DOI: 10.1109/CITA.2015.7349827]

TOET A. 2014. TNO image fusion dataset[EB/OL]. [2021-02-20]. https://figshare.com/articles/TN_Image_Fusion_Dataset/1008029

Woo S, Park J, Lee J Y and Kweon I S. 2018. CBAM: convolutional block attention module//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 3-19[DOI: 10.1007/978-3-030-01234-2_1]

Xu H, Ma J Y, Jiang J J, Guo X J, Ling H B. 2020a. U2Fusion: a unified unsupervised image fusion network. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(1): 502-518 [DOI:10.1109/TPAMI.2020.3012548]

Xu H, Ma J Y, Le Z L, Jiang J J, Guo X J. 2020b. FusionDN: a unified densely connected network for image fusion. Proceedings of the AAAI Conference on Artificial Intelligence, 34(7): 12484-12491 [DOI:10.1609/aaai.v34i07.6936]

Xu T Y, Feng Z H, Wu X J, Kittler J. 2019a. Learning adaptive discriminative correlation filters via temporal consistency preserving spatial feature selection for robust visual object tracking. IEEE Transactions on Image Processing, 28(11): 5596-5609 [DOI:10.1109/TIP.2019.2919201]

Xu T Y, Feng Z H, Wu X J and Kittler J. 2019b. Joint group feature selection and discriminative filter learning for robust visual object tracking//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea(South): IEEE: 7950-7960[DOI: 10.1109/iccv.2019.00804]

Xu T Y, Feng Z H, Wu X J, Kittler J. 2019c. Learning low-rank and sparse discriminative correlation filters for coarse-to-fine visual object tracking. IEEE Transactions on Circuits and Systems for Video Technology, 30(10): 3727-3739 [DOI:10.1109/tcsvt.2019.2945068]

Yang B, Li S T. 2010. Multifocus image fusion and restoration with sparse representation. IEEE Transactions on Instrumentation and Measurement, 59(4): 884-892 [DOI:10.1109/tim.2009.2026612]

Yin M, Duan P H, Chu B, Liang X Y. 2016. Image fusion based on non-subsampled quaternion shearlet transform. Journal of Image and Graphics, 21(10): 1289-1297 (殷明, 段普宏, 褚标, 梁翔宇. 2016. 非下采样四元数剪切波变换域的图像融合. 中国图象图形学报, 21(10): 1289-1297) [DOI:10.11834/jig.20161003]

Zhang Y, Liu Y, Sun P, Yan H, Zhao X L, Zhang L. 2020. IFCNN: a general image fusion framework based on convolutional neural network. Information Fusion, 54: 99-118 [DOI:10.1016/j.inffus.2019.07.011]

Zhou T, Liu S, Dong Y L, Huo B Q, Ma Z J. 2021. Research on pixel-level image fusion based on multi-scale transformation: progress application and challenges. Journal of Image and Graphics, 26(9): 2094-2110 (周涛, 刘珊, 董雅丽, 霍兵强, 马宗军. 2021. 多尺度变换像素级医学图像融合: 研究进展、应用和挑战. 中国图象图形学报, 26(9): 2094-2110) [DOI:10.11834/jig.200803]

Zhou W, Bovik A C, Sheikh H R, Simoncelli E P. 2004. Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing, 13(4): 600-612 [DOI:10.1109/tip.2003.819861]