Print

发布时间: 2023-01-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.220319
2023 | Volume 28 | Number 1




    红外与可见光图像融合    




  <<上一篇 




  下一篇>> 





红外与可见光图像渐进融合深度网络
expand article info 邱德粉, 胡星宇, 梁鹏伟, 刘贤明, 江俊君
哈尔滨工业大学计算机科学与技术学院, 哈尔滨 150001

摘要

目的 红外与可见光图像融合的目标是获得具有完整场景表达能力的高质量融合图像。由于深度特征具有良好的泛化性、鲁棒性和发展潜力,很多基于深度学习的融合方法被提出,在深度特征空间进行图像融合,并取得了良好的效果。此外,受传统基于多尺度分解的融合方法的启发,不同尺度的特征有利于保留源图像的更多信息。基于此,提出了一种新颖的渐进式红外与可见光图像融合框架(progressive fusion, ProFuse)。方法 该框架以U-Net为骨干提取多尺度特征,然后逐渐融合多尺度特征,既对包含全局信息的高层特征和包含更多细节的低层特征进行融合,也在原始尺寸特征(保持更多细节)和其他更小尺寸特征(保持语义信息)上进行融合,最终逐层重建融合图像。结果 实验在TNO(Toegepast Natuurwetenschappelijk Onderzoek)和INO(Institut National D’optique)数据集上与其他6种方法进行比较,在选择的6项客观指标上,本文方法在互信息(mutual Information,MI)上相比FusionGAN(generative adversarial network for infrared and visible image fusion)方法提升了115.64%,在标准差(standard deviation,STD)上相比于GANMcC(generative adversarial network with multiclassification constraints for infrared and visible image fusion)方法提升了19.93%,在边缘保存度Qabf上相比DWT(discrete wavelet transform)方法提升了1.91%,在信息熵(entopy,EN)上相比GANMcC方法提升了1.30%。主观结果方面,本文方法得到的融合结果具有更高的对比度、更多的细节和更清晰的目标。结论 大量实验表明了本文方法的有效性和泛化性。与其他先进的方法相比,本文方法在主观和客观评估上都显示出更好的结果。

关键词

图像融合; 深度学习; 无监督学习; 红外图像; 可见光图像

A deep progressive infrared and visible image fusion network
expand article info Qiu Defen, Hu Xingyu, Liang Pengwei, Liu Xianming, Jiang Junjun
School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China
Supported by: National Natural Science Foundation of China (61971165, 61922027)

Abstract

Objective Multi-modal images have been developed based on multiple imaging techniques. The infrared image collects the radiation information of the target in the infrared band. The visible image is more suitable to human visual perception in terms of higher spatial resolution, richer effective information and lower noise. Infrared and visible image fusion (IVIF) can integrate the configurable information of multi-sensors to alleviate the limitations of hardware equipment and obtain more low-cost information for high-quality images. The IVIF can be used for a wide range of applications like surveillance, remote sensing and agriculture. However, there are several challenges to be solved in multi-modal image fusion. For instance, effective information extraction issue from different modalities and the problem-solving for fusion rule of the complementary information of different modalities. Current researches can be roughly divided into two categories: 1) traditional methods and 2) deep learning based methods. The traditional methods decompose the infrared image and the visible image into the transform domain to make the decomposed representation have special properties that are benefit to fusion, then perform fusion in the transform domain, which can depress information loss and avoid the artifacts caused by direct pixel manipulation, and finally reconstruct the fused image. Traditional methods are based on the assumptions on the source image pair and manual-based image decomposition methods to extract features. However, these hand-crafted features are not comprehensive and may cause the sensitivity to high-frequency or primary components and generate image distortion and artifacts. In recent years, data-driven deep learning-based image fusion methods have been developing. Most of the deep learning based fusion methods have been oriented for the infrared and visible image fusion in the deep feature space. Deep learning-based fusion methods can be divided into two categories: 1) convolutional neural network (CNN) for fusion, and 2) generative adversarial network (GAN) to generate fusion images. CNN-based information extraction is not fully utilized by the intermediate layers. The GAN-based methods are challenged to preserving image details in adequately. Method We develop a novel progressive infrared and visible image fusion framework (ProFuse), which extracts multi-scale features with U-Net as our backbone, merges the multi-scale features and reconstructs the fused image layer by layer. Our network has composed of three parts: 1) encoder; 2) fusion module; and 3) decoder. First, a series of multi-scale feature maps are generated from the infrared image and the visible image via the encoder. Next, the multi-scale features of the infrared and visible image pair are fused in the fusion layer to obtain fused features. At last, the fused features pass through the decoder to construct the fused image. The network architecture of the encoder and decoder is designed based on U-Net. The encoder consists of the replicable applications of recurrent residual convolutional unit (RRCU) and the max pooling operation. Each down-sampling step can be doubled the number of feature channels, so that more features can be extracted. The decoder aims to reconstruct the final fused image. Every step in the decoder consists of an up-sampling of the feature map followed by a 3 × 3 convolution that halves the number of feature channels, a concatenation with the corresponding feature maps from the encoder, and a RRCU. At the fusion layer, our spatial attention-based fusion method is used to deal with image fusion tasks. This method has the following two advantages. First, it can perform fusion on global information-contained high-level features (at bottleneck semantic layer), and details-related low-level features (at shallow layers). Second, our method not only perform fusion on the original scale (maintaining more details), but also perform fusion on other smaller scales (maintaining semantic information). Therefore, the design of progressive fusion is mainly specified in the following two aspects: 1) we conduct image fusion progressively from high-level to low-level and 2) from small-scale to large-scale progressively. Result In order to evaluate the fusion performance of our method, we conduct experiments on publicly available Toegepast Natuurwetenschappelijk Onderzoek (TNO) dataset and compare it with some state-of-the-art (SOTA) fusion methods including DenseFuse, discrete wavelet transform (DWT), Fusion-GAN, ratio of low-pass pyramid (RP), generative adversarial network with multiclassification constraints for infrared and visible image fusion (GANMcC), curvelet transform (CVT). All these competitors are implemented according to public code, and the parameters are set by referring to their original papers. Our method is evaluated with other methods in subjective evaluation, and some quality metrics are used to evaluate the fusion performance objectively. Generally speaking, the fusion results of our method obviously have higher contrast, more details and clearer targets. Compared with other methods, our method preserves the detailed information of visible and infrared radiation in maximization. At the same time, very little noise and artifacts are introduced in the results. We evaluate the performances of different fusion methods quantitatively via using six metrics, i.e., entropy (EN), structure similarity (SSIM), edge-based similarity measure (Qabf), mutual information (MI), standard deviation (STD), sum of the correlations of differences (SCD). Our method has achieved a larger value on EN, Qabf, MI and STD. The maximum EN value indicates that our method retains richer information than other competitors. The Qabf is a novel objective quality evaluation metric for fused images. The higher the value of Qabf is, the better the quality of the fusion images are. STD is an objective evaluation index that measures the richness of image information. The larger the value, the more scattered the gray-level distribution of the image, the more information the image carries, and the better the quality of the fused image. The larger the value of MI, the more information obtained from the source images, and the better the fusion effect. Our method has an improvement of 115.64% in the MI index compared with the generative adversarial network for infrared and visible image fusion (FusionGAN) method, 19.93% in the STD index compared with the GANMcC method, 1.91% in the edge preservation (Qabf) index compared with the DWT method and 1.30% in the EN index compared with the GANMcC method. This indicates that our method is effective for IVIF task. Conclusion Extensive experiments demonstrate the effectiveness and generalization of our method. It shows better results on the evaluations in qualitative and quantitative both.

Key words

image fusion; deep learning; unsupervised learning; infrared image; visible image

0 引言

身处信息爆炸时代,各种成像技术飞速发展。可见光成像技术虽然具有更高的空间分辨率、更丰富的细节和更少的噪声,且更符合人类的视觉感知。但是,由于可见光波段受限,可见光成像在夜间工作的效果比较差,对雾、霾等恶劣天气的适应性也比较差。而红外热成像技术利用红外传感器对物体的红外辐射进行探测成像,具有较强的环境适应性,可在夜间和恶劣天气下工作,但是由于红外波段辐射波长较长,红外图像的空间分辨率较可见光图像低。因此,红外与可见光图像融合可以较好地挖掘被融合图像中的互补信息,得到更符合人眼或机器视觉特性的融合效果。红外与可见光图像融合在许多实际问题中有广泛的应用,包括监控(Bhatnagar和Liu,2015)、遥感(Eslami和Mohammadzadeh,2015)和农业(Bulanon等,2009)等。

红外与可见光图像融合最近几年发展迅速,越来越多的学者开展了研究工作。然而,红外与可见光图像融合仍然面临一些挑战,例如如何有效地从不同模态中提取信息,以及如何设计融合规则来更好地利用不同模态的互补信息。许多研究人员针对这个问题提出了不同的解决方案,大致可分为传统方法和基于深度学习的方法两类。

传统方法首先对红外图像和可见光图像进行图像变换以得到各图像分解后的系数表示,然后对这组系数表示按一定的融合规则进行融合处理。Burt和Adelson(1985)提出了第1个基于拉普拉斯金字塔变换的图像融合算法,并取得了良好的性能。之后,出现了一系列基于多尺度分解的算法。Li等人(1995)提出了基于离散小波变换的图像融合算法,离散小波变换在提取图像低频信息的同时,还可以获得水平、垂直以及对角3个方向的高频细节信息。在理论上,与传统的基于金字塔变换的图像融合算法相比,具有更好的融合效果。Yang等人(2007)提出了一种基于非下采样轮廓波变换的融合方法,它是离散小波变换的扩展,可以用更少的系数更好地表示边缘信息。Yang和Li(2010)首次将稀疏表示作为图像融合的显著特征。然后,Yu等人(2011)使用基于联合稀疏表示的方法提取共同的特征和独有的特征。Liu等人(2016)使用卷积稀疏表示解决基于块的稀疏表示方法带来的缺点。最近,基于多尺度分解的方法有了新进展。霍星等人(2021)利用显著性分析和空间一致性提出了新的双尺度图像融合方法。刘明葳等人(2021)为了解决细节“光晕”和伪影现象,利用各向异性的导向滤波对图像进行更好的分解以及权重优化。

传统方法通常对源图像进行假设,然后手动设计图像分解方法来提取特征,然而这些特征并不全面,可能会导致对高频或主要成分的敏感性,从而产生图像失真或伪影。近年来,深度学习成为解决计算机视觉和图像恢复问题的有吸引力的工具,基于数据驱动的深度学习的图像融合方法成为普遍采用的方法。基于深度学习的方法可以分为两类。第1类主要采用卷积神经网络进行融合;第2类采用生成对抗网络(generative adversarial network,GAN)产生融合图像。Liu等人(2018)使用一个卷积网络来融合红外和可见光图像并产生了良好的效果。Li和Wu(2019)通过将源图像分解成两部分然后设计适当的基于深度学习的融合策略来融合它们,进而得到融合结果。基于卷积神经网络的方法中,中间层提取到的信息大都没有得到充分利用。Li和Wu(2019)通过使用自编码器网络来融合源图像并且通过密集块结构来利用中间层提取到的信息。一般来说,在图像融合任务中很难获得真值,这就意味着使用GAN解决这个无监督问题是一个不错的选择。Ma等人(2019)首先将GAN应用于红外与可见光图像融合,但是基于GAN的方法在充分保留图像细节方面仍面临着挑战。

在具有良好表现的同时,DenseFuse(Li和Wu,2019)网络在编码器的最后一层输出特征上进行特征融合,解码器对融合特征进行重建来获得最终的重建图像。DenseFuse没有下采样算子,无法提取多尺度特征,因此没有充分组合利用图像的局部与全局信息、空间与灰度信息。不同尺度的图像表示包含着特有信息,这对图像处理是非常有用的。因此,本文提出一个基于U-Net(Ronneberger等,2015)的融合模型ProFuse(progressive fusion),该模型可以提取源图像的多尺度信息,并将提取到的多尺度特征进行逐层融合、重建,最终得到融合图像。与DenseFuse相比,本文方法是在不同尺度、不同空间分辨率上分别进行的,这有利于细节恢复和小尺度特征的保留,因此可以获得更好的融合效果。

1 ProFuse模型结构设计与分析

1.1 ProFuse结构

本文提出的ProFuse是一种渐进式红外与可见光图像融合方法,网络结构主要包含编码器、融合模块(feature module,FM)和解码器3部分,如图 1所示。

图 1 ProFuse网络结构
Fig. 1 The architecture of ProFuse network

首先,编码器输入红外图像$\boldsymbol{I}_{\mathrm{ir}}$和可见光图像$\boldsymbol{I}_{\mathrm{vis}}$产生一系列多尺度特征$\left\{\boldsymbol{f}_{\mathrm{ir}}^k\right\}_{k=1}^K, \left\{\boldsymbol{f}_{\mathrm{vis}}^k\right\}_{k=1}^K$($k$代表第$k$层,$K$代表总层数)。然后,源图像的多尺度特征分别在融合层进行融合得到融合特征$\left\{\boldsymbol{f}_\text{F}^k\right\}_{k=1}^K$。最后,融合特征通过解码器逐层重建得到融合图像$\boldsymbol{I}_{\mathrm{F}}$。受DenseFuse的启发,不仅使用最后一层的特征进行融合,中间层产生的特征也应该用于融合。因此在编码器和解码器之间添加跳跃连接以充分利用中间层的特征。

编码器和解码器的网络架构是基于U-Net进行设计的。由于基于U-Net的模型在训练阶段收敛速度较慢,参考R2U-Net(Alom等,2018)的结构,在模型中增加了循环残差卷积单元(recurrent residual convolution unit,RRCU)来加速网络的收敛以及增加网络的稳定性,如图 2所示。

图 2 循环残差卷积单元
Fig. 2 Recurrent residual convolutional unit

编码器主要由RRCU和最大池化操作重复应用组成。因为编码器的目标是特征提取,所以在每个下采样步骤中,将特征通道数量加倍,这样就可以提取更多有用的特征。因此,编码器的输出是一系列多尺度特征图$\left\{\boldsymbol{f}^k\right\} \begin{aligned} & K \\ & k=1 \end{aligned}$,即

$ \left(\boldsymbol{f}^1, \boldsymbol{f}^2, \cdots, \boldsymbol{f}^K\right)=\boldsymbol{F}_E(\boldsymbol{X}) $ (1)

式中,$\boldsymbol{X}$是主干U-Net的输入图像,$\boldsymbol{F}_{E}$代表编码器网络。解码器旨在重建最终的融合图像。解码器中的每一步都包括对特征图进行上采样,然后是将特征通道数量减半的3 × 3卷积,与来自编码器的相应特征图的连接,以及RRCU。最后,解码器输出重建图像$\hat{\boldsymbol{X}}$,具体为

$ \hat{\boldsymbol{X}}=\boldsymbol{F}_D\left(\boldsymbol{f}^1, \boldsymbol{f}^2, \cdots, \boldsymbol{f}^K\right) $ (2)

式中,$\boldsymbol{F}_D$代表解码器。多尺度自编码器网络逐步恢复清晰的图像,具有更少的伪影和更精细的细节。与简单的单尺度图像融合方法相比,基于多尺度的图像融合方法可以更好地保留融合图像中源图像对的像素强度和梯度信息。

RRCU是提出的深度学习模型中一个重要的组成部分。循环和残差操作不会增加网络的参数量,但是它们对训练和测试性能有着积极的影响。网络中增加RRCU之后,网络在训练阶段更容易收敛。循环操作则帮助网络具有更好和更强的特征表示能力。因此,RRCU有助于提取更多对图像融合任务至关重要的信息。

1.2 训练阶段

在训练阶段只考虑编码器和解码器。由于红外与可见光图像数据集不足且质量参差不齐,参考以前的图像融合方法,使用大型自然图像数据集COCO(common objects in context)(Lin等,2014)进行训练。训练阶段旨在通过最小化重建损失来准确重建原始图像。即重构误差越小,提取的特征越具有代表性,重构图像的质量越好。输入的训练数据调整为256 × 256像素并转换为灰度。批量大小设置为4。学习率设置为1×10-4。本文方法是在NVIDIA RTX 2080Ti GPU上实现的,网络架构基于Pytorch进行编程。

1.3 损失函数

训练阶段的目标是获得对源图像进行多尺度分解的编码器和能够重建融合图像并很好地保留源图像信息的解码器。为了实现训练阶段的目标,采用像素损失和结构相似性(structural similarity,SSIM)损失作为重构损失,具体为

$ L_{\text {Total }}=\alpha L_{\text {Pixel }}+L_{\text {SSIM }} $ (3)

式中,$L_\text{Total}$$L_\text{Pixel}$$L_\text{SSIM}$分别代表重建损失、像素损失和结构相似性损失(Wang等,2004),$α$是超参数,在实际中设置为1。SSIM损失可以描述为

$ L_{\mathrm{SSIM}}=1-{SSIM}(\hat{\boldsymbol{X}}, \boldsymbol{X}) $ (4)

式中,$\boldsymbol{X}$$\hat{\boldsymbol{X}}$分别表示输入图像和重建图像。$L_\text{Pixel}$测量原始图像和重建图像之间的像素强度一致性。$L_\text{Pixel}$的计算式为

$ L_{\text {Pixel }}=\|\boldsymbol{X}-\hat{\boldsymbol{X}}\|_2 $ (5)

1.4 融合策略

经过训练,得到了一个能够提取多尺度特征的编码器和一个能够重构的解码器。在测试阶段,主要探索3种融合方法,分别是通道注意力方法(Fu和Wu,2021)、平均方法和空间注意力方法。测试过程如图 3所示,本文主要介绍基于空间注意力的融合方法。

图 3 测试过程
Fig. 3 Test process

Li和Wu(2019)使用基于空间注意力的融合方法处理图像融合任务。基于空间注意力的融合方法通过计算每个像素的活动水平处理融合。

$\boldsymbol{A}_{\mathrm{ir}}^k(x, y) \text {和} \boldsymbol{A}_{\mathrm{vis}}^k(x, y)$表示由$\mathrm{L}_1$范数计算的活动水平图,具体为

$ \begin{aligned} \boldsymbol{A}_{\mathrm{ir}}^k(x, y) & =\left\|\boldsymbol{f}_{\mathrm{ir}}^k(x, y)\right\|_1 \\ \boldsymbol{A}_{\mathrm{vis}}^k(x, y) & =\left\|\boldsymbol{f}_{\mathrm{vis}}^k(x, y)\right\|_1 \end{aligned} $ (6)

然后,利用softmax操作计算最终的融合权重$\boldsymbol{\omega}_\text{ir}$$\boldsymbol{\omega}_\text{vis}$,具体为

$ \begin{aligned} & \boldsymbol{\omega}_{\mathrm{ir}}^k(x, y)=\frac{\mathrm{e}^{\boldsymbol{A}_{\mathrm{ir}}^k(x, y)}}{\mathrm{e}^{\boldsymbol{A}_{\mathrm{ir}}^k(x, y)}+\mathrm{e}^{\boldsymbol{A}_{\mathrm{vis}}^k(x, y)}} \\ & \boldsymbol{\omega}_{\mathrm{vis}}^k(x, y)=1-\boldsymbol{\omega}_{\mathrm{ir}}^k(x, y) \\ & \end{aligned} $ (7)

然后,有

$ \boldsymbol{f}_{\mathrm{F}}^k(x, y)=\boldsymbol{\omega}_{\mathrm{ir}}^k \times \boldsymbol{f}_{\mathrm{ir}}^k(x, y)+\boldsymbol{\omega}_{\mathrm{vis}}^k \times \boldsymbol{f}_{\mathrm{vis}}^k(x, y) $ (8)

在获得多尺度融合特征$\boldsymbol{f}_{\mathrm{F}}^k$后,可以通过训练好的解码器网络来预测融合图像。

2 实验与性能评估

2.1 模型评价指标

为了评估本文方法的融合性能,在公开可用的TNO(Toegepast Natuurwetenschappelijk Onderzoek)和INO(Institut National D’optique)数据集上进行实验,并与其他先进融合方法进行比较。由于很难以直接方式区分最佳或最差融合方法,因此,在主观评价中与其他方法一起评价本文方法,并使用信息熵(entropy,EN)(Roberts等,2008)、结构相似性(SSIM)(Wang等,2004)、边缘保存度Qabf(Piella和Heijmans,2003)、互信息(mutual information,MI)(Qu等,2002)、标准差(standard deviation,STD)(Rao,1997)以及差异相关性总和(sum of the correlations of differences,SCD)(Aslantas和Bendes,2015)等6项定量指标来客观评价融合性能。

参考FusionGAN (generative adversarial network for infrared and visible image fusion)等方法将SSIM应用于图像融合问题,具体为

$ S S I M=S S I M_{\boldsymbol{A}, \hat{\boldsymbol{X}}}+S S I M_{\boldsymbol{B}, \hat{\boldsymbol{X}}} $ (9)

式中,$S S I M_{\boldsymbol{A}, \hat{\boldsymbol{X}}}$$S S I M_{\boldsymbol{B}, \hat{\boldsymbol{X}}}$分别表示红外图像和可见光图像与融合图像之间的结构相似性,SSIM值越大表示性能越好。

SSIM用于对图像失真进行建模,衡量源图像和融合图像之间的结构相似性。SSIM主要由相关性损失、亮度失真和对比度失真3部分组成,将3个分量的乘积作为融合图像的评估结果。

$ \begin{gathered} {SSIM}_{\boldsymbol{X}, \hat{\boldsymbol{X}}}=\sum\limits_{\boldsymbol{x}, \hat{\boldsymbol{x}}} \frac{2 \mu_x \mu_{\hat{x}}+C_1}{\mu_x^2+\mu_{\hat{x}}^2+C_1} \times \\ \frac{2 \sigma_x \sigma_{\hat{x}}+C_2}{\sigma_x^2+\sigma_{\hat{x}}^2+C_2} \times \frac{\sigma_{x \hat{x}}+C_3}{\sigma_x \sigma_{\hat{x}}+C_3} \end{gathered} $ (10)

式中,${SSIM}_{\boldsymbol{X}, \hat{\boldsymbol{X}}}$表示源图像$\boldsymbol{X}$与融合图像$\hat{\boldsymbol{X}}$之间的结构相似性。$\boldsymbol{x}$$\hat{\boldsymbol{x}}$表示源图像和融合图像在大小为$M×N$的局部窗口中的图像块,$σ_\boldsymbol{x}$$σ_\hat{\boldsymbol{x}}$表示标准差,$\sigma_{\boldsymbol{x} \hat{\boldsymbol{x}}}$是源图像和融合图像的协方差,$μ_\boldsymbol{x}$$μ_\hat{\boldsymbol{x}}$表示源图像和融合图像的平均值。$C_1$$C_2$$C_3$是使算法稳定的参数。

2.2 消融实验

为了验证RRCU模块和多尺度特征的有效性,分别进行消融实验,对比结果如表 1图 4所示。

表 1 消融实验的对比结果
Table 1 Comparative results of ablation experiments

下载CSV
模型 EN SSIM Qabf MI STD SCD
无RRCU 6.110 8 1.338 8 0.299 9 2.315 7 0.089 2 1.506 2
无多尺度 6.267 9 1.382 3 0.437 9 4.136 8 0.089 5 1.177 7
ProFuse 6.633 0 1.385 1 0.543 2 4.869 2 0.144 4 1.594 7
注:加粗字体表示各列最优结果。
图 4 消融实验的对比结果
Fig. 4 Comparative results of ablation experiments
((a) infrared images; (b) visible images; (c) results of without RRCU; (d) results of without multi-scale; (e) results of ProFuse)

2.2.1 RRCU模块

在RRCU模块的消融实验中,一个网络保持原始网络结构,另一个网路不包含RRCU模块,其他部分与本文网络结构保持一致。在训练阶段,相较不包含RRCU的网络,本文网络更早收敛。在测试阶段,如图 4所示,没有RRCU的网络的结果比较暗、对比度差,本文方法可以保持红外图像中的热辐射信息,并且结果看起来更自然。这说明RRCU可以确保更好和更强的特征表示。表 1的客观对比结果也证明了RRCU模块的有效性。

2.2.2 多尺度分解

在多尺度特征的消融实验中,一个网络保持原状,另一个网络没有多尺度策略,即不包含池化操作,也不会将特征通道数加倍。从图 4第1、3、4行可以看出,实验组没有很好地保留红外图像的热辐射信息,没有多尺度特征网络的结果对比度差,而本文方法可以很好地保留红外图像的热辐射信息和可见图像的像素强度,例如第2行人图像对的结果。表 1的定量结果也显示了多尺度策略的普遍优势。

2.3 与其他方法对比

为了更直观地说明融合效果,在TNO和INO数据集中分别选择5个典型图像对,将本文融合方法与现有的红外与可见光图像融合方法DenseFuse(Li和Wu,2019)、基于小波变换的多传感器图像融合方法DWT(discrete wavelet transform)(Li等,1995)、用于红外和可见光图像融合的生成性对抗网络FusionGAN(Ma等,2019)、基于低通金字塔比率的图像融合方法RP(ratio of low-pass pyramid)(Toet,1989)、具有多分类约束的红外与可见光图像融合生成对抗网络GANMcC(generative adversarial network with multiclassification constraints for infrared and visible image fusion)(Ma等,2021)和基于曲线变换的遥感图像融合方法CVT(curvelet transform)(Nencini等,2007)进行主观对比评价,不同模型在TNO和INO数据集上的融合结果如图 5图 6所示。

图 5 不同模型在TNO数据集上的融合结果
Fig. 5 Fusion results of different methods on the TNO dataset
((a) infrared images; (b) visible images; (c) DenseFuse; (d) DWT; (e) FusionGAN; (f) RP; (g) GANMcC; (h) CVT; (i) ProFuse)
图 6 不同模型在INO数据集上的融合结果
Fig. 6 Fusion results of different methods on the INO dataset
((a) infrared images; (b) visible images; (c) DenseFuse; (d) DWT; (e) FusionGAN; (f) RP; (g) GANMcC; (h) CVT; (i) ProFuse)

图 5可以看出,与其他方法相比,本文方法最大程度地保留了可见光和红外辐射的详细信息。同时,结果中引入的噪声和伪影非常少。例如,红框内的广告牌、树枝和树叶就特别清晰;第2行中人的辐射信息本文方法也保存得更好。相比之下,DWT产生的结果具有块状伪影,而RP产生的结果受到噪声的严重破坏。本文方法在保存红外图像的热辐射信息和可见光图像的纹理细节方面比其他融合方法具有更好的性能。

图 6可以看出,本文方法的融合结果明显具有更高的对比度、更多的细节和更清晰的目标。如图 6所示,本文提出的ProFuse与其他方法相比,融合结果更清晰且具有更少的噪声,与基于GAN的方法FusionGAN和GANMcC相比,融合结果包含更少的伪影。

对于客观评价,选择EN、SSIM、Qabf、MI、STD和SCD作为客观指标,在TNO数据集中选择20个图像对,对本文提出的方法与DenseFuse、DWT、FusionGAN、RP、GANMcC和CVT等6种图像融合方法的融合性能进行比较,结果如表 2所示。可以看出,本文方法在EN、Qabf、MI和STD上取得了较大的值。较大的EN值表明本文方法比其他竞争对手保留了更丰富的信息。Qabf是一种新颖的融合图像的客观质量评估指标,Qabf的值越高,融合图像的质量越好。标准差STD是衡量图像信息丰富程度的客观评价指标,该值越大,表示图像灰度分布越分散,图像承载的信息越多,融合后的图像质量越好。MI值越大,从源图像中获得的信息越多,融合效果越好。本文网络在大多数质量指标上都有较好的表现,表明本文方法是红外与可见光图像融合任务的有效方法。

表 2 不同模型在TNO数据集上的融合结果的客观比较
Table 2 Objective comparison of fusion results of different methods on the TNO dataset

下载CSV
模型 EN SSIM Qabf MI STD SCD
DenseFuse 6.133 7 1.497 1 0.344 9 2.315 7 0.086 3 1.604 1
DWT 6.458 1 1.309 2 0.533 0 4.136 8 0.105 1 1.582 6
FusionGAN 6.341 9 1.240 7 0.218 7 2.082 1 0.101 3 1.014 2
RP 6.468 2 1.340 9 0.469 7 1.645 9 0.107 5 1.589 5
GANMcC 6.547 7 1.294 9 0.276 5 2.258 0 0.120 4 1.294 3
ProFuse 6.633 0 1.385 1 0.543 2 4.869 2 0.144 4 1.594 7
注:加粗字体表示各列最优结果。

3 结论

针对DenseFuse的不足,以及传统基于多尺度分解的图像融合方法的启发,本文提出了一种改进的基于U-Net的渐进式红外与可见光图像融合框架ProFuse。ProFuse可以进行从高层到低层、从小尺度到大尺度逐步进行多层次多尺度的图像融合,克服了DenseFuse仅在单层特征单一尺度上进行图像融合的限制,使得红外图像和可见光图像特征相互融合更加充分,进而达到了比较好的效果。在TNO和INO数据集上的实验结果表明,本文方法在多项指标上已经超越许多现有的红外与可见图像融合方法,主观视觉效果也更好,验证了本文方法的有效性。

虽然只在红外与可见光图像融合任务上进行了测试,但是本文方法的原理依旧适用于其他图像融合任务。因此,对于未来的工作,拟将本文方法进一步扩展到其他图像融合任务,例如多聚焦图像融合、医学图像融合。此外,还将探索基于神经结构搜索(neural architecture search)的多层次多尺度图像融合网络,自动设计和优化网络结构,从而更加高效地进行多源信息融合和图像重建。

参考文献

  • Alom M Z, Hasan M, Yakopcic C, Taha T M and Asari V K. 2018. Recurrent residual convolutional neural network based on U-Net (R2U-Net) for medical image segmentation[EB/OL]. [2022-05-29]. https://arxiv.org/pdf/1802.06955.pdf
  • Aslantas V, Bendes E. 2015. A new image quality metric for image fusion: the sum of the correlations of differences. AEU-International Journal of Electronics and Communications, 69(12): 1890-1896 [DOI:10.1016/j.aeue.2015.09.004]
  • Bhatnagar G, Liu Z. 2015. A novel image fusion framework for night-vision navigation and surveillance. Signal, Image and Video Processing, 9(1): 165-175 [DOI:10.1007/s11760-014-0740-6]
  • Bulanon D M, Burks T F, Alchanatis V. 2009. Image fusion of visible and thermal images for fruit detection. Biosystems Engineering, 103(1): 12-22 [DOI:10.1016/j.biosystemseng.2009.02.009]
  • Burt P J and Adelson E H. 1985. Merging images through pattern decomposition//Proceedings Volume 0575, Applications of Digital Image Processing Ⅷ. San Diego, USA: SPIE: 173-181[DOI: 10.1117/12.966501]
  • Eslami M, Mohammadzadeh A. 2016. Developing a spectral-based strategy for urban object detection from airborne hyperspectral TIR and visible data. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 9(5): 1808-1816 [DOI:10.1109/JSTARS.2015.2489838]
  • Fu Y and Wu X J. 2021. A dual-branch network for infrared and visible image fusion//Proceedings of the 25th International Conference on Pattern Recognition (ICPR). Milan, Italy: IEEE: 10675-10680[DOI: 10.1109/ICPR48806.2021.9412293]
  • Huo X, Zhou Y, Chen Y, Tan J Q. 2021. Dual-scale decomposition and saliency analysis based infrared and visible image fusion. Journal of Image and Graphics, 26(12): 2813-2825 (霍星, 邹韵, 陈影, 檀结庆. 2021. 双尺度分解和显著性分析相结合的红外与可见光图像融合. 中国图象图形学报, 26(12): 2813-2825) [DOI:10.11834/jig.200405]
  • Li H, Manjunath B S, Mitra S K. 1995. Multisensor image fusion using the wavelet transform. Graphical Models and Image Processing, 57(3): 235-245 [DOI:10.1006/gmip.1995.1022]
  • Li H, Wu X J. 2019. DenseFuse: a fusion approach to infrared and visible images. IEEE Transactions on Image Processing, 28(5): 2614-2623 [DOI:10.1109/TIP.2018.2887342]
  • Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Dollár P and Zitnick C L. 2014. Microsoft COCO: common objects in context//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 740-755[DOI: 10.1007/978-3-319-10602-1_48]
  • Liu M W, Wang R H, Li J, Jiao Y Z. 2021. Infrared and visible image fusion with multi-scale anisotropic guided filtering. Journal of Image and Graphics, 26(10): 2421-2432 (刘明葳, 王任华, 李静, 焦映臻. 2021. 各向异性导向滤波的红外与可见光图像融合. 中国图象图形学报, 26(10): 2421-2432) [DOI:10.11834/jig.200339]
  • Liu Y, Chen X, Cheng J, Peng H, Wang Z F. 2018. Infrared and visible image fusion with convolutional neural networks. International Journal of Wavelets, Multiresolution and Information Processing, 16(3): #1850018 [DOI:10.1142/S0219691318500182]
  • Liu Y, Chen X, Ward R K, Wang Z J. 2016. Image fusion with convolutional sparse representation. IEEE Signal Processing Letters, 23(12): 1882-1886 [DOI:10.1109/LSP.2016.2618776]
  • Ma J Y, Yu W, Liang P W, Li C, Jiang J J. 2019. FusionGAN: a generative adversarial network for infrared and visible image fusion. Information Fusion, 48: 11-26 [DOI:10.1016/j.inffus.2018.09.004]
  • Ma J Y, Zhang H, Shao Z F, Liang P W, Xu H. 2021. GANMcC: a generative adversarial network with multiclassification constraints for infrared and visible image fusion. IEEE Transactions on Instrumentation and Measurement, 70: #5005014 [DOI:10.1109/TIM.2020.3038013]
  • Nencini F, Garzelli A, Baronti S, Alparone L. 2007. Remote sensing image fusion using the curvelet transform. Information Fusion, 8(2): 143-156 [DOI:10.1016/j.inffus.2006.02.001]
  • Piella G and Heijmans H. 2003. A new quality metric for image fusion//Proceedings of 2003 International Conference on Image Processing. Barcelona, Spain: IEEE: 111-173[DOI: 10.1109/ICIP.2003.1247209]
  • Qu G H, Zhang D L, Yan P F. 2002. Information measure for performance of image fusion. Electronics Letters, 38(7): 313-315 [DOI:10.1049/el:20020212]
  • Rao Y J. 1997. In-fibre Bragg grating sensors. Measurement Science and Technology, 8(4): 355-375 [DOI:10.1088/0957-0233/8/4/002]
  • Roberts J W, Van Aardt J A, Ahmed F B. 2008. Assessment of image fusion procedures using entropy, image quality, and multispectral classification. Journal of Applied Remote Sensing, 2(1): #023522 [DOI:10.1117/1.2945910]
  • Ronneberger O, Fischer P and Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241[DOI: 10.1007/978-3-319-24574-4_28]
  • Toet A. 1989. Image fusion by a ratio of low-pass pyramid. Pattern Recognition Letters, 9(4): 245-253 [DOI:10.1016/0167-8655(89)9003-2]
  • Wang Z, Bovik A C, Sheikh H R, Simoncelli E P. 2004. Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing, 13(4): 600-612 [DOI:10.1109/TIP.2003.819861]
  • Yang B, Li S T. 2010. Multifocus image fusion and restoration with sparse representation. IEEE transactions on Instrumentation and Measurement, 59(4): 884-892 [DOI:10.1109/TIM.2009.2026612]
  • Yang B, Li S T and Sun F M. 2007. Image fusion using nonsubsampled contourlet transform//Proceedings of the 4th International Conference on Image and Graphics (ICIG 2007). Chengdu, China: IEEE: 719-724[DOI: 10.1109/ICIG.2007.124]
  • Yu N N, Qiu T S, Bi F, Wang A Q. 2011. Image features extraction and fusion based on joint sparse representation. IEEE Journal of Selected Topics in Signal Processing, 5(5): 1074-1082 [DOI:10.1109/jstsp.2011.2112332]